Traiter sans exporter, l'idée de l'Occitanie pour obtenir les données du privé

Traiter sans exporter, l'idée de l'Occitanie pour obtenir les données du privé Lancée par la région, l'association Occitanie Data, qui regroupe 17 acteurs publics et privés, va devenir un groupement d'intérêt public. Sa mission : favoriser le partage de données sur son territoire.

Comment convaincre le secteur privé de partager des données jalousement gardées dont l'analyse servirait l'action publique ? C'est une question qui travaille depuis plusieurs années les collectivités locales françaises, qui expérimentent différents modèles qui leur permettraient de récupérer ces données. Dans cette optique, la région Occitanie travaille depuis 2019 sur le projet Occitanie Data, qui regroupe 17 acteurs publics, privés et du monde de la recherche dans une association.

L'originalité du projet tient dans la manière de partager les données. Plutôt que d'organiser des échanges de données entre les membres, ou bien de les centraliser dans un data lake commun, l'idée est de les traiter directement dans la base de données d'origine sans les récupérer. Un tiers de confiance (qui reste à déterminer) viendrait réaliser l'analyse de données chez l'un des membres pour ensuite en transmettre uniquement les résultats à un autre membre, sans que ce tiers ne puisse conserver les données.

Des données de meilleure qualité

Un fonctionnement dont le but est de renforcer la confiance entre les membres et de rassurer les entreprises quant à la confidentialité de leurs données. Car le projet s'intéresse à une "zone grise" entre les données publiques en open data et celles totalement fermées, explique le président d'Occitanie Data Bertrand Monthubert, chercheur en mathématiques et conseiller régional d'Occitanie (groupe majoritaire socialiste républicain et citoyen), délégué enseignement supérieur et recherche. "Certains acteurs sont favorables à ce que des traitements statistiques soient réalisés à partir de leurs données, mais ne veulent pas les transférer telles quelles."

C'est aussi une question de qualité des données, poursuit Bertrand Monthubert, car elles doivent être anonymisées ou agrégées avant d'être partagées, ce qui dégrade leur qualité. "Par exemple, les données sociales de l'Insee sont regroupées en échantillons de plusieurs milliers d'individus, ce qui empêche de réaliser certains traitements." Il prend également l'exemple de l'outil Fluxvision d'Orange, l'un des membres d'Occitanie Data. Ce produit payant analyse les déplacements sur le territoire grâce aux données du réseau mobile de l'opérateur. Mais il est impossible d'accéder aux données sources de Fluxvision pour aller au-delà des traitements déjà proposés. 

Un premier service en 2021

Malgré cette approche originale Occitanie Data devra se frotter à la complexe question du modèle économique. Car un simple troc de données ne conviendra pas à certaines entreprises, qui monétisent déjà ces informations. La liste des membres du projet illustre d'ailleurs cette difficulté. Les entreprises qui en font partie (Orange, Enedis, Atos, Sopra Steria...) sont des habituées de la commande publique ou de la délégation de service public, donc plus sensibilisées à ces problématiques en raison d'obligations légales ou contractuelles. Conscient de ces difficultés Occitanie Data n'exclut pas de permettre des rémunérations pour l'accès à certaines données, sans vouloir en faire la norme pour autant. "Nous devons trouver un modèle économique pour le traitement de données multi acteurs. Nous avons échangé avec des économistes sur la question, pour l'instant très peu de travaux de recherche portent sur ce sujet," constate Bertrand Monthubert.

En attendant d'y arriver, le projet avance. Créé sous la forme d'une association, Occitanie Data deviendra un groupement d'intérêt publique l'année prochaine. Cette structure permet à la puissance publique de s'associer au privé, à condition de conserver la majorité des voix et du capital. De premières mises à disposition de données ont été réalisées cette année, d'autres sont encore en discussions entre les participants. Ce qui doit permettre de démarrer l'année prochaine plusieurs expérimentations et études. Parmi elles, l'identification des catégories à risque pour le coronavirus, l'optimisation de la production et de la consommation d'énergies renouvelables ainsi que des déplacements professionnels. Mais aussi un projet d'IA qui sortira en janvier ou février et proposera des parcours de formation personnalisés en faisant le lien entre le CV, les catalogues de formation et les offres d'emploi disponibles, dans le cadre de projets de reconversion.

Pour l'instant, ces projets sont basés sur des accords ponctuels entre membres d'Occitanie Data avec des échanges de données classiques, mais à terme l'objectif est bien d'automatiser ces relations. Un laborieux travail technique, juridique et économique attend encore les membres d'Occitanie Data.