Est-il vraiment possible d’anonymiser les données sensibles ?

Le développement du numérique et l’augmentation fulgurante des objets connectés (smartphone, capteurs…) engendrent des quantités inédites et de nouveaux types de données. De plus, le coût du stockage de ces données est devenu négligeable favorisant ainsi une collecte massive et souvent sans objectif précis. L’exploitation de ces données repose principalement sur des technologies comme le big data et le cloud computing avec des perspectives de partage et d’exploitation qui suscitent un intérêt et une demande qui ne cessent de croître.

Certes, le partage des données apporte des avantages évidents à notre société, mais à condition de respecter l’anonymat, qui est un droit personnel et une liberté fondamentale de chaque individu. Il en résulte un besoin urgent de protéger ces données, car si les raisons purement morales ne sont pas suffisantes pour justifier les dépenses dans la protection des données, les conséquences en termes d’images et le coût associé sont beaucoup plus moteurs. Dans ce sens, la législation européenne se durcissant avec probablement des conséquences judiciaires et pénales. Ainsi, le règlement général sur la protection des données (RGPD), règlement européen en vigueur depuis le 24 mai 2016 et applicable à partir du 25 mai 2018, prévoit des sanctions pouvant aller jusqu’à 4 % du chiffre d’affaires annuel mondial et 20 millions d’euros comme amende administrative.

C’est officiel, dès lors que les données en question sont anonymisées, la législation européenne sur la protection des données ne s’applique plus. L’anonymisation peut donc constituer une excellente stratégie afin d’assurer la protection des données tout en conservant l’information sous-jacente pour les besoins de la tâche concernée. L’anonymisation est donc aujourd’hui essentielle pour de nombreux acteurs qui souhaitent valoriser les données qu’ils détiennent. Cependant, la difficulté réside dans la validation de l’anonymisation ainsi de savoir comment anonymiser correctement ces données.

Loin d'être gagné, la plupart des travaux de recherche font clairement ressortir toute la difficulté d’anonymiser efficacement un ensemble de données. Certes, il existe des solutions pour garantir un certain niveau de protection des données, mais celles-ci sont souvent difficiles à mettre en œuvre en pratique. Chaque technique présente des avantages et des inconvénients. Toutefois, une chose est évidente : il n’existe pas de technique qui permet à elle seule d’anonymiser véritablement n’importe quel jeu de données. Il faut par conséquent définir à chaque fois une démarche d’anonymisation adaptée à chaque ensemble de données afin d’identifier la combinaison de techniques qui répond le mieux à l’objectif recherché.

Le G29 (groupe de travail Article 29 sur la protection des données) partage le même constat : "Une solution d’anonymisation doit être construite au cas par cas et adaptée aux usages prévus". Pour aider à évaluer une bonne solution d’anonymisation, le groupe de travail défini les données anonymes comme un ensemble de données pour lequel il n’est possible ni d’individualiser ni de corréler ni d’inférer. Un ensemble de données pour lequel au moins un des trois critères n’est pas respecté ne pourra être considéré comme anonyme qu’à la suite d’une analyse détaillée des risques de ré-identification.

Parmi les méthodes d’anonymisation existences, la confidentialité différentielle se distingue clairement comme l’une des méthodes d’anonymisation les plus efficaces (fournissant des preuves formelles et vérifiables). Cette méthode est censée rendre les données anonymes.

Nous l’avons vu dans le monde du mobile, Apple s’empare du sujet en appliquant la confidentialité différentielle pour connaître les émojis les plus utilisés afin de garantir la confidentialité des utilisateurs. Or, des chercheurs ont publié un document dans lequel ils remettent en cause la façon avec laquelle la confidentialité différentielle a été appliquée. Ce qui prouve la très grande importance et surtout la complexité du problème. À son tour, Google a intégré récemment la confidentialité différentielle à sa solution machine learning Tensorflow.

Dans les faits, l’anonymisation ne peut se faire que dans un cadre stricte et transparent en effectuant une veille régulière des solutions d’anonymisation pour préserver, dans le temps, le caractère anonyme des données.