Le potentiel caché de l'anonymisation profonde des données

Entre les contraintes réglementaires aussi complexes que mouvantes et le développement galopant de nouvelles solutions technologiques, il semblerait que des solutions pérennes se concrétisent. .

Le Règlement Général sur la Protection des Données (RGPD) met à la disposition des organisations opérant des traitements de données à caractère personnel une procédure qui leur permet d’effectuer des analyses essentielles pour leur développement tout en assurant aux usagers une protection totale de leur vie privée : l’anonymisation profonde des données.

Il s’agit de méthodes sophistiquées de transformation des données qui résistent aux attaques par corrélation, inférence et re individualisation.

Les avantages de l’anonymisation profonde sont considérables. Une fois anonymisées, les données perdent leur caractère de données personnelles : elles ne sont plus soumises aux différentes règles implémentées par le RGPD qui en limitent le traitement. Cela signifie que leur traitement n’est pas soumis au consentement et que différentes contraintes telles que la limitation de la durée de conservation ne sont plus applicables.

L’anonymisation profonde des données est aujourd’hui bien souvent ignorée par les acteurs économiques, qui en comprennent mal le fonctionnement et par conséquent le potentiel. C’est pourquoi j’ai décidé d’interviewer Isabelle Bordry, fondatrice et présidente de la société Retency, experte de solutions d’anonymisation profonde.

Bref rappel du cadre juridique

L’anonymisation profonde peut être définie comme un processus irréversible de dé-identification, rendant donc impossible toute identification de la personne concernée à partir des données, par quelque moyen que ce soit.

Le groupe de travail “article 29” sur les Techniques d’Anonymisation, dont l’analyse est toujours d’actualité, distingue trois critères permettant de s’assurer qu’un jeu de données est véritablement anonymisé :

1- L’individualisation : il doit être impossible d’isoler / de distinguer un individu à partir d’une base de données. Par exemple, un jeu de données rassemblant des CV ne sera pas anonymisé en se contentant de remplacer les noms et prénoms par des numéros d’identification. Il serait en effet toujours possible de distinguer un individu par le biais du contenu de son CV (expériences professionnelles, diplômes, etc.).

2- La corrélation : il doit être impossible de relier deux ensembles de données concernant un même individu. Par exemple, une base de données contenant des tickets de caisse n’est pas anonyme si une autre base de données (comme des données de transactions) permet d’associer le détail de chaque ticket de caisse à un individu identifié – ce qui est particulièrement facile avec la datation du ticket de caisse et son montant.

3- L’inférence : il doit être impossible de déduire de nouvelles informations à propos d’une personne concernée à partir d’un ensemble de données. Par exemple, imaginons une base de données contenant les réponses à un questionnaire sur le statut patrimonial d’un ensemble d’individus. Que, dans le cadre de cette étude, tous les hommes entre 22 et 24 ans aient déclaré qu’ils n’étaient pas propriétaires. Il sera alors possible de déduire que Mr. X, qui a 23 ans et qui a répondu au questionnaire, n’est pas propriétaire.

Si ces trois critères sont respectés, alors les données en question sont proprement anonymisées, et perdent donc leur caractère de données à caractère personnel.

Le point avec Isabelle Bordry, co-fondatrice de Retency.

Isabelle, pourriez-vous, pour ceux qui ne vous connaissent pas encore, en quelques lignes ?

Je suis cheffe d’entreprise, business angel, administratrice indépendante, une des pionnières de l’internet en France. J' ai participé au lancement et au développement de Yahoo en Europe dont j'ai successivement occupé les postes de Directrice Commerciale et Directrice Générale en France, puis de Directrice des Opérations pour l’Europe.

Je suis aujourd'hui co-fondatrice de la société Retency dont j'accompagne le développement stratégique et commercial. Retency est une société spécialisée dans le traitement et la protection des données personnelles. La société regroupe une équipe d’ingénieurs hautement qualifiés, spécialisés dans la conception de logiciels « Privacy by Design ». Les technologies proposées se fondent sur des solutions mathématiques d’anonymisation profonde pour offrir une alternative efficace au consentement “opt in”.

Pourquoi avoir choisi de partager avec nous sur ce sujet très spécifique ? En quoi est-il aujourd’hui important d’éclaircir les questions liées à l’anonymisation profonde ?

On observe ces dernières années un double mouvement renforcé par un certain nombre de scandales, telle que l’affaire Cambridge Analytica. D’un côté, les consommateurs ont pris conscience de l’importance de protéger leurs données personnelles afin de préserver leur vie privée. De l’autre, les grandes marques ont réalisé la nécessité d’établir un lien de confiance absolu avec leurs clients, tout en se dotant de moyens d’analyse pertinents afin d’améliorer leurs services, et de rester compétitives.

Pour faire face à cette double exigence du marché, l’anonymisation profonde est une solution technique qui permet aujourd’hui de répondre aux besoins opérationnels de ces entreprises dépendantes de la data tout en intégrant les contraintes juridiques liées aux récentes réglementations comme les préoccupations du consommateur en termes de vie privée. L’innovation résulte souvent de la contrainte.

Nous en avons donné une définition juridique dans notre introduction, mais comment définiriez-vous l’anonymisation profonde ?

L’anonymisation profonde est une protection totale apportée au traitement de données à caractère personnel. Elle garantit l’incapacité mathématique de ré-identifier un individu ou d’obtenir la moindre information individuelle le concernant spécifiquement.

Le point clé est de permettre une utilisation opérationnelle de ces jeux de données dé-identifiés, par exemple en les comparant sans risque.

L’anonymisation profonde permet ainsi d’obtenir des informations opérationnelles clés tout en préservant la vie privée des individus et en garantissant une confidentialité totale de la data détenue par les acteurs économiques ou publics.

Quelle différence entre anonymisation et pseudonymisation, deux concepts parfois confondus ?

La pseudonymisation est une technique simpliste, qui ne répond pas aux attaques par corrélation ou par inférence et donc n’apporte aucune protection à l’échelle individuelle. Elle est d'ailleurs trop souvent présentée comme une méthode d’anonymisation.

Ainsi , à titre d’illustration, si vous avez trois points précisant la localisation d’un téléphone sur une journée dans une ville, il est possible très simplement de déterminer à qui l'appareil appartient en comparant cette base à une ou deux autres bases de données, par exemple issues d’un transporteur ou d’un distributeur.

L’anonymisation profonde, au contraire, représente un ensemble de techniques tout à fait spécifiques, qui garantissent l’impossibilité totale de réidentification de l’individu, directement, par corrélation ou par inférence.

Quels sont les risques associés à une anonymisation incorrecte de données à caractère personnel ? Comment s’assurer d’une anonymisation parfaite ?

L’anonymisation d’une base de données est parfaite lorsqu’il est devenu impossible de déduire une information individuelle, que ce soit par l’analyse de cette base ou en s’aidant d’une base de données tierce. Une évaluation rigoureuse des méthodes d’anonymisation au vu de ce critère est nécessaire afin de s’assurer que les données ont bien été anonymisées correctement.

Mais de nouveau ce n’est pas parce qu’il est impossible d’identifier un individu que les résultats ne sont pas exploitables de façon pertinente. Des procédés d’anonymisation profonde sont par exemple aujourd’hui utilisés par certaines agences media et grands annonceurs pour optimiser leur plan media et pour mesurer les performances de campagnes sur la base notamment de données first party.

Beaucoup considèrent qu’une donnée anonymisée est une donnée “perdue”, qui n’a plus d’intérêt business. Est-ce vraiment le cas ?

Le développement du numérique a apporté la capacité technique de raisonner à l’échelle de l’individu. La fameuse révolution du « One to One ». Cette capacité technique a développé la perception qu’une stratégie, notamment marketing et publicitaire, ne peut être établie que sur la base d’un raisonnement construit à l’échelle individuelle pour être efficace. Mais ce n’est pas la seule méthode : une stratégie produit (comme un plan média par exemple) se développe en fonction de segments, constitués de groupes d’individus répondant aux mêmes caractéristiques.

Cette situation est éclatante lorsque l’on s’intéresse à l’IA. Nous avons ainsi démontré que l’entraînement d’un modèle d’IA sur une base de données traitée par anonymisation profonde permet d’obtenir la même efficacité, la même performance prédictive, que si on entraîne cette même IA avec une donnée simplement pseudonymisée (et donc encore personnelle). Les modèles d’IA n’ont que faire des particularités individuelles, ils raisonnent au niveau du groupe et sont reconnus comme totalement pertinents.

L’anonymisation profonde limite malgré tout l’utilisation que l’on peut faire de la donnée. Dans quel cas de figure est-il préférable de recourir à la pseudo-anonymisation ?

Aujourd’hui les principales limites existent surtout dans la réflexion des intervenants. Une illustration criante de cette situation concerne le ciblage publicitaire. Beaucoup pensent encore que le ciblage publicitaire ne peut être fondé que sur des données individuelles, en clair ou pseudo-anonymisées. En réalité, les décisions de ciblage publicitaire se prennent sur des caractéristiques identifiées au niveau d’un groupe.

Ces caractéristiques peuvent tout à fait, et avec la même efficacité, être obtenues à partir de bases de données dé-identifiées. La diffusion de la publicité s’effectue ensuite en fonction de ces caractéristiques, en temps réel, sans qu’il soit possible de déterminer individuellement qui est ciblé.

Prenons un autre exemple : un modèle entraîné avec des données anonymes de conversion “drive-to-store” permet de calculer la probabilité maximale que présentent les lecteurs d’un média en ligne qui visitent les rubriques santé et voyage pour l’achat d’une crème solaire. La décision diffusion d’une telle publicité se prend ensuite en temps réel en fonction de l'enchaînement des impressions des pages diffusées.

En conclusion

Certaines réglementations comme le RGPD ou des décisions de géants incontournables de l’industrie digitale ont parfois été perçues comme des challenges insurmontables. Il semblerait que ces changements trouvent, grâce à des technologies innovantes notamment, des solutions techniques qui permettent de répondre aux exigences réglementaires, tout en apportant plus de protection aux individus et en créant des opportunités économiques prometteuses.