Localisation : créer de la valeur à partir des données ouvertes, sans compromettre l’anonymat

En matière de confidentialité des données, les données de localisation sont particulièrement sensibles. Il s'agit d'un sujet complexe, d’une part en raison des implications potentielles pour la sécurité et d’autre part vu la manière dont les appareils suivent leurs utilisateurs.

Les véhicules, les opérateurs de téléphonie mobile et les applications pour smartphone sont les plus susceptibles de suivre la localisation des utilisateurs. On peut aisément comprendre que cela puisse mettre mal à l’aise les utilisateurs. Les consommateurs peuvent néanmoins se rassurer, car la plupart des sociétés s’appuient sur les données de localisation de manière responsable, dans l’objectif de créer des services plus sûrs et plus intelligents. C’est d’autant plus le cas depuis que des lois pour la protection de la vie privée ont été adoptées dans le monde entier, notamment le RGPD entré en vigueur en Europe en mai 2018.

Cependant, pour protéger efficacement la confidentialité des données de localisation, il ne suffit pas de se conformer à des lois telles que le RGPD. Si les services du futur doivent réunir et collaborer avec différentes parties prenantes pour s’appuyer sur des informations de nombreuses sources de données dans le monde, il est important que les sociétés ouvrent leurs données. Pour les sociétés et les institutions qui partagent et promeuvent l’open data et leurs pratiques, une approche innovante est nécessaire en matière de confidentialité. Comment ces sociétés peuvent-elles réellement rendre les données de localisation anonymes tout en maximisant leur valeur pour développer des services innovants ?

La dépersonnalisation ne garantit pas l'anonymat

Dans le domaine de la confidentialité des données de localisation, les utilisateurs d’applications et de services peuvent penser que la suppression d’informations nominatives préserve l’anonymat. Or, la dépersonnalisation ne constitue pas une anonymisation et il est encore possible de remonter jusqu’à l’utilisateur. Lorsqu'un utilisateur parcourt le monde, ses appareils ne génèrent pas forcément que des points de données isolés. Ils peuvent créer un ensemble de points de données qui représente plus que la somme des éléments. Voyager d'un endroit à un autre produit toute une séquence d'emplacements et d'horodatages qui se regroupent pour tracer un chemin sur une carte. Toute cette séquence, appelée trajectoire, peut être particulièrement révélatrice et c’est ce qui peut rendre cette catégorie de données confidentielles plus complexe à gérer que d’autres.

Une société qui suit un utilisateur peut supprimer toutes les informations nominatives de ses points de données et ses trajectoires qu’elle serait susceptible de rendre publiques ultérieurement. Cependant, n'importe qui, y compris des tiers, peut ajouter ses propres informations ou d'autres données associées accessibles au public, à ces trajectoires publiées et utiliser cette combinaison de données pour identifier la personne en question. Par exemple, un étudiant australien a pu localiser des bases militaires au Moyen-Orient grâce aux données anonymisées d'une application de fitness. En fait, les chercheurs du MIT savent depuis longtemps qu'il est possible d'identifier des individus en utilisant seulement quatre points de données de localisation.

La nuance entre vie privée et sécurité

Dans de tels cas de violation de la vie privée, les reconstitutions de données qui révèlent des informations privées sont réalisées à l'aide de données accessibles au public. En réalité, il n'y a pas eu de faille de sécurité puisque l’étudiant australien n'a pas eu besoin de clé ou de mot de passe obtenu de manière illicite pour accéder à des informations confidentielles.

Les problèmes de confidentialité surviennent lorsque les entreprises ouvrent certaines informations à des utilisateurs de données, qui peuvent ensuite les exploiter à des fins positives ou malveillantes. Les développeurs ou les chercheurs bien intentionnés peuvent s’appuyer sur des données ouvertes pour concevoir des solutions plus intelligentes. A contrario, les personnes mal intentionnées peuvent les croiser ces données avec des informations extérieures pour révéler des informations qui ne sont absolument pas destinées à être exposées.

Créer de la valeur tout en protégeant la vie privée

Toute société qui fournit aux tiers des données sur les consommateurs est susceptible de transmettre par inadvertance des informations permettant d'identifier les personnes concernées par les données. Ce n’est pas un problème pour les entreprises qui confinent leurs données en interne afin d’améliorer leurs propres services. En revanche, les sociétés qui fournissent des données ouvertes pour favoriser l’innovation doivent adopter une approche réfléchie avant de divulguer des informations.

Si une société divulgue des données en adoptant une approche excessive en matière d'anonymisation et de confidentialité, il sera probablement difficile d’exploiter ces informations limitées pour créer des services intelligents. Lorsqu’à l’inverse, les entreprises publient une profusion de données en se focalisant uniquement sur leur valeur en vue de nouveaux services innovants, il est fort probable que ces données en révèlent plus que prévu, même involontairement.

Les sociétés qui s’appuient sur des données ouvertes et qui les partagent doivent opérer plus intelligemment pour défendre la vie privée des utilisateurs. Les équipes de recherche dont le but est d’aider à développer de meilleurs services et processus ont besoin de la confiance des personnes fournissant les données sur lesquelles elles s’appuient. Préserver cette confiance est un enjeu crucial. Bien que les entreprises doivent protéger en priorité la vie privée des utilisateurs, il est également essentiel pour leur activité de conserver suffisamment de valeur dans les données pour améliorer leurs services et innover. Comment les sociétés peuvent-elles atteindre cet équilibre ?

Comprendre la destination des données fait partie de la solution

S'il n'existe pas de solution idéale à ce problème, les entreprises travaillant avec des données ouvertes peuvent en premier lieu identifier la manière dont les données seront utilisées et déterminer si les données sont susceptibles de trop en révéler dans le cadre des utilisations prévues. Il est également important de spécifier des cas d'utilisation pour comprendre les possibilités d'anonymisation des données tout en maintenant une haute qualité de services.

Par exemple, une société qui évalue le trafic à un endroit donné ou sur un itinéraire donné peut déterminer comment les données seront utilisées et quelles données sont importantes. S'il n'y a pas d’embouteillage, les mises à jour redondantes de la vitesse des véhicules ne sont pas nécessaires. De même, en cas de ralentissement, tous les véhicules bloqués dans la circulation ne doivent pas nécessairement signaler la même situation. En fait, il n'est pas nécessaire de publier des informations sur les véhicules individuels. La société peut se contenter de fournir des informations lorsqu’un seuil d'embouteillage est atteint et indiquer le nombre de véhicules au-dessus de ce seuil.

En adaptant les données au cas d'utilisation prévu, les sociétés peuvent cibler et limiter les informations traitées aux données nécessaires à leurs services, sans toutefois trop en révéler.

Personne ne peut prétendre à une solution parfaite en matière de confidentialité pour les données de localisation. Les sociétés et les institutions peuvent cependant agir de manière responsable en évaluant le risque d'atteinte à la vie privée d'un côté et la valeur des données de l'autre. C’est uniquement ainsi qu'ils pourront adapter les solutions d'anonymisation pour créer une situation gagnant-gagnant alliant respect de la confidentialité et optimisation de la valeur des données pour les services.