Anonymisation des données : l'importance de minimiser leur mouvement
Les méthodes actuelles d'anonymisation de la donnée augmentent le risque. Une solution consiste à limiter au maximum le mouvement des données et privilégier le traitement au plus près de la base.
Si l’anonymisation des données pose déjà un défi de taille sur les infrastructures privées, la nature restrictive des environnements cloud public accroît encore ce phénomène : contrairement aux infrastructures locales où l’installation de logiciels est généralement libre, les plateformes cloud imposent souvent des limitations strictes, ce qui soulève des défis importants, notamment en ce qui concerne la localisation et le mouvement des données.
Le mouvement et la duplication des données : facteurs de risque
Actuellement, la majorité des outils d’anonymisation reposent en effet sur des architectures de type ETL (Extraction, Transformation, Chargement). Leur processus implique l’extraction des données de leur base d’origine, leur traitement externe, puis leur rechargement dans la base initiale ou une base distincte.
Cette approche génère des préoccupations majeures en matière de sécurité, particulièrement lorsque les données sont hébergées dans un environnement cloud. En effet, l’extraction des données du cloud pour les traiter expose ces dernières sur le réseau de l’opérateur, augmentant ainsi la surface d’attaque potentielle. Prenons l’exemple d’une entreprise souhaitant fournir des statistiques marketing anonymisées à son équipe commerciale. L’utilisation d’un outil ETL traditionnel implique d’extraire l’ensemble des données du cloud, de les anonymiser, pour enfin transférer la donnée anonymisée à l’équipe marketing. Ce processus fait transiter les données, les duplique et les expose inutilement à des risques de sécurité.
Augmenter l’intelligence de la base pour limiter le mouvement des données
La première règle de la sécurité informatique consistant à réduire la surface d’attaque et diminuer le nombre de points d’entrée que pourraient exploiter des personnes malveillantes, cette démarche visant à protéger les données augmente finalement de manière assez paradoxale la dispersion de la donnée, et donc le risque.
Une solution alternative, comme l’utilisation de l’extension PostgreSQL Anonymizer dans l’univers de la base de données Open Source PostgreSQL, permet d’effectuer l’anonymisation directement au sein de la base de données. Cette approche présente l’avantage de ne pas nécessiter l’extraction des données, réduisant ainsi considérablement la surface d’attaque. Les données anonymisées peuvent ensuite être extraites en toute sécurité (pour l’équipe marketing dans l’exemple mentionné plus tôt), sans jamais avoir quitté l’environnement sécurisé de la base de données.
Cette approche s’inscrit dans une tendance croissante visant à minimiser le mouvement des données et à privilégier le traitement au plus près de la source. Elle fait écho aux pratiques des années 80, où la transformation des données était souvent effectuée directement dans la base de données via des procédures stockées. Avec les nouvelles réglementations visant à renforcer la posture de sécurité des entreprises, on observe ainsi une tendance forte à la recentralisation des données et à l’intégration de plus d’intelligence dans les bases de données.
L’anonymisation des données est une étape cruciale pour garantir la confidentialité et la sécurité des informations sensibles. Le choix d’une solution qui limite au maximum le mouvement des données et privilégie le traitement au plus près de la source est primordial pour minimiser les risques et garantir une protection optimale. Il s’agit de projets qu’il est important d’envisager dans leur ensemble et dès le début d’un projet, car le coût de l’anonymisation n’est pas neutre. Il s’évalue notamment en termes de temps CPU mais aussi en termes de ressources humaines. Non seulement pour les besoins de formation, mais aussi parce qu’empêcher l’identification par inférence, recoupement ou déduction réclame une véritable connaissance des données et une réflexion aboutie sur les scénarios possibles.