Gérer l'après-big data avec une vision réaliste des données

En ces jours houleux pour les ressources naturelles, que ce soit d'un point de vue écologique ou géopolitique, il est grand temps d'adopter une gestion optimisée des données.

Avec l’inflation du coût de l’électricité en France liée à la pandémie et les scénarios catastrophe sur la hausse du prix des ressources en raison de la crise ukrainienne, les dirigeants d’entreprise sont plus que jamais concernés par la question du traitement et du stockage massif de leurs données. Pour les organisations en pleine transformation numérique, cela s’ajoute aux problématiques de souveraineté des données, d’impact environnemental et de coût. Dans cette course urgente à l’optimisation de la gestion des données, une vision réaliste doit être adoptée.

Le big data, le mieux ennemi du bien dans la transformation numérique

Il y a quelques années, la vague du big data a été importante, dans le monde entier mais particulièrement en Europe et en France. Elle incitait les organisations à une utilisation accrue de leurs données, à l’instar des acteurs nouvelle génération qui le faisaient de façon native. Les entreprises ont alors commencé à centrer leur stratégie business sur les données. Pour ce faire, elles ont lancé des chantiers pour regrouper toutes leurs données dans d’immenses bases de données de type data lake. Ces technologies promettaient qu’une fois toutes les données intégrées à la machine, il serait enfin possible de les exploiter et de se digitaliser à marche forcée.

Les entreprises se sont donc lancées à corps perdu, avec l’idée de “remplir” leur data lake, peu importe le temps alloué et quitte à voir par la suite comment tirer parti des données. Mais l’expérience a montré qu’il y a eu une sur-promesse et qu’on a voulu trop en demander aux solutions de big data.

Résultat des courses : après plusieurs années de projets, les organisations se retrouvent avec un silo de données colossal, des projets onéreux, relativement peu utilisés et donc déceptifs. Les entreprises se sont alors rendu compte que le fait de répliquer physiquement toutes leurs données et de les placer au même endroit n’avait pas beaucoup de sens.

Le cloud ne résout pas tout

Réalisant que les lacs de données coûtaient cher à opérer dans leurs data centers et qu’ils n’étaient pas très agiles, les organisations ont commencé à migrer leurs données vers le cloud. Elles ont pris pour postulat que le fait de placer leurs données dans le cloud et non plus dans une solution de big data ‘on premise’ résoudrait tous leurs problèmes, qu’elles seraient plus faciles à exploiter et que cela reviendrait moins cher.

Mais ce modèle commence à montrer ses limites. En effet, placer toutes ses données dans un cloud public pose des questions en termes de souveraineté, de sécurité et de confidentialité ainsi que de coûts difficiles à maîtriser. Par conséquent, les données sensibles sont conservées on-premise tandis que les autres sont hébergées dans le cloud. Aujourd'hui, le multi-cloud est une pratique qui a le vent en poupe. De nombreux paysages data font cohabiter des données éclatées dans les infrastructures Google Cloud, AWS ou encore Azure, avec de l’on-premise (par exemple SAP). Au bilan, le Chief Data Officer a encore plus de grain à moudre car il est très complexe de garder le contrôle sur des données disséminées. Cela pose de réels challenges au niveau réglementaire, notamment avec le RGPD.

Répliquer les données à tout va, un problème électrique

Le Chief Information Officer, quant à lui, voit un autre danger au fait de répliquer les données en plusieurs endroits. Il s’agit là de l’impact environnemental. En effet, migrer ses données chez Google Cloud, AWS ou Microsoft Azure sous-entend de nombreuses réplications effectuées au sein de ces clouds. Derrière ces nuages, se cachent néanmoins de vrais serveurs qui consomment beaucoup de ressources. Avec l’inflation actuelle du prix de l’électricité et les problèmes géopolitiques, l’enjeu environnemental est aujourd’hui également financier.

Le data mesh rend la transformation numérique réaliste et efficace

Le data mesh, ou maillage des données, est une méthodologie qui dit que quoi que l’on fasse, la data finira toujours par être partagée. Dès lors, il ne sert plus à rien de s’acharner avec le Big Data en plaçant toutes les données au même endroit physiquement, puisqu’elles finiront forcément être dispersées dans de nombreuses technologies différentes. Par ailleurs, une approche data mesh permet de gérer la donnée de manière unifiée, indépendamment de l’endroit où elle est stockée physiquement. Afin de corréler ces informations, les technologies de virtualisation des données permettent nativement de gouverner, gérer et exécuter des requêtes sur des données stockées au sein de plusieurs sources, sans avoir besoin de les dupliquer.

Le point de rencontre entre transformation numérique, souveraineté et RSE

Aujourd’hui, la transformation numérique est à l’agenda de n’importe quel dirigeant d’entreprise. Mais dans la course à la data, les entreprises traditionnelles doivent tenir compte d’un écosystème hérité qui comprend toute leur richesse en termes d’informations et d'avantages concurrentiels. Celui-ci complexifie leur digitalisation face aux acteurs émergents qui sont numériques par essence. Avec une vue optimale de la donnée, le data mesh, motorisé par une technologie de Virtualisation des Données, permet au dirigeant de s’assurer de trois points : sa stratégie d’entreprise, ses équipes et ses technologies sont fédérées autours des données ; il conserve la souveraineté sur ses informations ; l’impact environnemental et les coûts lié à l’hébergement et au calcul des données est rationalisé.