Dark data : ce trésor perdu révélé par l'IA

Les entreprises sont assises sur une montagne de données "dormantes" éparpillées sur leurs serveurs ou dans le cloud. Des solutions à base d'intelligence artificielle permettent de les réveiller et de les valoriser.

La pandémie de Covid-19 rappelle l'importance d'accéder aux données d'entreprise en tout lieu et à tout moment. Les sociétés dites data driven traversent mieux que les autres la crise. Le pilotage de leur activité par la donnée leur a permis de comprendre plus rapidement la situation mais aussi de se projeter à court et moyen terme. Cette vue à 360° suppose toutefois d'exploiter un très grand nombre d'informations. Ce qui renvoie à la notion de dark data ou la face sombre des gisements de données.

Les entrepôts de données structurées ne constituent que la partie émergée du patrimoine informationnel d'une entreprise. L'essentiel est consisté d'une multitude de fichiers, d'images et de vidéos qui dorment sur les espaces partagés des serveurs ou sur les terminaux, mais aussi de points de mesure IoT collectés depuis les robots ou les machines-outils. Sans oublier des avis et commentaires laissés sur les réseaux sociaux.

"Les dark data représentent l'ensemble des données que les organisations possèdent mais qu'elles n'exploitent pas", définit Raphaël Savy, vice-président France et Europe du Sud d'Alteryx. Le phénomène serait tout sauf marginal. Selon une étude de Veritas, 52% des données numériques d'entreprises ne sont jamais utilisées (voir infographie ci-dessous).

Libérer le potentiel des données latentes

Au-delà de la perte de valeur liée à leur non-valorisation, les données dormantes présentent également une menace. Inconnues et donc faiblement sécurisées et auditées, elles exposent les entreprises à des risques en termes de fuite d'informations mais aussi de non-conformité. Au regard du RGPD, des fichiers de données personnelles doivent par exemple être supprimés au-delà d'un délai de conservation légal (de 3 ans).

"Pour les rendre exploitables, elles doivent être collectées, nettoyées, normalisées, compilées"

Enfin, les dark data posent la question de la sobriété numérique. Dans l'étude précédemment citée, Veritas estime que leur stockage a généré l'émission de 6,4 millions de tonnes de CO2. Soit l'équivalent de l'empreinte carbone d'une voiture qui ferait 575 000 fois le tour de la Terre !

Pour Raphaël Savy, le principal frein à la valorisation du dark data est d'ordre technologique. "Les données dormantes ne sont pas sagement ordonnées dans des bases prédéfinies ou des tableurs, mais se retrouvent éparpillées entre différents départements voire sur les postes de travail du salarié. Pour les rendre exploitables, tout un travail doit être réalisé en amont pour les collecter, les nettoyer, les normaliser, les compiler. Sachant que beaucoup d'entreprises fonctionnent encore en silos ou de façon très centralisée", argue le consultant.

Infographie illustrant l'étude de Veritas Databerg Resarch sur le dark data. © Veritas

C'est ici qu'intervient le machine learning. Il va permettre d'automatiser les étapes préliminaires de préparation de la donnée, de sa normalisation dans un format exploitable aux processus de documentation et de mise en conformité.

"Quand on met la dark data en lumière, c'est un tsunami de données qui submerge les organisations"

Les technologies d'Alteryx, Alfresco, Splunk, Blue Prism, IBM ou M-Files s'appuient sur l'IA pour détecter les données dormantes, les nettoyer et les structurer. Une automatisation jugée indispensable par Stéphane Estevez.

"Quand on met la dark data en lumière, c'est un tsunami de données qui submerge les organisations. L'humain seul ne peut y faire face, il a besoin d'assistance", souligne le directeur marketing ITOps de Splunk pour la région EMEA. "C'est aussi un moyen de décharger les data scientists qui passent 80% de leur temps à collecter et préparer les données."

Raphaël Savy complète : "Une fois la data préparée et normalisée, on pourra alors la modéliser et entrer dans un processus analytique." Les cas d'usage sont multiples. Un service marketing pourra par exemple améliorer sa connaissance des clients à partir des posts publiés sur les réseaux sociaux, un service production envisager d'évoluer vers la maintenance prédictive en analysant les données IoT collectées, etc.

Toute entreprise qui génère de la donnée est confrontée au phénomène du dark data, qu'elle évolue dans la banque-assurance, la distribution, la logistique ou les services.

Insuffler une culture de la donnée

Du fait de son positionnement, Splunk met en avant l'apport du dark data sur le front des opérations IT. "L'IA permet de monitorer les environnements cloud complexes basés sur des architectures containérisées en microservices en analysant les données de télémétries du code, de l'infrastructure réseau ou d'un cluster Kubernetes. Elle reconnaîtra un schéma de comportement qui a généré par le passé des incidents", détaille Stéphane Estevez. On passe ainsi de la gestion de la performance applicative (APM) à la notion d'observabilité au spectre beaucoup plus étendu.

Pour définir les cas d'usage au plus près des métiers, Raphaël Savy insiste sur l'importance d'insuffler au sein de l'organisation une culture de la donnée tout en démocratisant son accès au-delà des seuls spécialistes de la data science "On pourra proposer une interface unique d'accès à la data permettant à la fois à un expert métier de créer des modèles prédictifs sans écrire une ligne de code, et à un data scientist de réaliser ses développements", explique Raphaël Savy.

Même approche chez Splunk. Sa suite Connected Experiences permet de partager des données à des non informaticiens via des dashboards personnalisés. En unifiant la gestion des dark data, on ouvre le champs des possibles.

Libérer le potentiel des données latentes

Insuffler une culture de la donnée

Dictionnaire du big data