Big, wide, small : la data dans tous ses états

Confrontées à une situation inédite, les entreprises de tous secteurs ont dû revoir, depuis la pandémie, les ambitions de leur système d'information. À la hausse, pour permettre à tous les collaborateurs de poursuivre leur travail à distance ou basculer leurs activités sur des modèles en ligne... Mais aussi à la baisse, en constatant les limites de leur stratégie data-driven.

Or noir proclamé, la data s’est en effet révélée dans ce contexte beaucoup plus difficile à apprivoiser que prévu. Une pierre dans le jardin des solutionnistes qui pensaient que la data pouvait et allait tout résoudre ! Pourtant, Gartner le constate : « avec l’arrivée du COVID, les organisations s’appuyant sur de grandes quantités de données historiques pour leur analytique se sont rendu compte d'une chose importante : beaucoup de ces modèles ne sont plus pertinents ». La Covid-19 aurait-elle eu la peau des big data ? Et, si oui, faut-il vraiment jeter les données avec l’eau du bain ?

Le grand bug des big data

À chaque crise, des subprimes au Covid, la question revient : « Comment, les outils prévisionnels, les solutions analytiques, n’ont-ils pas empêché la catastrophe ? ...Mais que fait l’IA ? ». Si la question révèle surtout une méconnaissance profonde des mécanismes informatiques en jeu (notamment l’ambiguïté de la nécessité de disposer de jeux de données historiques pertinents face à une situation inédite !) elle est néanmoins légitime au regard des promesses entendues depuis des années et à la course au big data qui s’est ensuivie.

Misant sur ces stratégies data-driven, et dans la crainte de passer à côté d’un trésor informationnel, les organisations se sont mises à collecter et à stocker des volumes énormes de données à des fins d’analyses, principalement pour nourrir le machine learning. Une approche essentiellement technique laissant trop souvent dans l’ombre les questions de l’utilité de ces données et de leur appropriation par les métiers de l’entreprise. Cet « oubli » signait les limites du big data : une trop grande complexité, des projets s’étalant sur plusieurs années, et des résultats encore très peu visibles.

Dans ce contexte, comment être surpris quand Gartner annonce en 2017 que 85 % des projets big data échouent ? 87 % des projets n'arrivant même jamais en production, selon VentureBeat en 2019. La même année, Gartner prédisait que d’ici 2022, seuls 20 % des informations tirées de l’analytique auraient un véritable impact économique pour l’entreprise... Chantre de la small data, qu’il conçoit comme des données sensibles recueillies par l’observation humaine, l’auteur Martin Lindstrom, allait même jusqu’à affirmer dès 2016 que « le monde de l'entreprise est devenu complètement aveuglé par le Big Data et en oublie la créativité ».

L’extension du domaine de la data

Les succès de la data-science sont pourtant incontestables dans de très nombreux domaines aussi variés que la segmentation clients, la lutte contre la fraude ou la maintenance prédictive... Ainsi, l’expansion de la datasphère se poursuit sans relâche : les données créées par an passeraient de 64,2 ZB en 2020 à 179,6 ZB en 2025 selon IDC, avec en particulier une forte croissance du cloud. Corollaire de cette croissance : la multiplication des sources de données, de plus en plus variées et nombreuses. Si 54% des entreprises exploitent actuellement moins de 10 sources de données, elles sont 75% à prévoir d’en utiliser bien plus de 10 dont 30% plus de 20 et 10% plus de de 30 !

Mais dans son tout dernier top 10 des tendances Data & Analytics paru fin février, Gartner jette un fameux pavé dans la mare : « la pandémie a tout changé, rendant beaucoup de données inutiles ». Un verdict sans appel pour les techniques traditionnelles d'IA reposant principalement sur l’accumulation massive de données historiques... Dans l’entreprise, cette approche technique singulièrement centrée sur le stockage de méga données est déjà, grâce au cloud, en train de passer au second plan, au profit d’une véritable approche métier et fonctionnelle de la donnée.

Pour émettre des hypothèses, des prédictions ou des résultats métiers pertinents, l’heure est donc à la small data : de nouvelles techniques d’analyse et de machine learning qui ne nécessitent plus des jeux de données massifs, qui en tout cas en requiert moins, ou « petites » et plus variées. Face à la perte de sens inhérente aux larges agrégats de données, les wide data soulignent quant à elles la nécessité de créer des synergies entre des jeux de données très variés et une infinie variété de sources de données pour améliorer la connaissance des contextes et ainsi obtenir des décisions plus avisées. Gartner souligne que « ce travail de contextualisation passera par une collaboration plus étroite, voire une intégration complète des équipes data et analyses directement au cœur des fonctions métiers », pour enfin créer de la valeur économique.

Ainsi, face aux chausse-trappes des big data, les frustrations ne doivent en aucun cas se muer en résignation. C’est au contraire une injonction pour les entreprises, et notamment chacun de ses métiers, de se poser la question de l’utilité de leurs données et de leur potentiel pour transformer ses activités. En somme, c’est l’occasion de prendre enfin véritablement les rênes de sa « data culture » pour entrer en conscience dans cette ère nouvelle de maturité numérique.

Big, wide, small : la data dans tous ses états

Le grand bug des big data

L’extension du domaine de la data

Guides

Repères