Quand les Dark Data façonnent le Big Data 2.0

Malgré les volumes importants de données générés, il y a des informations que l’entreprise n’exploite pas, et dans certains cas ne stocke pas : on les appelle les données noires.

L’avènement du Big Data 1.0 a permis de se rendre compte de la masse de données détenues par les entreprises, peu importe leur taille. Les récupérer, les trier, les gérer, et en tirer bénéfice, voilà le plus gros défi du Big Data de ces dernières années.

Malgré les volumes importants, il y a pourtant des données que l’entreprise n’exploite pas, et dans certains cas ne stocke pas : on les appelle les données noires (Dark Data)

Celles-ci sont une sorte de matière noire des données. Ces dernières, potentiellement utiles, ne sont actuellement pas mises à profit. Et cela pose à l’entreprise un réel problème, puisque stocker des données apparemment non pertinentes peut être extrêmement coûteux, sans parler de sécurité des données.

Les relations entre les données sont souvent sous-exploitées et constituent en elles-mêmes des données noires.

Pour faire une analogie, regardons le ciel par une nuit étoilée, où les étoiles seraient nos données et le vide, la nuit autour serait cette matière noire que les entreprises n’exploitent pas.

Les relations entre les données, cette matière noire non exploitée

Pour aller plus loin dans l’analogie, ce qui va donner de la « valeur » à ce ciel étoilé, ce ne sont pas seulement les étoiles et les propriétés qui les définissent, telles que la masse, la couleur, mais également la façon dont elles se positionnent les unes par rapport aux autres. On pourra ainsi découvrir la Grande Ourse, par exemple, ou l’étoile polaire qui pourra nous permettre de nous guider…

Pour les données, nous avons la même problématique, ce qui va être intéressant n’est pas uniquement la donnée mais les relations qu’une donnée entretient avec les autres.

Et cette capacité à prendre en compte ces relations entre les données donne encore plus de valeur aux données elles-mêmes puisque l’entreprise sera en mesure de capitaliser sur celles-ci mais également sur leurs interactions.

Prenons l’exemple d’un vendeur sur Internet et d’un internaute qui cherche un vidéoprojecteur. Ce dernier va renseigner les caractéristiques de sa recherche : résolution, format, compatibilité, prix… En mode Big Data 1.0, le vendeur va proposer à l’internaute des produits qui correspondent à sa recherche. Ensuite, le client sera libre de les acheter ou non. Si le vendeur a une réelle gestion de ses données noires, les relations entre ses données, il va pouvoir prendre en compte la demande de l’internaute, mais il va également se rendre compte que ce dernier est ami avec 2 autres internautes qui ont tous les 2 acheté récemment un vidéoprojecteur de la marque X, ou encore, il remarquera que l’internaute en question a déjà acheté tel ordinateur ou tel lecteur Blu-Ray. Le vendeur va donc mettre en avant ce modèle, ou des modèles qui sont compatibles avec ce que le client a acheté précédemment. Ainsi, il augmentera ses chances de vendre son produit. C’est un peu comme si l’on regardait le ciel la nuit, étoile par étoile.

Exploiter ces données noires, c’est passer du Big Data 1.0 au Big Data 2.0

En Big Data 1.0, les entreprises s’intéressent uniquement aux données.

La prise de conscience de ces données noires et de leur valeur ajoutée va ainsi nous amener à dépasser ce simple traitement de données pour entrer de plain-pied dans le Big Data 2.0 dans lequel chaque donnée et chaque relation entre ces données apporteront de la valeur à l’entreprise.

Et les applications de ces données noires sont infinies dans une optique de Big Data. Imaginons un fournisseur d’électricité. Il a fait poser partout des compteurs intelligents qui permettent de faire remonter les informations. En mode Big Data 1.0, lorsqu’un problème apparait, l’entreprise a l’information du problème et du composant concerné. Il pourra alors envoyer un technicien pour réparer le dysfonctionnement. Et cela va s’arrêter là.

En mode Big Data 2.0, le fournisseur aura cartographié son réseau et lorsque l’information de dysfonctionnement lui sera parvenue, il saura quel équipement a rapporté l’anomalie, mais en outre, il pourra remonter à la cause originelle problème qui peut être un autre équipement bien plus loin sur le réseau, il pourra aussi identifier les impacts sur d’autres parties du réseau et anticiper d’autres dysfonctionnements qui pourraient arriver.

En conclusion, dans le Big Data 1.0, nous avions les outils pour trier et analyser les données mais il manquait la technologie pour dépasser ce stade et identifier et gérer ces données noires (dark data) que sont les relations entre les données. Avec l’avènement des bases de graphes, aujourd’hui, il est possible de rentrer de plain-pied dans le Big Data 2.0.