Et si on arrêtait de dupliquer nos données pour enfin améliorer nos performances ?

Pourquoi faire de I’analyse de données ? Parce que chaque collaborateur, manager, directeur dans l’entreprise a besoin de comprendre la donnée pour prendre une décision avisée à partir de faits établis.

Pour traiter les masses d’informations auxquelles elles sont confrontées – 29 000 Go de data sont publiées dans le monde chaque seconde –, les entreprises ont alors recours à des outils de dataviz tels que Tableau, Power BI ou Microstrategy. Pour autant, 87 % d’entre elles témoignent d’une faible maturité en matière de Business Intelligence. Résultat, elles ont tendance à multiplier les solutions BI en interne et à dupliquer la même donnée auprès de leurs différentes équipes, ralentissant alors considérablement leurs performances globales. Il est plus que temps d’arrêter de copier nos données inutilement !

En 2019, utiliser les données n’est plus une option ! Sans intelligence, impossible de comprendre le comportement de ses utilisateurs, les tendances du marché et les points d’amélioration de ses services. En effet, comment répondre au plus près aux besoins clients sans une connaissance fine de leurs usages de consommation ? Quel navigateur utilisent-ils, quelle version, quel est leur support de connexion privilégié… Autant d’informations clés qui permettent aux équipes IT, UX ou marketing digital de prendre des décisions pertinentes et contextualisées.

La donnée, clé de compétitivité

Imaginez que vous puissiez établir quels produits ou services sont les plus souvent associés dans le panier de vos consommateurs, en magasin ou en ligne. Vous pourriez alors réorganiser vos boutiques en conséquence, pousser des offres adaptées aux clients et même ajouter de nouvelles références pour renforcer votre stratégie d’upsell ! Voilà ce que permet la BI et ce, quel que soit votre cœur business : une intelligence décisionnelle basée sur les faits qui permet d’analyser le passé, d’en tirer des conclusions pour le présent et d’envisager le futur.

Savez-vous combien vous coûte réellement une donnée ?

Mais pour faire de la BI, vous devez collecter de la donnée, beaucoup de données car la pertinence, notamment à l’heure des big data, n’acceptent pas le minimalisme. Et les entreprises en ont bien conscience. C’est pourquoi, aidées par les capacités du cloud, elles accumulent les data pour tendre vers une analyse la plus fine possible, pouvant aller d’un KPI très simple, tel que, dans le cas du transport ferroviaire, le retard moyen des trains sur l’année, à un nombre important de critères plus complexes (villes de départ et d’arrivée, types d’incidents les plus fréquents, raisons principales des retards…).

Se pose alors la question du traitement des données et du chemin emprunté pour comprendre l’information. Et là, le réflexe de nombre d’entreprises est de dupliquer la donnée aussi souvent que nécessaire pour permettre à chaque équipe voire chaque collaborateur de travailler sur un point précis. C’est la règle de sauvegarde dite "3-2-1" : je conserve 3 copies de mes données ; je sauvegarde les fichiers sur 2 types de supports différents ; et j’enregistre une autre copie de sauvegarde hors-site. Un principe de sécurité qui implique de dupliquer a minima 7 fois une seule et même information ! Sans compter que vous devez répéter la manipulation à chaque étape d’analyse et pour chaque utilisateur qui utilise la donnée, et ce dans un contexte de big data. On obtient alors des dizaines et des dizaines de copies pour une donnée unique. Résultat, le coût d’une donnée peut vite devenir exponentiel, qu’il soit matériel, humain ou même énergétique. Les datacenters consommeraient ainsi chaque année entre 2 et 3 % de l’électricité mondiale, certaines ONG avançant même le chiffre de 7 %. Au final, un octet occupe beaucoup plus d’espace et vous coûte beaucoup plus cher que vous ne le pensez !

Stop à la réplication sans fin de vos données

Mais pourquoi la donnée est-elle si souvent répliquée ? Au-delà des questions de sécurité (la perte de données peut coûter également très cher à l’entreprise), parce que les entreprises ont tendance à multiplier les solutions et les équipes de travail en interne. À chaque direction, son propre outil de data visualisation et ses propres axes d’analyse. En conséquence, la donnée est d’autant plus manipulée et dupliquée entre les diverses plateformes : je transforme la data pour la rendre intelligible, puis je la monte in-memory dans chaque outil de restitution et, enfin, je la distribue – et donc je la copie une nouvelle fois – auprès des équipes qui, chacune, va la backuper 3 fois. Plus la chaîne est complexe, plus l’information est copiée, plus le multiprocessing est lourd et donc moins le système se montre performant.

Voilà pourquoi nous devons arrêter de copier sans cesse nos données et les centraliser dans une solution qui permettra de les backuper une seule fois et de travailler directement sur de la donnée fine. Dès lors, plus besoin de préparer la donnée pour la traiter ! Un gain de temps conséquent synonyme d’efficacité et de compétitivité. Et il y a urgence car à ce rythme, en 2037, le stockage des données consommera plus d’électricité que le monde n’en produira !