Les entreprises historiques et la transformation digitale

Une donnée sans gouvernance, c'est une donnée sans intelligence.

Toutes les grandes entreprises historiques rêvent d'être comme Google, Facebook, Amazon, Uber ou Airbnb, mais il y a une caractéristique clé qui les sépare. Les premières n'avaient pas l'apprentissage machine (machine learning) dans leur ADN. Les secondes ont exploité ces technologies avancées dès leur début.

La donnée, une ressource transformée en un capital

Pour les entreprises nées avant Internet, les données constituaient une ressource informatique servant à la conduite des affaires internes regroupées dans ce qu'on appelle système d'information. À ce titre, les données ont été déléguées à la direction informatique pour les gérer au quotidien. Cette dernière avait pour mission de construire l'architecture de données globale, de choisir les fournisseurs des bases de données et de concevoir toutes les applications nécessaires pour rendre les données d'entreprise accessibles aux opérationnels et aux fonctionnels, parfois aux partenaires.

L'ère de la planification des ressources d'entreprise (ERP) permettait de gérer les données de la finance, de la chaîne d'approvisionnement, de la logistique et des ressources humaines. Après l'ère ERP, nous avons eu l'ère de la gestion de la relation client (CRM) pour gérer les données à des fins de marketing, de vente, de services et de support. Puis vint Internet qui déclencha une nouvelle ère avec les sites Web, les pages de médias sociaux et les applications mobiles téléchargeables.

Contrairement aux deux premières époques, l'ère Internet a donné naissance à un nouveau type de données et à de nouveaux processes qui sont totalement différents de ce dont les entreprises historiques avaient l'habitude : cookies, pixels, images, vidéos, etc.

Google, Facebook, Amazon, Uber et Airbnb sont nés avec l'apprentissage automatique dans leur ADN. Dès le début, leurs analyses portaient non seulement sur le passé et le présent (ex., analyse des ventes passées et en cours) mais aussi sur ce qui pourrait se passer dans le futur (ex., prévision des ventes à venir). Dans le même temps, les analyses chez les entreprises historiques étaient limitées à ce qui se passait.

Mais les choses ont changé depuis l'avènement des mégadonnées (big data). Les entreprises historiques ont changé leur vision sur la donnée, d'une ressource simplement technique, à une ressource hautement stratégique, et ont commencé à embaucher des spécialistes de la donnée avec des titres hétérogènes : data miners, data analysts, data scientists... Malgré ce changement de vision, les entreprises historiques continuent à la traîne derrière les plates-formes et les autres entreprises digitales qui sont déjà entrés dans l'ère de l'apprentissage profond (deep learning), version encore plus sophistiquée de l'apprentissage machine.

La question que se poserait un lecteur attentif est de savoir pourquoi les entreprises historiques sont toujours à la traîne malgré leurs vastes bases de données couvrant plusieurs décennies (cas des détaillants, des banques et des assurances) et leurs investissements récents dans les technologies de mégadonnées et sciences de la donnée (data science) ?

La réponse n'est pas que les entreprises historiques soient moins armées que les entreprises digitales, ni que leurs dirigeants ne soient pas conscients de la valeur des données internes de leurs entreprises ont accumulé depuis des décennies, ou que leurs experts en données soient moins bien qualifiés que ceux de Google, Facebook, Amazon, Uber et Airbnb.

La réponse réside dans l’âge, la structure, le format, la qualité et la diversité des données qui séparent les deux types d'entreprises. En effet, les données des entreprises historiques sont beaucoup plus complexes qu'on pourrait le penser. Les exploiter pour extraire des prédictions comme le font les plates-formes en ligne, n'est pas automatique. Pour atteindre le niveau de sophistication des plates-formes en ligne, les entreprises historiques n'ont d'autre choix que d'ajouter une couche gouvernance des données au-dessus de la couche gestion des données (data management) et en-dessous de la couche sciences de la donnée, comme présenté dans les sections suivantes.

La gouvernance des données, indispensable pour la science des données

Comme tout nouvel acronyme, il n'y a pas de consensus sur la définition de la gouvernance des données. Pour avoir une idée intuitive, pensez à tous les travaux de préparation que les statisticiens font pour chaque projet et imaginez tout ce travail fait une fois et régulièrement mis à jour pour tous les projets. C’est la gouvernance des données en action.

Dans une architecture de données en couches, la gouvernance des données se situe au-dessus de la gestion des données (bases de données relationnelles, mégadonnées, stockage en nuage, etc.) et de la science des données (modélisation statistique, analyse prédictive, apprentissage automatique, etc.) pour couvrir au moins les fonctions suivantes :

L'ingestion, l'intégration et l'harmonisation des données provenant de toutes les bases de données qui composent le système nerveux digital de l'entreprise. Selon le secteur et les activités de l'entreprise, ce système peut comprendre des processus reliant étroitement toutes les activités de l'entreprise dans un système unique (situation rare) ou divisé en plusieurs systèmes interconnectés (situation courante)
La mesure et le suivi de la qualité des données depuis leur capture dans des applications de front-office (gestion de la relation client) jusqu'à leur consommation par des applications de back-office (analyse, visualisation, distribution)
L'application des réglementations en matière de confidentialité des données (par exemple, RGPD en Europe) et de toute autre réglementation spécifique à l'industrie de la société, notamment dans les domaines de la santé, des banques et des assurances
Le référencement de toutes les données internes et externes (achetées ou open source) visant à les croiser avec les données clients pour en déduire des informations plus riches pour le marketing stratégique de l'entreprise
La cybersécurité des données, qui constitue la principale menace pour les entreprises maintenant que la quasi-totalité de leurs activités internes et externes sont conduites sous forme digitale. Pour moi, la cybersécurité devrait être au même niveau de priorité, si ce n'est au-dessus de la transformation digitale

La gouvernance des données est moins technique que la gestion des données et la science des données. Le but du travail à ce niveau est plus de nature managériale et organisationnelle : des comités et des processes pour décider quelles données prendre en compte, dans quel ordre, quoi faire en cas de données manquantes, comment les inférer automatiquement si nécessaire, déduire, quand et comment mettre à jour les données afin de les garder toujours précises, à jour et de haute qualité. etc.

Comme cela a été régulièrement rapporté, la majorité des projets d'apprentissage machine et d'apprentissage profond ne sont pas bloqués parce qu'ils ne disposaient pas des scientifiques adéquats, des modèles et des algorithmes appropriés. Dans les cas signalés, cela était dû à un problème de disponibilité, de qualité ou de diversité des données. Il n’est pas rare de s’attendre à ce que la préparation des données soit la partie la plus fastidieuse d’un projet d’exploration de données, jusqu'à 80% du coût total du projet. Et pour cette raison, il serait plus efficace d’élaborer une stratégie de gouvernance des données qui serve tous les projets (en cours et envisagés).

Maintenant que nous avons défini la gouvernance des données, dans l'étape suivante, verrons comment mettre en place une stratégie de données qui permette aux entreprises historiques d'atteindre le niveau de maturité de Google, Facebook, Amazon, Uber et Airbnb.

Architecture en couches

Une architecture en couches permet de présenter les données dans un ensemble de couches, chaque couche servant la couche au-dessus et guidant la couche en-dessous. Il s’agit plus d’une représentation simplificatrice plutôt qu'une implémentation technique.

Niveau stratégie de données : au niveau supérieur, devrait être la stratégie de données d'entreprise qui définit quelles données ont une valeur pour l'entreprise. Toutes les entreprises ne sont pas égales. Pour certaines, les données les plus importantes à prendre en compte sont liées à la publicité, au marketing, aux ventes et à la gestion de la relation client. Pour d'autres, les données à considérer sont celles de la finance, de la chaîne d'approvisionnement, de la logistique, ou des ressources humaines.

Niveau objectifs : Par exemple, si les données sont liées aux fonctions de la publicité, du marketing, de la vente et de la gestion de la relation client, les objectifs pourraient être les suivantes :

Optimiser l'allocation du budget média selon les supports (télé, radio, presse, digital)
Améliorer les campagnes de marketing direct
Utilisez les clients actuels pour en apprendre davantage sur les prospects
Réduire l'exposition au risque de crédit Vente croisée, vente incitative et recommandations
Prévoir les ventes en fonction des événements culturels, sportifs et saisonniers

Niveau sciences de la donnée : C'est à ce niveau que les entreprises personnalisent ou développent des modèles répondant aux objectifs fonctionnels. Les modèles développés serviront à répondre aux questions business suivantes : qui restera un client fidèle et qui ne le restera pas ? Quels sont les messages les plus efficaces pour tel ou tel segment de clients ? Que se passe-t-il si le budget des médias est divisé moitié pour la télévision et l'autre moitié pour le numérique ?

Pour répondre à de telles questions, entre autres, il est nécessaire de s’appuyer sur des données de haute qualité provenant des bases de données et c’est ici que la gouvernance des données joue son rôle. Sans gouvernance des données, même les modèles et les algorithmes les plus sophistiqués ne seront pas efficaces. Comme il est maintenant admis, la puissance de la science des données réside davantage dans les données que dans les modèles.

Niveau gouvernance des données : bien conçue et bien gérée, la gouvernance des données permet aux data scientists d’utiliser des données de haute qualité et ne pas perdre donc leur temps avec des données inutiles, obsolètes ou impraticables.

Niveau gestion des données : au-dessous du niveau gouvernance des données se trouvent toutes les technologies de données traditionnelles et nouvelles, allant des données relationnelles aux données volumineuses en passant par les données sur le cloud. C'est le territoire informatique qui doit aligner l'architecture, les processus d'extraction, de transformation, de chargement et les pipelines entre les bases de données en fonction de ce que la gouvernance des données a défini comme processes.

En résumé

Toutes les grandes entreprises traditionnelles rêvent d'être comme Google, Amazon ou Facebook, mais elles ne sont pas nées avec le machine learning et le deep learning dans leur ADN. Pour atteindre la maturité des GAFA et autres entreprises digitales, elles ont besoin d'ajouter la gouvernance des données à leur stratégie pour que leurs sources de données atteignent la qualité requise pour que l'exploration, la valorisation voire la monétisation de leurs données soient efficaces.

La gouvernance des données doit se situer au-dessus de la gestion des données et sous la science des données pour réduire le temps et le coût de la préparation des données. En tant que tels, tous les programmes de transformation digitale doivent inclure une stratégie de gouvernance des données. Ces grands programmes constituent la meilleure occasion d'aborder la gouvernance des données, sans laquelle il n'y aura comme aucune intelligence de données.