Prendre la data par le bon sens

La data nous concerne tous, et les attentes sont considérables, partout dans l'entreprise. Organisation, architecture et gouvernance sont les trois leviers pour généraliser ses usages et son adoption.

La data est devenue une discipline à part entière dans l’entreprise, au travers des organisations. Mais la route est tortueuse, et plus longue, que celle qui nous mène à la digitalisation/dématérialisation de nos vies personnelles et professionnelles. Car, dans le monde de la data, il n’y a pas eu ces Facebook, LinkedIn, Google, Zoom ou Slack qui ont imposé des nouvelles manières de travailler ou d’interagir.

Pourtant, il y a eu une phénoménale montée en puissance des compétences, à tel point que le métier de consultant data figure dans le top 25 des métiers les plus recherchés en France et dans la plupart des pays en Europe en 2022 selon LinkedIn. On a vu s’établir un écosystème de spécialistes, du côté des éditeurs, des cabinets de consultants et dans les entreprises elles-mêmes. L’innovation est à portée de mains, mais, jusqu’à preuve du contraire, il n’y a pas de solution toute faite dans le domaine de la data.

Réussir son initiative data c’est donc parvenir à s’approprier cet écosystème pour mettre en place un système sociotechnique spécifique à l’entreprise (que Wikipedia définit comme un réseau tissé entre acteurs économiques et sociaux autour d’un produit ou d’un service). Beaucoup d’entreprises ont atteint un niveau de maturité suffisant pour établir un tel système, et être en mesure de favoriser les innovations qui sont cohérentes avec leur fonctionnement et de bloquer celles qui ne s’y intègrent pas.

Prendre la data par le bon sens : c’est cela qui rend notre travail passionnant, mais difficile. Cela nécessite de s’appuyer sur trois leviers de progrès : l’organisation, l’architecture et la gouvernance

Instaurer la discipline de la data avec la data office

Une étude de PWC révèle que 42 % des grandes entreprises européennes se sont dotées d’un Chief Data Officer (CDO), soit une augmentation de 75% par rapport à 2021. Beaucoup d’autres ont mis en place un centre d’expertise dédié à la data, dont les missions ont pris de l’envergure, et dont les leaders ont gagné en pouvoir de décision. Mais ils doivent aussi faire face à d’importants défis au point que la longévité moyenne d’un CDO à son poste est actuellement inférieure à deux ans.

La data office joue un rôle majeur dans la route qui mène à l’entreprise data-driven. Son rôle est d’abord de définir la stratégie et la feuille de route, comment la data peut concrètement se décliner en réponse aux enjeux business, et comment s’organiser pour rendre toutes ces belles idées opérationnelles. L’objectif est aussi d’avancer dans la courbe de maturité en identifiant les faiblesses et les axes souhaités d’amélioration.

Il convient ensuite d’instituer les mécanismes pour associer les data à leur valeur business, prioriser les initiatives et les domaines ciblés, tout en développant le noyau dur des best practices sur l’analytique. Pour y parvenir, la data office doit s’appuyer sur des équipes pluridisciplinaires, qui ne lui reportent pas nécessairement, mais qui permettent d’engager le plus tôt possible ceux qui mettent les données au service de leur activité.

Son principal défi est de mettre en place la gouvernance, en jouant à la fois le rôle d’agent du changement et de contrôleur, parfois même d’empêcheur de tourner en rond. Comme la valeur de la donnée a considérablement augmenté, il ne s’agit pas seulement de la partager, mais aussi de la protéger, de la sécuriser et de gérer les risques : la gouvernance des données nécessite de maîtriser l’art du compromis par des stratégies d’usage de la data à la fois défensives et offensives.

Au-delà de la gouvernance, et dans l’objectif de pérenniser les usages dans l’entreprise, la data office doit aussi créer le socle et la masse critique. C’est pourquoi elle opère fréquemment comme un centre de services centralisé et partagé. Ainsi, elle développe le modèle opérationnel cible, les best practices et méthodes, les standards et les plateformes, mais aussi un environnement favorable au développement des talents, depuis la définition des rôles jusqu’à la formation, le recrutement, ou le développement des carrières.

Elle doit être un terreau d’innovation, au travers d’un data lab qui est une cellule multidisciplinaire permettant d’expérimenter de nouvelles idées ou de nouveaux cas d’usage en mode « try and fail », sans perturber la nécessaire industrialisation des initiatives data plus matures.

Enfin, la data office doit diffuser la culture data dans l’entreprise. Dans le digital, on a vu l’émergence du rôle de Chief Digital Officer. Mais, beaucoup ont depuis disparu, parce qu’arrivés au bout de leur mission : on a considéré que la transformation numérique avait réussi et que chacun se l’était approprié dans l’entreprise. C’est peut-être aussi la destinée des data office et de leur Chief Data Officer : celle d’être des agents du changement qui facilitent la montée progressive en puissance d’initiatives dont les responsabilités sont ensuite décentralisées une fois que les différentes activités de l’entreprise sont prêtes à les prendre en main de manière autonome. Pour la data, une telle transformation est plus longue que dans le digital, mais pour les entreprises les plus matures, la tendance tend à la décentralisation.

Décentraliser la gestion de la data pour en généraliser les usages: la promesse du data mesh

D’où le fait que les principes de data mesh soient dans l’air du temps : introduits en 2019 par Zhamak Dehghani lorsqu’elle était en charge de la practice d’architecture de systèmes distribués d’une importante société de conseil, ils ont mis un malicieux coup de pied dans la fourmilière de l’écosystème data. Le data mesh propose un cadre pour décentraliser les initiatives data, en immergeant ses spécialistes dans les opérations business plutôt qu’en embarquant les métiers dans les initiatives data. Car c’est bien au niveau de l’organisation que le bât blesse. Une étude de BARC met en effet le doigt sur le fossé qui se creuse entre les consommateurs de données, sur le terrain, et les équipes IT ou data centralisées qui les alimentent. 65 % des décideurs interrogés déplorent un manque d’autonomie des domaines fonctionnels, qui n’ont à leurs yeux pas suffisamment de responsabilités sur les data, et une culture data & IT insuffisantes (selon 53% des décideurs interrogés).

Il serait donc temps de déléguer les responsabilités des data aux grands domaines fonctionnels en s’inspirant des démarches de conception pilotée par le domaine (ou domain-driven design) utilisées dans le monde du software.

Le data mesh : un cadre pour décentraliser les responsabilités

La deuxième ligne directrice, elle aussi empruntée au monde du software et des systèmes distribués, vise à packager la data comme un produit pour faciliter sa consommation en la rendant plus facilement accessible, comprise, échangeable et réutilisable. L’objectif est en même temps d’industrialiser la production et de mieux maîtriser la qualité de la data, en imposant la rigueur héritée des pratiques de product management dans le design et la gestion de leur cycle de vie, depuis la roadmap jusqu’à la documentation en passant par les contrats de service.

Ces deux premiers principes sont source de rupture. Mais, pour qu’ils soient applicables au monde de la data, encore faudrait il que les data products décentralisés soient universellement accessibles de manière transverse, en mode libre-service. Ce troisième principe n’est pas nouveau dans le monde de la data, mais ne s’est pas développé aussi vite qu’on aurait pu l’attendre. Or, plus la data sera produite de manière distribuée, plus il est indispensable d’avoir un mécanisme universel qui permette à tout un chacun dans l’entreprise de la consommer en toute autonomie, sans friction ou dépendance à des intermédiaires, un peu à la manière des moteurs de recherche qui sont des points de passage indispensables pour accéder au web.

Enfin le quatrième principe concerne la gouvernance. Plus les responsabilités sur la data se distribuent, plus les règles du jeu communes doivent être clairement définies en amont tandis que leur contrôlée. Une gouvernance des données fédérée doit être mise en place, et son contrôle doit être automatisé.

Le mérite du data mesh est de poser un cadre commun. À l’instar des principes de data warehousing et de data mart posés par Bill Inmon et Ralph Kimball dans les années 1990, ils ne constituent pas une recette de succès, mais plutôt une source d’inspiration pour amener les initiatives autour de la data à un plus haut niveau de maturité. Zhamak Dehghani définit du reste le data mesh comme un système de mise à l’échelle. Il s’appliquera difficilement avant d’avoir atteint un certain niveau de maturité et une masse critique. Il faut disposer de suffisamment d’experts de la data pour pouvoir les disperser au travers des domaines fonctionnels, tout en étant capable d’assurer la gouvernance fédérée. Toutes les organisations ne sont pas prêtes pour mettre en œuvre ce type d’organisation, mais cela peut être leur boussole dans le chemin vers la maturité.

L’architecture : privilégier le self-service, la flexibilité et la diversité des usages

Du fait de l’extrême diversité des cas d’usage, et malgré quelques exceptions qui confirment la règle comme pour la planification financière ou les customer data platforms, le domaine fonctionnel lié à la data ne s’est pas progicialisé. La maîtrise de l’architecture est donc une figure imposée, un exercice délicat qu’il est tentant de déléguer aux fournisseurs de technologie. C’est l’écueil à éviter, même si les progrès dans le monde de la data ont été provoqués par d’importantes vagues technologiques (data warehousing, business intelligence, puis le big data, le cloud et la data science). Mais, il incombe aux équipes data au sein de leur organisation de surfer (ou non) sur ces vagues vers des trajectoires qui non seulement répondent au contexte de leur organisation et de ses différents cas d’usage, mais lui permettent de progresser au fil des évolutions technologiques, organisationnelles et des besoins fonctionnels.

Pour y parvenir, le cloud s’est rapidement imposé, parce qu’il a apporté souplesse et flexibilité, mais aussi démocratisé l’accès aux technologies, leur expérimentation et leur mise à l’échelle, y compris pour des organisations de taille modeste.

Historiquement organisé autour d’une base de données centrale privilégiant un accès aux données direct par les utilisateurs en mode self-service, la couche basse de l’architecture tend à se modulariser afin d’exploiter différents types de data, depuis les données brutes jusqu’aux données de référence, ou celles qui sont modélisées spécifiquement pour certains cas d’usage. La plate-forme tend également à se virtualiser, afin de ne pas imposer une recopie systématique des données en autorisant la décentralisation ou la gestion des flux en temps réel.

En amont de ce socle, l’architecture doit permettre le sourcing et l’intégration de données, qui reste une fonction de back-office, pour les équipes de DataOps. En aval, elle doit autoriser un accès en libre-service au plus grand nombre, des analyses plus sophistiquées pour la data science, mais aussi des accès programmatiques pour alimenter en data et déclencher des actions dans les applications opérationnelles.

À ces trois dimensions de base, la tendance est d’en ajouter une quatrième, en support de la gouvernance et de la qualité, ainsi de l’accessibilité des données. Il s’agit non seulement de connecter les données réelles aux dispositifs de contrôle et de gestion de la qualité, mais aussi d’amener plus de transparence et de documentation aux données pour une utilisation en libre-service. Cette quatrième dimension inclut les capacités de gestion d’accès et de la sécurité, de provisioning, de gestion des données personnelles, et de catalogage ; sans oublier la qualité et l’observabilité des données, le potentiel tendon d’Achille des initiatives data dont les lacs de données se transforment parfois en marécages. Cette transparence passe par la constitution d’une couche sémantique permettant de référencer les données, de comprendre leur relation et leur origine, et de les associer à leur signification business et leur contexte fonctionnel. Le développement de cette dimension a jusque-là été freiné par le fait qu’elle sollicite fortement des ressources humaines, dans une approche déclarative. De récentes innovations technologiques permettent d’envisager plus d’automatisation et d’« intelligence », permettant d’installer cette couche supérieure au cœur de la plateforme de données moderne plutôt qu’en sa périphérie.

Définir un cadre pour la gouvernance et la qualité

Tout le monde s’accorde à dire que la gouvernance de données est un maillon essentiel de la réussite d’une initiative data. Mais, c’est souvent le maillon faible, tant il peut être délicat non pas seulement d’en définir le contour, mais surtout d’en transmettre et d’en faire respecter les principes. Un programme de gouvernance de données est transverse, et doit définir les rôles et responsabilités, les politiques, standards et processus, ainsi que les règles et contrôles. C’est un programme de transformation qui nécessite une gestion du changement, et donc d’en reconnaître la nécessité et les conséquences, puis d’engager les parties prenantes dans sa réalisation.

Le schéma ci-dessous présente un cadre pour la gouvernance, fortement mais librement du « modern governance framework » de Dave Wells.

Tout commence par la formalisation du pourquoi et du comment aligner le programme sur les enjeux de l’entreprise. Cette partie est fondamentale pour obtenir l’adhésion des directions générales et l’engagement des parties prenantes.

Il faut ensuite développer les principes directeurs et les moyens pour les formaliser, tels que les codes de conduite ou les approches utilisées pour inventorier et cartographier les données. Puisque la gouvernance consiste le plus souvent à établir un système d’entités décisionnelles plutôt qu’un centre unique de décision, il faut clairement définir et répartir les rôles et responsabilités, et s’assurer de leur intégration dans l’organisation. D’autant que les rôles sont de plus en plus nombreux et diversifiées au fur et à mesure que les initiatives prennent de l’ampleur et augmentent leur impact.

Une fois le cadre et les rôles définis, il faut assurer sa mise en œuvre. Ceci passe par la définition des processus et des contrôles, par exemple pour établir le privacy by design, assurer et mesurer la qualité des données ou encore leur référencement systématique.

Même si elles ne doivent rester qu’un moyen, les technologies sont indispensables pour la mise à l’échelle. Les données sont surabondantes et évoluent en permanence, tandis que les ressources dédiées à la gouvernance sont limitées. Les technologies doivent permettre de connecter en permanence les règles du jeu, édictées et arbitrées par les personnes, avec les données proprement dites, pour permettre de s’assurer de leur mise en pratique et d’alerter dans le cas contraire.

Enfin, la data est un sport d’équipe, et les silos détruisent sa valeur. La data gouvernance doit donc proposer et susciter l’adhésion d’un cadre comportemental qui encourage l’appropriation, la collaboration, le partage et le respect de règles d’éthiques. Ce rôle fédérateur, visant à instaurer une gouvernance participative impliquant toutes les parties prenantes, constitue le plus grand défi pour la data gouvernance en particulier, mais aussi plus généralement pour le développement de l’économie de la donnée en général. La mise en application de la réglementation RGPD en Europe permet d’en illustrer les enjeux, les défis, et les impacts.