L'importance pour les chief data officers de gérer les données comme un produit

L'incertitude économique, la spirale des réglementations mondiales et la complexité croissante de la pile technologique obligent les CDO à chercher de nouveaux moyens de lutter contre les pressions du marché.

Ils ne sont plus seulement les garants de la conformité, ils dirigent désormais des initiatives clés en matière de données, telles que la gestion de la valeur des données, la gestion de l'accès aux données en libre-service et la garantie que ces dernières soient en conformité et en qualité à des fins d'analyse et d'intelligence artificielle. Néanmoins, l'incertitude économique, la spirale des réglementations mondiales et la complexité croissante de la pile technologique obligent les CDO à chercher de nouveaux moyens de lutter contre ces pressions du marché. C’est là que la gestion des données en tant que produit se présente comme une solution envisageable afin de les aider à faire face aux turbulences auxquels ils sont confrontés.

Vers une décentralisation grâce au data mesh

Les besoins des entreprises libre-service agile favorisent l'adoption d'approches décentralisées en matière de données, telles que le data mesh. Celui-ci repose sur quatre principes :

  1. La propriété du domaine,
  2. Les données en tant que produit,
  3. L'infrastructure de données en libre-service,
  4. La gouvernance informatique fédérée.

La mise en œuvre du data mesh présente de nombreux avantages. Elle utilise une conception axée sur le domaine, accroît la responsabilité et contribue à pallier la pénurie de compétences des experts en données. Elle permet également d'améliorer l'agilité et de réduire potentiellement les silos de données et la redondance. Toutefois, une architecture de data mesh ne saurait convenir à toutes les entreprises. En effet, elle manque souvent de conseils pratiques. En outre, de nombreux propriétaires de domaines peuvent manquer de volonté et/ou de compétences pour posséder une infrastructure de données. Elle peut également conduire à la création de nouveaux silos de données. Enfin, il peut être difficile de gérer les données partagées.

« La transformation des données commence par la centralisation des données. Cette dernière ne doit pas entraîner une perte de responsabilité ou de contrôle sur la façon dont les différents ensembles de données sont gérés. Le data mesh est un cadre qui permet aux différents secteurs d'activité ou services d'être garants de leurs ensembles de données et de contribuer à la création, au partage et à l'amélioration des ensembles de données de Sodexo. Dans ce contexte, les données sont gérées comme des produits de données. Cela nous permet de mieux communiquer sur le prix de production d'un produit de données (prix de la collecte des données et de l'amélioration de la qualité des données), la satisfaction des utilisateurs et surtout le rôle du producteur ou du propriétaire des données. »  Gerardo Melo Guerra, Head of Global Data Office chez Sodexo.

Les principales caractéristiques des data products

Les data products sont un élément clé de la mise en œuvre du data mesh, comme indiqué précédemment. Bien qu'ils soient étroitement associés au data mesh, ces derniers apportent une valeur indépendante de l'approche de gestion des données adoptée par les organisations. Un contrat de données régit les spécifications du produit de données, telles que l'accès à l'API, la qualité, la découvrabilité, la disponibilité, la fiabilité, les accords de niveau de service et bien plus encore. Il fait le lien entre un producteur de données unique et une multitude de consommateurs disparates, de manière qu'ils aient une compréhension commune. Il permet également d'éliminer l'ambiguïté et les suppositions erronées.

Il existe huit caractéristiques principales aux produits de données :

  1. Valorisé,
  2. Sécurisé,
  3. Accessible,
  4. Abordable,
  5. Compréhensible,
  6. Fiable,
  7. Accessible de manière native,
  8. Interopérable.

Plusieurs CDO ayant déjà entrepris ce cheminement vers l'adoption de produits de données ont fait part de leurs meilleures pratiques. Certains déclarent qu'un produit de données peut être tout ce que l'on veut. En effet, chaque type de données peut être un produit de données, tel qu'un tableau de bord, un rapport, un fichier clients, etc. L'essentiel est de décider de la manière dont on aborde, conçoit et utilise les produits de données, en appliquant les principes de la gestion des produits. En d'autres termes, il s'agit de définir comment on souhaite faire l'expérience d'un produit.

D'autres CDO ont décrit une structure hiérarchique avec des bases de données pour la finance, le marketing, l'entreprise, etc. qui crée une architecture maillée pouvant être partagée avec des contrôles d'accès. En plus de cela, ils ont des data marts, chaque data mart étant un produit de données consommable par tous, mais la fondation n'est accessible qu'à des équipes sélectionnées.

Il existe également le concept de gestionnaire de produit de données (à ne pas confondre avec le gestionnaire de données). En effet, il est possible d’avoir recours à une structure organisationnelle similaire à celle des équipes de développement de produits.  Avec un chef de produit de données gérant plusieurs gestionnaires de produits de données couvrant un portefeuille de produits de données.

Une évolution de la pensée et de l'approche

Introduire une approche de data mesh et de produits de données exige un changement de mentalité. Aujourd'hui, de nombreuses organisations accordent la priorité à la technologie, avec une approche étroite et ascendante. Cet état d'esprit axé sur les données peut entraîner une dette technique, nécessiter de lourdes ressources en ingénierie des données et repousser la qualité des données vers l'aval, ce qui entraîne souvent une duplication et des silos de données.

En revanche, une approche architecturale moderne des produits de données est axée sur des résultats concrets et se concentre sur les processus et le libre-service. Elle s'appuie sur un plan de métadonnées unifié pour assurer la facilité de découverte, la compréhension commune, la gouvernance, la confidentialité et le partage des données.

Selon une étude de McKinsey & Co, les entreprises qui adoptent une approche axée sur les produits de données peuvent réduire de 30% le coût total de la propriété des données.

Évaluer l'utilisation de Large Language Model dans un contexte d'entreprise

Il est également essentiel de s'intéresser aux Large Language Model (LLM) et aux implications de l'IA générative pour les produits de données. Les LLM sont actuellement excellents pour la prédiction, mais pas pour le raisonnement. Entraînés sur de grandes quantités de données publiques, ils permettent aux entreprises d'être des ‘Early Adopters Generative IA’.   Les LLM présentent également des inconvénients. Ils se concentrent en effet sur des données non structurées, plutôt que structurées, et fonctionnement en mode batch, un processus qui peut s'avérer lent et coûteux.

Il existe notamment un concept de LLM privé ou d'entreprise qui suscitent des inquiétudes quant à la protection de la vie privée. En réponse, une approche par étape a été recommandée, dans laquelle le meilleur des LLM publics avec des métadonnées d'un domaine plus large est combiné avec des métadonnées privées, réservées à l'entreprise.