Comment réussir sa stratégie data lakehouse ?

Le data lakehouse répond aux attentes des entreprises qui cherchent à concilier le meilleur des deux mondes du data lake et du data warehouse.

Le data lakehouse permet de bénéficier de l'évolutivité et de la flexibilité d’un data lake ainsi que des fonctionnalités de manipulation et de requêtage hautes performances de données d’un data warehouse.

Les entreprises qui mettent en œuvre des data lakehouses sont capables, dès le début de leur cycle d'adoption, de rationaliser leurs architectures, de réduire les coûts et de démocratiser l'accès aux données grâce notamment à une meilleure gouvernance. Elles pourront ainsi déployer une multitude de cas d'usage allant de la fourniture d'une couche d'accès unifiée pour l’ensemble des données d’entreprise à la mise en place d’un Data Mesh, en passant par la modernisation des données pour accélérer leur transformation numérique.

La plupart des organisations hésitent cependant à tirer parti des data lakehouses, essentiellement parce qu'elles ne savent pas comment le faire et ne sont pas prêtes à investir dans ce type d’initiatives sans garantie de résultats. En réalité, l’adoption d’une stratégie simplifiée pour la mise en œuvre d'un data lakehouse peut limiter les risques d'échecs. Cette approche se compose des quatre étapes suivantes.

1. Bien comprendre l'intérêt d’un data lakehouse

Le data lakehouse repose sur une architecture ouverte combinant les fonctionnalités et les performances d'un data warehouse avec la souplesse d'un data lake. Il fonctionne comme un data warehouse et utilise le langage SQL pour manipuler et analyser les données stockées en format ouvert dans un data lake, sur site ou dans le cloud. L'intérêt pour les data lakehouses est principalement motivé par le besoin des entreprises de répondre à l'explosion de la demande des métiers en termes d'accès et d'analyse autonomes des données non-agrégées.

Le data lakehouse répond à la fois aux besoins d’opérations de transformation et de préparation de données liées par exemple à la data science (DS) et à ceux de l'informatique décisionnelle (BI) intéractive en exécutant rapidement des requêtes sur des données relationnelles et des données multi-structures.

Il est donc tout à fait possible d’interroger directement les données du data lake sans avoir à les copier ou à les déplacer vers d’autres plateformes (ETL vers les data warehouses ou/et extraction vers les outils de visualisation) pour des raisons de performances. Cela a pour conséquence de simplifier l'architecture, de rationaliser les coûts et également de limiter les risques de gouvernance liés à la gestion des multiples copies de données. Enfin, l'adoption de formats de données ouverts (par exemple Iceberg pour le format de table et Parquet pour le format de fichier) permet l’interopérabilité avec d’autres moteurs de traitements spécialisés.

2. Prioriser les cas d'usage métiers

Comme pour toute adoption de nouvelles technologies, il est important de définir les cas d’usage métiers qui seront supportés par la plateforme data lake house. Ceci est généralement effectué en élaborant une feuille de route priorisant les cas d’usage en fonction des bénéfices pour les métiers, rapportés à la complexité de mise en œuvre.

Cette feuille de route mettra également en exergue les fonctionnalités architecturales et technologiques nécessaires à la réalisation de ces cas d’usage, telles que l'unification (plateforme unifiée pour partager et collaborer à partir de données provenant de sources diverses), la simplicité (interface graphique conviviale), l'accessibilité (données en libre-service pour accroître la productivité), la haute performance (accords de niveau de service - SLAs), l'économie (contrôle, voire réduction des coûts), la gouvernance (qualité de la donnée et conformité) et l'ouverture (indépendance technologique et facilité d’intégration des innovations).
Les cas d’usage typiques que l'on peut citer sont les rapports ou tableaux de bord métiers, périodiques ou interactifs, l’exploration et la préparation de données distribuées pour construire des modèles d’IA/ML, ainsi que la consolidation de données multi-source pour implémenter, par exemple une vue client à 360°.

Pour ce dernier cas d’usage, une entreprise de biens de consommation pourrait mettre en œuvre une plateforme lakehouse, afin de supprimer les silos de données et leur duplication dans des data warehouse intermédiaires, améliorant ainsi la qualité des données pour effectuer des analyses de la chaîne d'approvisionnement.

3. S'attaquer à votre premier projet

Le premier projet sera par nature structurant et nécessitera la mise en place de fondations, qui bénéficieront également aux projets suivants. Il faut donc impliquer l’ensemble des parties prenantes (le sponsor du projet, les utilisateurs, un architecte et un responsable de la gouvernance) et établir un plan de mise en œuvre en accord avec la feuille de route, afin de faire progressivement évoluer la plateforme data.

Par exemple, pour fournir un accès unifié aux données relatives à un cas d’usage portant sur la vue client à 360°, il faudra initialement rapatrier les données des différentes sources (relationnelles ou autres) vers le data lake et standardiser leur format de stockage (Iceberg et Parquet). Par la suite, les différentes équipes (marketing, commercial, supply chain et e-commerce) pourront créer leurs jeux de données métiers, dans des espaces dédiés, tout en utilisant un modèle sémantique commun.

4. Du data lakehouse au Data Mesh

Une fois les fondations structurantes mises en place et la valeur métier du premier cas d’usage démontrée, l'étape suivante sera de se réaligner avec les différentes parties prenantes et les sponsors en vue de poursuivre l'exécution de la feuille de route et de débloquer le budget nécessaire.

Cela devrait conduire à la planification et à la réalisation de projets subséquents où d’autres données seraient rapatriées vers le data lakehouse, où le modèle sémantique commun continuerait à être étendu et où la gouvernance et la normalisation des jeux de données seraient mises en application, posant ainsi les jalons d’un Data Mesh d’entreprise.

L’adoption de cas d’usage par la communauté d’analystes démontrerait pas à pas la pertinence d’une stratégie data lakehouse. On arriverait naturellement à la mise en place d’une approche Data Mesh, au sein de laquelle les responsables de domaines métiers (marketing, finance, etc.) diffuseraient des jeux de données métiers (data products) à l'intention d'utilisateurs en libre-service dans l'entreprise, permettant une valorisation des données organisationnelles.