Michelin propulse 120 projets sur son data lake en deux ans

Le stockage des données repose sur la plateforme cloud de Microsoft, et leur processing est géré par le lakehouse de Databricks. L'enjeu ? Répondre aussi bien aux besoins des data analyst que des data scientist et des data ingineer.

Depuis son déploiement en 2019, Michelin a propulsé pas moins de 120 projets sur son corporate data lake (CDL). "C'est l'un des principaux indicateurs de résultat de cette plateforme", souligne Jean-François Duteyrat, product owner CDL chez Michelin. A ce jour, le groupe revendique 800 utilisateurs de rang un qui recourent au lac de données. Comment expliquer cette montée en puissance ? Par le choix d'un modèle cloud, synonyme d'élasticité, et en particulier d'une architecture basée sur un PaaS (platform as a service).

Sur son corporate data lake, Michelin multiplie les cas d'usage. La plateforme a par exemple donné naissance à des datamarts prêts à l'emploi pour la finance, avec à la clé une logique de business intelligence en libre-service. Mais aussi à des modèles de machine learning pour de multiples métiers. Des IA qui anticipent la demande du marché pour ajuster les capacités des chaînes de production, ou encore les réapprovisionnements pour éviter les ruptures de service en magasin. Autre exemple : des algorithmes d'apprentissage sont mis au service du job matching au sein du SIRH de l'entreprise.

Big data et IA

Le PaaS sous-jacent est Azure. En amont, Azure Data Factory, le service d'ETL (pour extract-transform-load) du cloud de Microsoft, fédère les informations en provenance des multiples applications de Michelin. Il les déverse dans Azure Storage qui les stocke sous forme de fichiers à plat au format .csv. Objectif : encaisser rapidement les fortes volumétries. Ensuite, Databricks entre en action. Par le biais de son moteur Spark, le lakehouse exécute les traitements et analyses de données sur des clusters de machines virtuelles Azure découplés de la couche de stockage.

Corporat Data Lake de Michelin

Utilisé sous la forme d'un service managé Azure, Databricks expose les données .csv via des tables relationnelles sur lesquelles les citizen data analyst lancent leurs requêtes SQL. Quant à ses API Python et Scala, elles ouvrent respectivement le lac de données aux data scientist et data ingineer de la société.

"Dans la logique du security by design, les donnée et les droits d'accès ont été segmentés du bas en haut de la plateforme"

Produit de référence de Microsoft en matière de business intelligence, PowerBI contribue en parallèle à démocratiser plus largement l'accès au data lake au sein de l'entreprise dans une logique de self-service.

Pour chaque projet, l'édifice est répliqué. Du coup, les ressources machines sont dimensionnables verticalement, à la fois pour le stockage et le processing des données, et horizontalement en fonction des besoins de chaque application en termes de capacités IT. "Dans la logique du security by design, les donnée et les droits d'accès ont été segmentés du bas en haut de la plateforme", explique Julien Gagnet, architecte chez Michelin. Une réalisation qualifiée de "défi technique" à l'heure où Azure Databricks demeure une solution encore jeune.

Pour les profils les plus aguerris, une boîte à outils est fournie pour piloter l'intégration et la livraison continues des développements (CI/CD). L'objectif étant de rendre les équipes d'utilisateurs entièrement autonomes.

Data driven company

"Le corporate data lake s'inscrit dans une logique de plateforme et d'écosystème, avec d'un côté des producteurs de données et de l'autre des utilisateurs qui les valorisent en créant de nouvelles applications", insiste Julien Gagnet. Une démarche qui s'inscrit dans la stratégie de Michelin qui entend faire de la data l'un de ses principaux leviers de croissance tant sur le plan opérationnel que des nouveaux produits et services.

L'ambition est désormais de faire évoluer le lac de données vers une logique d'exécution de plus en plus temps réel. Et ce, aussi bien en termes d'intégration que de traitement et de reporting. Des processus qui là-encore seront mis en œuvre par le biais de Databricks, mais aussi via l'infrastructure de streaming de données Kafka combinée à ce dernier. "Un premier projet a été mené dans ce domaine ciblant les clôtures de fin de mois", confie pour finir Jean-François Duteyrat.