Quitte ou double : la digital factory de Total mise sur deux plateformes d'IA

Rebaptisé TotalEnergies en vue de souligner sa stratégie de diversification, le groupe français a lancé sa digital factory début 2020. L'intelligence artificielle fait partie de ses briques clés.

Début 2020, TotalEnergies inaugurait sa digital factory à Paris. Comptant 300 développeurs, data scientists et autres data ingénieurs, cette structure est le bras armé du groupe dans la transformation numérique. Services digitaux à destination des clients, solutions intelligentes d'optimisation industrielle, gestion des nouvelles énergies décentralisées à faible impact environnemental... L'usine IT de TotalEnergies est sur tous les fronts. Au sein de cette entité, une équipe de 30 personnes est dédiée au data management, à la gestion des projets data ainsi qu'au machine learning. Pour ce dernier volet, une double plateforme d'IA a été retenue.

En coulisse, la digital factory s'adosse au cloud Azure de Microsoft. Elle y agrège des données en provenance de multiples sources de TotalEnergies : ERP et CRM avec quelque 10 millions de clients en base, MES (pour manufacturing execution system), sans oublier des dizaines de millions de capteurs industriels et des flux de données sismiques qui se comptent par dizaines de Po. "Nous planchons sur le catalogage de ces informations et l'automatisation de l'extraction de métadonnées pour aboutir à un patrimoine de data réutilisable facilement pour plusieurs cas d'usage", explique Michel Lutz, group data officer de TotalEnergies. En matière d'IA, la digital factory mise sur deux plateformes : Azure Machine Learning d'abord, mais également Databricks, elle-aussi déployée sur le cloud de Microsoft.

Azure ML vs Databricks

"Databricks permet à la fois d'ingérer les flux de nos capteurs en temps réel et d'historiser nos données en vue d'entraîner des modèles à long terme", argue Michel Lutz, sensible à la présence de Spark au cœur de la solution, notamment dans l'optique de réaliser des traitements distribués en phase de data engineering. "L'intégration complète de la technologie open source MLFlow facilite aussi le déploiement des modèles ainsi que leur maintenance en production." Globalement, les équipes de data science de la data factory de TotalEnergies ont plutôt tendance à se tourner vers Databricks quand l'apprentissage machine implique des flux massifs de données d'entraînement, ou de mixer analyse temps réel et historisation de données.

"Nous travaillons sur des modèles pour prédire la production de puits d'hydrocarbure à partir de données de capteurs, et détecter des modes de production suboptimaux"

Des exemples de projets mis en œuvre sur l'une ou l'autre des deux plateformes ? "Pour la branche Exploration-Production, nous travaillons sur des modèles pour prédire la production de puits d'hydrocarbure à partir de données de capteurs, et détecter des modes de production suboptimaux. Ce dispositif permet ainsi de passer à un management prédictif temps réel", souligne Michel Lutz. "Ce projet étant pour l'heure en phase de développement, nous couvrons un nombre limité de champs d'extraction. Mais sachant qu'un champ peut compter des centaines de puits avec pour chacun trois modèles à déployer (prédisant respectivement la production de pétrole, de gaz et d'eau, ndlr), cela représente déjà des centaines de modèles." D'où le choix de Databricks pour automatiser le chantier.

A contrario, une application visant à estimer la consommation attendue en électricité et gaz des raffineries (et anticiper les dépassements), nécessitait un nombre de modèles en production plus faibles. Celle-ci a été réalisée sans Databricks. L'objectif de ces algorithmes ? Maîtriser la consommation et l'empreinte carbone des opérations industrielles. Fait intéressant, le projet a suivi un mode de pilotage agile avec des allers et retours réguliers avec l'équipe métier. "Les modèles ont été construits par petits incréments, en interaction directe avec les utilisateurs. Ceux-ci ont validé chaque amélioration des modèles, pour s'assurer que les efforts des data scientists apportent bien un bénéfice concret", détaille Michel Lutz.

Poussant plus loin l'exercice, un moteur d'apprentissage a été mis au point pour optimiser le flux de production d'une usine de batteries de la filiale Saft rattachée à la branche Gas, Renewables & Power de la multinationale. Il s'adosse à la plateforme Databricks. Un employé au sein de l'usine est désormais en charge de suivre l'évolution du modèle et de garantir la qualité des données qui l'alimentent.

UX machine learning

Les prochains défis du CDO de TotalEnergies en matière de machine learning ? "D'abord, aller plus loin dans la maîtrise des processus de MLOps à l'échelle, notamment en améliorant le monitoring continu de la qualité des données et l'optimisation des stratégies de réentrainement. Ensuite, renforcer nos pratiques de ML UX pour maximiser la valeur des modèles du point de vue de l'utilisateur. Enfin, avoir en tête que le machine learning pur est rarement suffisant, et qu'il doit souvent être associé à d'autres méthodes numériques : recherche opérationnelle, statistiques et probabilités, modélisation heuristique ou simulation numérique", égraine Michel Lutz. Bref, une bonne IA est finalement un fin cocktail de bonnes pratiques : du machine learning à l'expérience utilisateur en passant par la gestion opérationnelle des modèles et des data sets.