Big data : Renault en a sous le capot

Big data : Renault en a sous le capot Le constructeur automobile français s'est équipé d'une plateforme multi data lake pour ses traitements de données en masse. Elle combine Hadoop, Spark, Storm et Elasticsearch.

Depuis 2015, Renault s'attelle à ériger une plateforme de data lake pour faire face à ses besoins croissants de traitement de données en volumes. L'édifice a été achevé en 2017. Il fait désormais tourner plusieurs applications clés d'analytics. Elles permettent au constructeur automobile d'optimiser une variété de processus, liés à la maintenance de ses véhicules, à la gestion de ses contrats de garantie ou encore aux ventes.

Sous le capot, l'architecture est impressionnante. Hébergée au sein des data centers internes de Renault, elle s'articule autour d'une infrastructure de traitement massivement distribuée basée sur la distribution Hadoop d'Hortonworks. Un cluster de serveurs sur lequel vient se greffer le framework open source Spark pour les traitements à faible latence (de quelques minutes), ainsi que son homologue Storm pour les exécutions nécessitant des temps de réponse proches du "temps réel".

En frontal d'Hadoop, Renault intègre la Suite Elastic, ou plutôt sa déclinaison commerciale (Elastic Cloud Enterprise) proposée par la société Elastic pour les clouds privés. "Les informations contenues dans Hadoop y sont indexées. Le moteur Elasticsearch (intégré à la suite ndlr) permet ensuite à nos équipes business de réaliser leurs analyses via des outils de restitution et de tableaux de bord", précise Kamélia Benchekroun, responsable de la Squad Datalake chez Renault.

Un ROI atteint en quelques mois

En amont, le cluster Hadoop permet de recueillir des données en provenance d'une grande variété de systèmes sources. Elles y sont raffinées et croisées, avant d'être indexées par Elasticsearch. Pour chaque activité du groupe recourant à l'environnement, un data lake est mis en place. "Chacun est isolé des autres grâce au multi-tenant d'Hadoop", précise Kamélia Benchekroun. Côté Elastic, c'est une couche de containers (Docker) qui est mise en musique pour séparer les clusters, projet par projet. Le tout permet de fournir à chaque entité utilisatrice un environnement analytics isolé et sécurisé, avec le niveau de service adapté (en termes de taux de disponibilité...). "Cette couche d'isolation est gérée par Elastic Cloud Enterprise et X-Pack Security, et met en œuvre des processus de traçabilité, de chiffrement, de gestion des d'accès", ajoute Kamélia Benchekroun.

"Nous sommes parvenus à diviser par 5 le nombre moyen de jours/homme nécessaire à la qualification d'un incident client"

A l'initiative de la direction qualité et satisfaction client, la toute première application analytics déployée sur la plateforme visait à fournir une meilleure compréhension des incidents remontés par les clients via les concessionnaires. En fédérant une vingtaine de sources de données (à la fois techniques et commerciales), elle devait permettre, in fine, d'identifier plus rapidement l'éligibilité ou non d'une réclamation aux conditions d'assurance du constructeur.

"Grâce à un système d'analyse par critères basé sur Elastic, cette application a permis de diviser par 5 le nombre moyen de jours/homme nécessaires à la qualification d'un incident. Le ROI du projet a été atteint en quelques mois", souligne Kamélia Benchekroun.

Via un autre data lake, le groupe est aussi parvenu à mieux diagnostiquer les causes de dysfonctionnements de ses batteries de véhicules. "Les causes pouvaient provenir d'une surcharge électromagnétique, d'un excès de température dû au climat… Nous avons pu réduire de 20% le taux de remplacement des batteries sur 2017", pointe Kamélia Benchekroun.

Analyser les enquêtes de satisfaction

Renault a depuis lancé des data lake sur beaucoup d'autres cas d'usage. L'un d'eux a notamment pour but d'anticiper les pannes des robots de fabrication via le décryptage de leur historique opérationnel. D'autres assurent le suivi des ventes de véhicules ou encore le diagnostic des enquêtes de satisfaction clients. Aux côtés de l'outil de data visualisation livré avec la suite Elastic (Kibana), la plateforme peut accueillir à la fois des applications de restitution sur mesure, mais également des logiciels analytics du marché comme Spotfire de Tibco.

Dans le sillage de ce chantier, Renault s'est doté d'une gouvernance de la data. Une équipe de 15 personnes a été constituée pour piloter l'intégration des flux de données au sein des différents data lake déployés (c'est la Squad Datalake que pilote Kamélia Benchekroun). Pluridisciplinaire, elle combine des compétences Hadoop, mais aussi en infrastructure système et réseau, et en développement logiciel. Cette Squad s'intègre à un pôle data, plus vaste, chargé d'accompagner les projets venant se greffer sur la plateforme.