Mathias Herberts, pionnier du Big Data en France

Mathias Herberts, pionnier du Big Data en France A l'origine d'un des tous premiers cluster Hadoop français au sein du Crédit Mutuel Arkéa, Mathias Herberts est reconnu dans la communauté française du Big Data comme l'un des plus grands experts du domaine.

Mathias Herberts est reconnu dans la communauté du Big Data comme un pionnier de la discipline, et l'un des plus grands experts français du domaine. Dès 2009, il déploie pour le Crédit Mutuel Arkéa l'une des toutes premières plates-formes de Big Data digne de ce nom en France. "Nous suivons de près l'évolution de ses projets. Les stagiaires qui passent par son équipe son très prisés", nous confie un expert en Big Data travaillant pour un groupe du CAC40.

Le 4 avril dernier, à l'occasion du salon Big Data Paris, le Crédit Mutuel Arkéa reçoit le premier prix des Trophées de l'Innovation Big Data. Le projet primé ? Il s'agit d'un service en ligne construit par Mathias Herberts et son équipe permettant aux clients de la banque d'accéder à leur historique sur 10 ans. Représentant 5 milliards d'enregistrements, cette gigantesque base de données supporte des services de recherche complexes capables de croiser de multiples critères (dates, montants, libellés d'opération...). "Ils permettent par exemple de connaitre ses revenus sur un période particulière, ses versements d'impôt, ou le total de ses dépenses chez un commerçant", détaille Mathias Herberts.

Suite à un passage chez Google, c'est le déclic

big data
A l'occasion de Big Data Paris, Mathias Herberts reçoit le 1er prix des Trophées de l'Innovation Big Data. © JDN / Antoine Crochet-Damais

Mais comment l'idée de proposer un tel projet a-t-elle germé dans la tête de Mathias Herberts ? "En 2008, j'ai fait une coupure dans ma collaboration avec le Crédit Mutuel Arkéa. Je suis allé travailler chez Google. Un an plus tard, je suis revenu avec des idées plein la tête", raconte Mathias Herberts. Il faut dire que chez Google, l'ingénieur est en charge de Big Table, qui n'est autre que la couche de gestion des données structurées supportant Google Maps, Google Mail... "C'était une vraie cure de Big Data, dans un environnement où l'on apprend à articuler la technologie au positionnement de l'entreprise", résume Mathias Herberts.

Il décide alors de revenir au Crédit Mutuel Arkéa avec la conviction que la technologie et la donnée peuvent venir influencer l'organisation de l'entreprise. "Du fait des contraintes réglementaires, nous disposions d'un historique de 10 ans de données. Je suis revenu en étant persuadé que ce patrimoine d'une grande valeur pouvait être exploité pour proposer de nouveaux outils d'aide à la décision en interne, mais aussi de nouveaux services pour le client final. J'ai convaincu la direction de me faire confiance", explique Mathias Herberts. Un défi, sachant qu'en 2003, "la banque s'était cassée les dents sur un projet équivalent, la technologie n'étant alors pas suffisamment mûre".

 

Des composants reversés à la communauté

Premier chantier de Mathias Herberts à son retour : le déploiement d'un projet pilote autour d'un petit cluster Hadoop composé de cinq machines. L'objectif ? Se faire la main, réaliser des proofs of concept, arrêter des choix d'outils, de format pivot d'intégration et de structuration des données. Mais aussi de développements spécifiques, notamment autour du langage Pig Latin - retenu par la banque pour opérer Hadoop.

En 2011, un cluster Hadoop de 56 machines est mis en œuvre. Aujourd'hui, ce cluster affiche 814 To de capacité totale, et 300 To de données utiles (du fait d'un taux de réplication de 3). 20 To proviennent du système mainframe de la banque, le reste étant notamment occupé par des données de différentes activités, stockées sur des espaces privatifs.

mathias herberts
Mathias Herberts, qui s'exprime à l'occasion de la conférence d'ouverture de Big Data Paris 2013. © JDN / Antoine Crochet-Damais

En aval, la plate-forme est agnostique en termes d'outils de visualisation, pouvant fonctionner de concert avec Excel, BO, Tableau, ClickView, Pentaho... "Nous avons défini une frontière nette entre stockage et analyse sur Hadoop, et outils de restitution. Compte-tenu des volumes en jeu, il était impossible de partir de la restitution pour structurer les données en fonction de celles-ci, comme c'est le cas dans les approches BI traditionnelles", explique Mathias Herberts.

A travers cette approche, l'idée de l'ingénieur était aussi de pouvoir s'adapter à tous les besoins et habitudes des métiers. Dès lors, le cluster est utilisé comme socle pour de nombreuses autres applications : détection de comportements anormaux pour servir la lutte anti-blanchiment, calcul de ratios de solvabilité... 

Principal défi : faire évoluer l'entreprise vers une culture du partage des données 

Les difficultés rencontrées par Mathias Herberts ? "Nous étions sur un périmètre nouveau. Il fallait expliquer tout le potentiel d'un tel chantier. Quand nous nous sommes lancés, on ne parlait pas encore de Big Data, ou de façon très confidentielle", note-t-il.

Naturellement, le défi était également technologique, avec la nécessité de venir s'intégrer à un système d'information affichant plus de 30 ans d'historique. Pour optimiser les coûts, "il était nécessaire de ne pas réinventer la roue", d'où la réflexion sur les formats de données, et l'écriture de composants pour interopérer avec le mainframe. "Nous estimons aujourd'hui être meilleur qu'IBM pour transférer des données depuis le mainframe sur Hadoop", estime Mathias Herberts.

Du côté des usages, la délicate question de la mise en commun des données entre départements s'est posée très vite. "Il a fallu là encore sensibiliser, et faire comprendre aux responsables qu'il ne s'agissait pas de modifier l'information, mais de l'analyser et de la consulter, sans risque de rupture d'intégrité", indique l'ingénieur, qui insiste aussi sur l'importance de la formation de la maitrise d'œuvre comme de la maitrise d'ouvrage aux techniques de manipulation et analyse de données Hadoop.

Pour le futur, Mathias Herbert suit de près les nouvelles offres Hadoop de traitement temps réel. "Nous n'éprouvons pas le besoin d'aller dans cette voie aujourd'hui, mais la porte reste ouverte en fonction des opportunités et besoins métier. J'invite les sociétés qui se lancent dans cette aventure de se roder d'abord sur des systèmes Hadoop en batch, avant de passer au temps réel", conclut Mathias Herber.