EDF : sa stratégie Big Data dévoilée

EDF : le Big Data Le point sur les choix technologiques réalisés par EDF dans le cadre du déploiement industriel du Big Data par le groupe. Un article publié en amont de l'Open CIO Summit.

Olivier Bonnet nous a accordé un entretien exclusif en amont de son intervention à l'Open CIO Summit le 29 octobre prochain à Paris. Pour l'occasion, il révèlera pour la première fois en public ses projets autour du Big Data au sein du groupe EDF.

Nichée au sein de l'entité en charge de l'exploitation de l'informatique métier, la direction des services partagés d'EDF a pour mission de construire des systèmes transverses pouvant être utilisés par toutes les activités du géant français de l'énergie : commerce, production, transport, distribution... C'est elle qui a défini, avec l'aide de la R&D du groupe, l'infrastructure qui aura pour vocation de devenir la plateforme Big Data de référence pour l'ensemble d'EDF.

La distribution Hadoop Hortonworks préférée à celle de MapR

Au sein de la direction des services partagés, Olivier Bonnet est chargé de piloter ce vaste chantier. "L'objectif était d'arrêter le choix d'une solution, dont le déploiement pourrait être industrialisé, qui soit aisée à prendre en main et capable de traiter à la fois des données structurées et semi-structurées", résume Olivier Bonnet. Sans surprise, Hadoop est retenu mi-2013. C'est plus particulièrement la distribution Hadoop d'Hortonworks qui est sélectionnée. Une technologie qui a été également retenue par ERDF.

Un cluster Hadoop de 25 nœuds

Pourquoi Hortonworks ? "D'abord parce que c'est une distribution proche des projets Apache. Elle en intègre plusieurs. Ce qui rendait nos experts internes plus à l'aise", explique Olivier Bonnet. Et contrairement à la distribution Hadoop de MapR, qui prône "la gestion de clusters multiples" (un par application), Hortonworks permet d'orchestrer plusieurs applications, au sein de containers sécurisés, sur un cluster unique. Une architecture qui, selon Olivier Bonnet, présentait l'avantage de fournir à la fois une étanchéité entre les projets métier, et la possibilité d'allouer à un moment donné toute la puissance de l'infrastructure à une des applications.

Autre avantage d'Hortonworks, vis-à-vis de l'intégration avec le reste du système d'information, "cet éditeur a par ailleurs conclu des partenariats avec de nombreux fournisseurs, comme Microsoft ou Teradata", ajoute Olivier Bonnet.

Un premier projet bientôt en production

Mi-2013, un premier cluster Hadoop est mis en place par la direction des services partagés. "L'open source nous a permis de le déployer rapidement, et de réaliser une première plateforme peu engageante en termes d'investissement sur la durée", commente Olivier Bonnet. Le cluster compte actuellement 25 nœuds, dont 5 nœuds de management et 20 nœuds de calcul, pour une capacité totale de 80 to. Il héberge déjà plusieurs maquettes portées, côté MOA, par diverses activités internes. Une application pourrait même entrer en production sous peu. Les domaines expérimentés par EDF sur ce cluster ? L'amélioration de la connaissance des clients, mais aussi la gestion financière notamment.

"Cette plateforme Big Data a pour vocation d'adresser la zone France", tient à préciser Olivier Bonnet, qui indique néanmoins avoir des échanges avec des équipes du groupe dans d'autres pays européens. 

Enfin, même si elles n'ont pour l'heure pas été retenues, les technologies de VLDB (Very Large Database) et de MPP (Massively Parallel Processing) font également l'objet d'une veille soutenue au sein des équipes d'Olivier Bonnet. Des solutions comme SAP Hana, Oracle Exadata et Microsoft SQL Server Parallel Data Warehouse sont elles aussi à même de passer l'échelle du pétaoctet, notamment sur le terrain des données structurées très présentes chez EDF.

Big Data / Electricité de France