Criteo, une architecture Big Data unique au monde Une plateforme Hadoop qui doit doubler de taille en 2015

Comme aime le rappeler Nicolas Helleringer, "le cœur de Criteo est algorithmique". L'informatique de l'entreprise française de divise ainsi en deux parties : d'une part l'informatique Web "temps réel" caractérisée par ses très faibles temps de traitement, et d'autre part l'architecture Big Data où le groupe met au point ses algorithmes de machine learning. Ce sont ces modèles qui vont choisir quels bandeaux générer sur quel site et à quel moment. Sans grande surprise, la plateforme de batch mise en œuvre pour exécuter les algorithmes de machine learning de Criteo s'appuie sur Hadoop. 

Un cluster Hadoop principal de plus de 2 000 nœuds

le cluster hadoop dont dispose les équipes de criteo compte 2 000 nœuds. il sera
Le cluster Hadoop dont dispose les équipes de Criteo compte 2 000 nœuds. Il sera doublé cette année, puis encore doublé en 2016/2017. © Criteo

Le français dispose d'un cluster Hadoop principal de plus de 2 000 nœuds, offrant un peu plus de 35 Po de capacité de stockage. "Notre cluster est basé sur la distribution Hadoop de Cloudera. Par contre, nous utilisons nos propres outils d'industrialisation de la plateforme", explique Nicolas Helleringer. "Notre outil principal d'industrialisation va bien au-delà d'Hadoop, c'est Chef. C'est la solution qui nous convient le mieux à la fois de par la taille de notre infrastructure, mais aussi au regard du profil des gens qui ont mis en place la solution." Les modèles élaborés sur cette plateforme sont mis à jour toutes les 6 heures sur la plateforme de production web.

Ce cluster Hadoop est utilisé par l'équipe IT. Elle doit en assurer le bon fonctionnement et la disponibilité pour les data scientists qui réalisent la modélisation des algorithmes. Troisième profil d'utilisateurs du cluster : des experts à mi-chemin entre les data scientists et les ingénieurs de développement. "Ce sont eux qui doivent mettre en œuvre les algorithmes dans les technologies que nous utilisons", précise le responsable.

Un NAS Isilon d'EMC pour le stockage de données

A ce premier cluster Hadoop va s'ajouter prochainement une seconde infrastructure de calcul, d'ici à la fin du second trimestre 2015. "Ce nouveau cluster Hadoop aura la même taille que le premier, ce qui va doubler nos capacités de traitement. A horizon 2016/2017, nous doublerons à nouveau cette plateforme", confie Nicolas Helleringer.

Enfin, pour le stockage de données, Criteo dispose d'un NAS Isilon d'EMC. Celui-ci vient d'être doublé par un autre NAS du même constructeur. Le premier NAS disposait d'une capacité de 1 Po alors que le second, à vocation de sauvegarde et de solution de "Disaster Recovery", apporte 2 Po de capacité supplémentaire à Criteo.