Les coulisses informatiques de Criteo L'enjeu d'une "tour de contrôle" pour superviser le cluster

Pour assurer la supervision de son usine de données, Criteo s'est doté de ressources importantes, avec à la clé le développement d'outils de pilotage maison. L'écosystème Hadoop fournit en effet peu de solutions pour assurer cette tâche, et la plupart d'entre elles seraient insuffisantes. "Il a fallu également s'équiper d'outils de développement adéquats", ajoute Julien Simon, vice-président ingénierie chez Criteo.

julien simon, vice-président ingénierie chez criteo, est en charge de l'ensemble
Julien Simon, vice-président ingénierie chez Criteo, est en charge de l'ensemble de la plate-forme technique du spécialiste du retargeting publicitaire. © Criteo


Pour répartir les risques, Criteo a en outre décidé de se doter en parallèle d'une infrastructure de stockage brute alimentant son cluster Hadoop. Il s'agit d'un système NAS en grappe reposant sur la technologie de stockage d'Isilon (société acquise par EMC en 2010). Une seconde infrastructure qui atteint de son côté presque le Po de données. "La solution Isilon répond à nos besoins en termes de redimensionnement au-delà du pétaoctet, de fiabilité, mais aussi de qualité de support. Ce sont des points importants compte-tenu de nos impératifs de production et de sécurité des données", explique Julien Simon.

Etendre Hadoop pour supporter le reporting fourni aux clients

Pour la suite, Criteo envisage d'étendre son utilisation d'Hadoop à d'autres systèmes. En ligne de mire : les services de reporting qu'il propose à ses clients pour assurer le suivi des opérations. Jusqu'ici, ces applications reposaient sur des technologies de Business Intelligence traditionnelles, articulées autour d'un entrepôt de données. "Il est probable que nous batissions un second cluster Hadoop pour isoler cette plate-forme de BI du reste, et ainsi optimiser la qualité de service de l'ensemble", confie Julien Simon.

Criteo n'en étudie pas moins plusieurs solutions. Parmi elles figure Storm. Un équivalent d'Hadoop Map Reduce, mais sans les contraintes de batch, qui pourrait lui permettre de réaliser des agrégations en flux tendu. Objectif : générer des indicateurs en temps réel, sur les taux de clics par exemple. Autre solution étudiée : Kafka, un MOM (middleware orienté message) Open Source développé à l'initiative de LinkedIn - puis confié à la fondation Apache. Proposant une méthode d'écriture et lecture des messages sur disque pour en optimiser le traitement, il pourrait être utilisé par Criteo afin d'optimiser la remontée d'informations en temps réel en provenance des sites de ses clients, toujours en vue de générer ces rapports.