Comment OVH anticipe ses pannes grâce au big data

Le cloud français a déployé un data lake fédérant chaque jour 432 milliards de mesures en provenance de centaines de sondes réparties sur l'ensemble de ses data centers.

Pour monitorer ses 27 datacenters à travers le monde, OVH s'est doté d'une plateforme big data digne de ce nom. Baptisée Metrics Data Platform, elle fédère chaque jour pas moins de 432 milliards de mesures en provenance de centaines de sondes réparties à tous les étages de l'infrastructure du groupe : racks de serveurs, baies, équipements réseau, système de refroidissement, etc. Elles sont agrégées au sein d'un data lake reposant sur des clusters Hadoop (HBase). En aval, des indicateurs et tableaux de bord variés sont générés : taux de remplissage des disques, niveau de trafic réseau, débit des pompes de water cooling, niveau de sollicitation de tel ou tel service cloud...

"En parallèle, nous avons déployé un second système d'une capacité de 2 pétaoctets pour gérer les logs", explique Giovanni Clément, directeur technique sur les solutions platform d'OVH. Baptisé Logs Data Platform, il s'adosse de son côté au moteur d'indexation open source Elastic Search. En amont, Metrics Data Platform s'intègre à d'autres systèmes de monitoring tels que Graphite, InfluxDB, OpenTSDB ou Prometheus. "Via sa couche d'API, elle peut ingérer des données issues de tous ces protocoles", confirme Giovanni Clément. Objectif : faciliter le déploiement des agents de supervision par les équipes de terrain quels que soient les couches matérielles et logicielles utilisées. Du fait de sa capacité à gérer de fortes volumétries, c'est l'outil open source Warp 10 qui a été retenu pour gérer l'analyse des métriques et séries temporelles.

Aux côté de Metrics Data Platform et Logs Data Platform, un outil maison (appelé Loops) réalise une photographie de l'état de l'infrastructure d'OVH à un instant T. Mise en fil d'attente au sein du système de streaming de données distribué Apache Kafka, cet instantané est ensuite analysé par Beacon. Autre brique créée en interne par OVH, cette dernière se charge de faire le tri entre les milliers d'alertes remontées dans Kafka. Elle les déduplique et les classe par ensembles d'équipements, etc. "L'objectif est de gérer les alertes de façon intelligente. Par exemple, si un rack de serveurs ou une baie plante, Beacon concatène toutes les alertes associées en une seule pour faciliter le travail des équipes d'astreinte", explique Pierre Zemb, ingénieur en infrastructure chez OVH. Autre tâche dévolue à Beacon : la gestion du processus d'escalade des alertes en fonction du niveau de gravité.

"Beacon s'appuie sur Apache Flink pour gérer les alertes venant de Loops avec une approche streaming et big data", explique Pierre Zemb (voir schéma ci-dessous).

Via Apache Flink, Beacon analyse des milliers d'alertes issues d'Apache Kafka et les agrègent au sein de notifications lisibles par les équipes d'astreinte. © OVH

Le système transmet les alertes via le canal voulu en fonction des besoins, par exemple par e-mails pendant la journée et par SMS pendant la nuit. Au final, entre l'apparition d'une ou plusieurs mesures non-conformes et la notification correspondante, il pourra s'écouler de quelques secondes à une à deux minutes. En aval, la plateforme s'intègre nativement à l'outil de data visualisation Grafana. "Sachant qu'il est toujours possible de recourir à des environnements tiers pour le requêtage tels Graphite, OpenTSDB ou Prometheus", précise Pierre Zemb.

Comme Logs Data Platform, la solution Metrics Data Platform est elle-aussi commercialisée par OVH auprès de ses clients. "Elle leur permet de bénéficier d'un environnement à l'état de l'art pour piloter leurs métriques et séries temporelles", souligne Giovanni Clément.

Pour la suite, OVH planche sur une nouvelle brique de visualisation de données. Baptisée Studio, elle aura pour but d'offrir aux équipes internes comme aux clients une console graphique combinant plusieurs modèles de tableaux de bord de monitoring pré configurés. "Elle s'adossera à notre démarche Insight qui vise à redistribuer à nos clients les métriques relatives aux services qu'ils utilisent chez nous. Elle intégrera d'ailleurs notre technologie d'alerting (reposant sur Loops et Beacon ndlr)", précise Giovanni Clément.

Comment OVH anticipe ses pannes grâce au big data

Guides

Repères