L'IA, nouveau levier pour anticiper les pannes des applications cloud

L'IA, nouveau levier pour anticiper les pannes des applications cloud L'intelligence artificielle se met au service de la maintenance préventive des applications cloud. Les experts du monitoring s'engouffrent dans la brèche.

Imaginez une intelligence artificielle capable d'identifier une panne informatique avant même qu'elle ne se produise. Le machine learning (ML) appliqué à la maintenance préventive des infrastructures IT est déjà une réalité chez les Gafam. Amazon, Apple, Facebook, Google et Microsoft mettent en œuvre de telles techniques sur leurs infrastructures en vue d'en optimiser la qualité de service. Mais l'heure de la démocratisation a sonné. Les poids lourds du monitoring d'applications cloud, au premier rang desquels AppDynamics, Datadog, Dynatrace et New Relic, ont commencé à implémenter l'apprentissage machine au cœur de leur offre, contribuant ainsi à mettre ces nouveaux outils à la portée des PME et des grands comptes.

"Le machine learning est déjà utilisé quotidiennement par nos clients", explique Gabriel-James Safar chez Datadog. Historiquement, l'éditeur a d'abord fait appel à l'apprentissage machine pour anticiper les pics de trafic et les besoins en ressources IT supplémentaires, par extrapolation, sur la base de l'analyse des historiques de logs et d'activités. Mais la maintenance prédictive est assez vite devenue une préoccupation majeure du groupe new-yorkais. "Il s'agissait de répondre à des questions telles que : 'Existe-t-il un comportement anormal dans certaines métriques, laissant entendre qu'un dysfonctionnement est en cours ?", explique le responsable produit de Datadog.

Chez AppDynamics, l'implémentation du machine learning est plus récente, la première annonce datant de janvier 2019. Pour négocier son virage vers l'IA, la société de San Francisco s'est adossée à une technologie d'analyse de données temps réel issue d'un rachat bouclé en 2017 par sa maison mère Cisco (Perspica). Dans le sillage de l'opération, AppDynamics a commercialisé un premier moteur d'analyse prédictif basé sur cette brique. Baptisé Cognition Engine, "il applique des algorithmes d'autoapprentissage aux historiques de production informatique pour détecter des anomalies, par exemple dans le cas où un indicateur de performance dépasserait un seuil inhabituel, mais aussi pour remonter aux causes des dysfonctionnements", détaille Erwan Paccard, directeur marketing produit chez AppDynamics France.

Améliorer l'alerting

De son côté, Datadog a commercialisé un tout nouvel outil de ML début mars. Baptisé Daylight Saving Behavior, il permet de détecter automatiquement des comportements utilisateurs aberrants sur certaines métriques, en fonction notamment du fuseau horaire. Un dispositif qui a pour but d'améliorer le processus d'alertes et mieux anticiper d'éventuels problèmes. "Globalement, nous avons recours à une large palette d'algorithmes pour générer nos tableaux de bord : automates cellulaires, classification, clustering, détection d'anomalies, de patterns dans la gestion de logs, ou encore prédiction de séries temporelles", égraine Gabriel-James Safar.

"Avec l'avènement du serverless et des microservices, les architectures évoluent en permanence. Ce qui rend les prédictions complexes à réaliser"

Chez AppDynamics, Erwan Paccard insiste : "Comme souvent en machine learning, la solution implique un data set basé sur un format unique et une sémantique pivot pour assurer des traitements de qualité. Elle doit également recouvrir l'ensemble du contexte, de l'exécution de l'application et de la base de données (temps de latence, taux de disponibilité, bug, crash... ndlr) jusqu'à la consommation en ressources machine en passant par les indicateurs d'impact business pouvant découler d'un incident." Pour relever ce défi, AppDynamics met en avant une infrastructure d'agents de monitoring "taillée pour glaner des données riches et cohérentes sur l'ensemble d'une stack informatique".

Autre défi technique : la nécessité de prendre en compte l'évolutivité de plus en plus rapide des systèmes. "Avec l'avènement des architectures dockérisées en microservices et du serverless, les applications changent en permanence. Ce qui rend les prédictions complexes à réaliser. Au final, les fenêtres de tir avec un niveau de fiabilité acceptable sont souvent trop étroites pour aboutir à des indicateurs véritablement pertinents. C'est comme la météo", compare Erwan Paccard. Objectif affiché par AppDynamics : parvenir à terme à bâtir une offre de maintenance préventive digne de ce nom, avec à la clé la promesse d'une gestion semi-automatisée voire automatisée des correctifs.

Vers une maintenance automatisée

Même démarche du côté de New Relic. La société californienne a annoncé fin février le rachat de SignifAI. Embarquant là-encore des composants de ML, cette technologie de maintenance prédictive sera prochainement intégrée à son offre. "Avec plus de 60 intégrations allant des outils open source à des outils de surveillance en passant par de nombreuses suites d'outils DevOps, SignifAI automatise la corrélation et enrichit le contexte des pannes informatiques permettant aux équipes de développement d'obtenir rapidement des réponses en cours d'incidents. Elle classe les alertes par niveaux de priorité et remonte aux causes d'un problème en vue d'optimiser les temps de résolution", indique Lew Cirne, PDG et fondateur de New Relic.

Fort de cette nouvelle brique, New Relic entend comme AppDynamics s'attaquer à la problématique de la supervision des systèmes cloud à base de serverless, de microservices et de containers. "Des environnements qui, compte tenu de leur complexité, peuvent engendrer des pannes en cascade", insiste Lew Cirne. A l'instar de son concurrent, la société compte là encore évoluer vers des processus de recommandation de solution et de maintenance automatisée.

Quid du ROI de ces nouvelles offres ? "Il est difficile de donner des chiffres prenant en compte tous les impacts que des algorithmes peuvent apporter aux équipes de production et de développement. Les dysfonctionnements peuvent parfois provenir de phases d'inattention des équipes. C'est pourquoi des fonctionnalités de machine learning d'apparence anodines mais bien pensées peuvent avoir un impact fort en permettant d'identifier les bonnes métriques", souligne pour finir Gabriel-James Safar chez Datadog.