L’IA pour réconcilier la gestion de la performance des réseaux et des applications

En matière IT, les applications viennent de Mars et les composants réseaux de Vénus. Ils sont donc rarement supervisés et gérés ensemble. L'intelligence artificielle pourrait permettre de résoudre l'équation.

D’après une étude du cabinet de conseil EMA, près de la moitié (49%) des 300 répondants cite l’infrastructure et les applications comme étant les deux éléments les plus dépendants l'un de l’autre dans l’analyse IT. Un résultat logique car les performances réseau ont un impact sur les performances des applications. Alors, pourquoi ne pas gérer les deux conjointement, de manière à pouvoir visualiser l’ensemble des données ?

En premier lieu, les outils de supervision produisent des données de différents types, provenant de différentes couches. Le réseau réside dans les couches inférieures du stack TCP/IP traditionnel avec des outils de NPM (network performance management) qui utilisent des protocoles tels que SNMP. Du côté des applications et de leurs protocoles se trouvant dans les couches supérieures, l’APM (application performance management) propose différents outils pour gérer la supervision de l’expérience utilisateur, les profils de transaction ou encore l’analyse de performance.

Le schisme entre la gestion de la performance des applications et celle du réseau est également organisationnelle. Beaucoup d’entreprises ne sont simplement pas structurées pour les gérer ensemble. Si ce sont différentes équipes qui s’en occupent, elles risquent même d’être en opposition, renvoyant la responsabilité des problèmes de performance vers l’autre camp.

Par ailleurs, le volume de données croissant (multiplié par trois chaque année d’après Gartner) rend déjà difficile de suivre de manière séparée ce qui se passe sur le réseau et sur les applications, alors le faire simultanément l’est encore plus. Comment les entreprises pourraient-elles donc gérer ce déluge d’informations tout en s’occupant de la gestion des applications et du réseau en même temps ?

L’automatisation par l’IA est-elle l’avenir ?

Toujours d’après Gartner, la réponse réside dans l'intelligence artificielle, technologie qui réunira non seulement les parties distinctes des opérations IT telles que APM et NPM, mais inaugurera aussi une nouvelle ère d’automatisation.

Imaginons ainsi un logiciel doté d’une vision omnisciente sur le réseau et capable de repérer des tendances dans les données que les humains pourraient manquer. Au lieu d’attendre qu’un utilisateur signale par exemple un problème d’accès aux données, l’IA pourrait créer un ticket d’incident avant même que quiconque ne se rende compte qu’un problème arrive. Une version encore plus sophistiquée de ce système pourrait enclencher des actions d’elle-même afin de réduire la charge des opérateurs humains.

Gartner donne un nom à ce concept futuriste : AIOps, soit l’intelligence artificielle pour les Opérations IT. Pour identifier des tendances dans les données de l’infrastructure IT, l’AIOps utilise le machine learning, processus qui nécessite de grandes quantités de données pour l’entraîner, afin qu’il puisse reconnaître ce qui est normal et ce qui ne l’est pas. Il tire ainsi parti de l’accroissement des volumes de données extraites des outils de supervision de l’infrastructure IT, comme le NPM et l’APM.

Gartner prévoit que d’ici 2022, 40% des grandes entreprises combineront le big data et le machine learning pour renforcer ou remplacer partiellement la supervision. Elles devraient également moderniser leurs centres de service IT et utiliser l’IA pour automatiser des tâches et processus. C’est donc probablement l’AIOps qui poussera à l’intégration de l’APM et de la NPM dirigée par l’IA.

Comment cette IA fonctionnera-t-elle ?

Est-ce que cela signifie que les entreprises vont se débarrasser des outils APM et NPM qu'elles ont mis des années à mettre en place ? Peu probable, car beaucoup d’entre elles en possèdent plusieurs et cela représente un investissement irrécupérable. Au lieu de cela, Gartner pense que l’AIOps agrégera les données de ces systèmes et travaillera de concert avec eux plutôt que les remplacer. Il utilisera ainsi les résultats d’outils spécialisés pour des analyses inter-domaines.

Comme l'AIOps collectera les données provenant de logiciels de supervision d'applications et de réseau, cela obligera les équipes IT à dresser un inventaire de leurs outils dont certains datent parfois de plusieurs décennies. Cela n’a rien d’étonnant car d’après un sondage de CA Technologies, 72% des professionnels de l’IT utilisent jusqu’à 9 outils de supervision différents pour surveiller des applications modernes.

Ces outils entraîneront les algorithmes de machine learning avec leurs données, jusqu’à obtenir des niveaux de référence représentant des performances normales. Ils seront alors en mesure d’analyser les données combinées de l’APM et de la NPM dans deux contextes : l’historique et le temps réel. L’analyse historique permettra de détecter, au fil du temps, les problèmes qui émergent dans les données de performance tandis que l’analyse en temps réel mettra en évidence les incidents à traiter immédiatement.

Ces outils seront capables de détecter des anomalies de performance et corréler des événements a priori non liés qui pourraient évoluer en problèmes systémiques s’ils ne sont pas maîtrisés. Mais le véritable bénéfice de l’utilisation de l’IA résidera donc, d’après Gartner, dans l’automatisation des tâches de gestion des services IT (ITSM), avec génération automatique des tickets d’incidents et résolution de certains d’entre eux sans intervention humaine.

Les opérations IT basées sur l’IA dans le monde réel

En plus de déceler les problèmes que les opérateurs humains pourraient rater, ce type de processus contribuerait à éliminer les goulots d’étranglement, en réduisant le flot d’alertes grâce au tri des incidents sans impact sur les infrastructures et applications, ne laissant que les événements importants à prendre en compte. Gartner identifie également des gains potentiels en matière d’alerte sur des prédictions d’événements, comme par exemple un système qui déclenche un détecteur de fumée avant qu’un incendie ne se produise.

Deux défis sont à surmonter pour rendre possible ces cas d’usage avancés : la qualité des données et les compétences. Entraîner les systèmes au machine learning est un travail difficile de manipulation de statistiques avec des données nettoyées, ce qui implique que quelqu’un doit traiter et valider les informations issues des systèmes NPM et APM. Ensuite, quelqu'un doit entraîner l'algorithme, vérifier les résultats, affiner les données et l'algorithme, puis recommencer pour obtenir les meilleurs résultats possibles. C’est un travail qui n’est pas celui d’un administrateur réseau, et il est peu probable qu’une solution d’AIOps puisse le faire toute seule.

Enfin, il est important de rester lucide sur la confiance que nous souhaitons accorder à l’IA. Filtrer les corrélations d'événements et d’anomalies puis les transmettre à un opérateur humain pour une analyse plus poussée est une chose, que nous voyons déjà dans le domaine de la cybersécurité. Mais faire confiance à une IA pour effectuer une analyse d’un problème et la laisser le résoudre seule correctement est une perspective qui peut effrayer.

L'automatisation basée sur AIOps est une idée séduisante en théorie, mais son déploiement sera progressif. Comme dans de nombreux cas d'utilisation de l'IA, les possibilités sont toutefois nombreuses et il suffira de quelques expérimentations encourageantes et modérées pour constater jusqu’où une équipe IT pourra pousser le concept.