L'automatisation IT alimentée par l'IA est essentielle à la résilience et à l'adaptabilité

L'automatisation et l'intelligence artificielle peuvent être utilisées pour remédier à des incidents survenant couramment avant même que les intervenants ne soient appelés.

Le monde moderne fonctionne grâce à des codes ; comme chaque société est désormais une société de logiciels, il est plus important que jamais de réagir rapidement en cas de problème. C’est pourquoi la réponse aux incidents est aujourd’hui le processus essentiel dans toute organisation.

Malheureusement, les approches manuelles traditionnelles sont terriblement inefficaces. Il en résulte un temps moyen de réparation (mean time to repair, MTTR) excessif qui nuit non seulement à la fidélité des clients mais également aux résultats finaux et surtout au moral des employés.

Heureusement, les capacités d’automatisation et d’apprentissage machine (machine learning, ML) peuvent sortir les organisations de ces ornières. Les équipes cherchent à réduire les tâches répétitives et les erreurs humaines, optimiser la productivité des intervenants et obtenir de meilleurs résultats à tous les niveaux en adoptant les systèmes de réponse automatisée aux incidents.

Pour bien profiter de cette nouvelle approche et mettre en place une culture de résilience, les équipes doivent rechercher les occasions d’améliorer et de mettre à niveau les processus opérationnels en utilisant une technologie capable d’éliminer les tâches lourdes, économiser les cycles humains et générer un avantage.

Comment les processus manuels nuisent à la résilience

Beaucoup d’organisations ont accéléré leurs plans de transformation numérique à raison de plusieurs années, dans certains cas. Toutefois, nous avons appris que la vitesse peut faire des dégâts, et il n’est pas rare qu’une accélération peut également donner lieu à une plus grande exposition au risque opérationnel.

L’infrastructure prenant en charge les nouveaux services numériques peut contenir des centaines de millions de lignes de code et des milliards de dépendances, de sorte que les incidents numériques sont inévitables. Les études montrent que les incidents critiques ont augmenté de 19% de 2019 à 2020.

Pour tenir le rythme de l’innovation nécessaire pour assurer une disponibilité élevée et une excellente expérience consommateur, les organisations doivent investir dans les meilleures pratiques et mettre en place des processus robustes pour rationaliser la réponse aux incidents afin de traiter et de résoudre les problèmes de manière proactive lorsqu’ils surviennent.

La réponse actuelle, manuelle et réactive, aux incidents ne permettra pas à l’infrastructure et aux opérations d’atteindre par magie la résilience adaptative décrite par Gartner.

Saisir les occasions d’exploiter l’automatisation dans la réponse aux incidents

Dans beaucoup d’organisations, les outils, les scripts et les commandes manuelles que les intervenants utilisent pour résoudre les incidents n’existent que dans la tête d’une poignée d’experts en la matière (SME). Ces incidents peuvent également nécessiter une intervention manuelle. Par conséquent, la réponse aux incidents n’est ni rapide, ni efficace. Trop souvent, les organisations perdent de précieuses ressources en faisant appel à des dizaines d’intervenants pour résoudre un incident. Cela ne résout pas le problème sous-jacent.

De plus, les processus manuels peuvent générer des erreurs de copier-coller, des répétitions inutiles d’étapes, une collaboration limitée entre les équipes d’assistance technique et clientèle, et l’utilisation de documentation incorrecte. Il en résulte un MTTR plus long, des clients mécontents et des employés frustrés.

Une autre option pour les organisations serait d’automatiser autant que possible leur réponse aux incidents, ce qui est bénéfique à la résilience et à leur capacité de tirer les leçons des incidents et permet une amélioration proactive des systèmes en continu.

L’automatisation des runbooks alimentés par l’apprentissage machine en est un bon exemple. Au niveau très basique, la réponse aux incidents consiste à accomplir des tâches répétitives telles que le redémarrage de serveurs, la copie d’artefacts, l’exécution de scripts et la manipulation de fichiers. En capturant intelligemment ces processus et en les consignant dans des runbooks, ils peuvent être exécutés automatiquement par des intervenants autres que des SME.

Une telle démocratisation des réponses aux incidents pourrait avoir un impact significatif sur le MTTR. Les premiers intervenants passent en moyenne 15 minutes à catégoriser une alerte lorsqu’elle survient pour la première fois avant de la transmettre à un SME qui passe également 15 minutes à effectuer des diagnostics. Par contre, en exécutant des flux de travail dès le départ, les premiers intervenants pourraient recueillir immédiatement ces informations et éventuellement réparer les problèmes récurrents en utilisant la réparation automatisée. Si ce n’est pas possible, ils peuvent remonter le problème au SME avec les informations dont il a besoin pour résoudre le problème immédiatement.

Dans les organisations les plus matures, l’automatisation et l’intelligence artificielle (IA) peuvent être utilisées pour remédier à des incidents survenant couramment avant même que les intervenants ne soient appelés. Dans ce scénario, la remontée vers les SME et développeurs ne se fait que dans les cas inhabituels et complexes.

Pas à pas

Tout ceci ne se fait pas en un jour. Oui, les outils sont très utiles pour atteindre ces objectifs, mais les organisations devront également surmonter des barrières culturelles, ce qui peut prendre plus de temps. La clé est de commencer petit, avec des objectifs raisonnables, en apprenant au fur et à mesure. Les organisations doivent marcher avant de courir.

Elles doivent commencer par automatiser des diagnostics simples, à faible risque, qui n’ont pas d’impact sur l’exécution ou la disponibilité des services, et qui nécessitent peu de traitement. Grâce à l'automatisation de l'exécution des commandes, de la collecte des informations des journaux et d'autres étapes courantes de dépannage, les équipes peuvent réduire le MTTR et potentiellement éviter de mobiliser certains intervenants si rien d'anormal n'est découvert.

De là, les organisations pourraient passer à des actions réflexes pour les problèmes les plus courants (par exemple, supprimer les fichiers temporaires pour libérer de l'espace disque). Une fois que ces problèmes simples sont codifiés, elles peuvent passer à l’automatisation de séquences à étapes multiples pour remédier aux incidents courants. Ensuite, elles n’automatisent les actions complexes à impact potentiellement grave sur les performances ou la disponibilité qu’après avoir exécuté avec succès ces étapes initiales.

Le fait est que les machines sont plus rapides que les humains pour certaines tâches et elles ne rechignent pas à se charger de tâches ennuyeuses et répétitives. Les organisations capables d’utiliser ceci à leur avantage par l’IA, le ML et l’automatisation vont ainsi libérer les talents de leurs équipes de réponse aux incidents tout en améliorant la résilience et l’adaptabilité des systèmes informatiques. C’est la solution, non seulement pour la satisfaction des clients et la consolidation de l’image de marque, mais aussi pour la motivation du personnel qui pourra consacrer plus de temps à l’innovation. Dans le monde numérique post-pandémie, l’innovation sera la clé de la survie.