Pannes informatiques : quelle place pour nos ingénieurs ?

Disposer d'environnements numériques fiables et résilients, tout le monde le souhaite. Mais pour se prémunir contre les pannes, la connaissance technique ne suffit pas. Savoir analyser une situation et prendre les bonnes décisions pour réduire les risques, c'est avoir la capacité à résoudre des problèmes complexes.

Tous les secteurs doivent faire face à des pannes critiques. Le 14 décembre 2020, une panne massive chez Google a impacté jusqu’aux habitants de maisons connectées dont les interrupteurs se sont verrouillés. Le 18 février 2021, TF1 n’a pas pu lancer son journal télévisé à cause d’une mise à jour ratée. Plusieurs pannes de grandeur ampleur ont affecté telle ou telle banque ces dernières années. Leurs impacts, certes limités dans le temps, sont de natures variées : systèmes de paiement inopérants chez les commerçants, impossibilité d’accéder à ses comptes, mélange des informations entre différents clients, etc… Un article paru récemment explique l’ampleur des risques pour les banques en particulier et les politiques pour s’en prémunir.

Bien entendu, il existe un vaste ensemble de principes, pratiques et technologies que les DSI s s’approprient pour construire et faire fonctionner un système stable et résilient. Cet article n’a pas vocation à en faire l’inventaire. Il s’agit de mettre en évidence la puissance qu’apporte l’interaction bien pensée entre les hommes et la technologie à partir de 3 exemples.

1. Exploiter la data pour réagir

Lorsque la panne est effective, il faut agir vite pour en limiter l’impact. Or l’informatique d’une entreprise comporte aujourd’hui des millions de lignes de code et un très large écosystème d’infrastructures que l’esprit humain ne peut plus appréhender. Traiter de très grandes masses de données à la volée permet de détecter en quelques instants l’apparition d’un problème là où, il y a cinq ans, une banque pouvait être prévenue par l’un de ses concurrents d’un problème sur ses flux … deux jours après le début de la panne. Cet usage du big data apporte une aide aux personnes qui supervisent les systèmes et peuvent intervenir pour remettre en marche le composant en panne.

2.   Utiliser l’intelligence artificielle pour anticiper

Réagir face à une panne informatique est un impératif mais éviter la panne est une bien meilleure pratique. Comment savoir où sont les fragilités du système ?

La maintenance préventive est une méthodologie qui vise à intervenir sur une machine avant que l’incident ne se produise. Largement répandue dans l’industrie, elle s’exporte bien sur dans le monde des infrastructures informatiques composées d’un ensemble d’éléments dits hardware (la machine elle-même, les réseaux, les firewalls) et middle ware, éléments numériques qui vont permettre aux applications de fonctionner (système d’exploitation, base de données, etc.). Cette trentaine de composants comporte une variabilité gigantesque : technologie des matériels, fournisseurs de solution, version des composants, etc. Capter ces informations dans un lac de données (data lake) et construire un système d’analyse prédictif des pannes de type scoring va grandement faciliter la vie des équipes informatiques en leur permettant de planifier leurs interventions sur l’année. Avec cette politique, une banque a gagné 2h30 de disponibilité par mois, passant de 98,993% à 99,696% de disponibilité.

3.  Séparer l’homme de la machine pour fiabiliser

Une part majeure des pannes informatiques a comme origine le moment où un nouvel élément (le déploiement d’un patch ou d’une fonctionnalité logicielle par exemple) est mis en place. La meilleure pratique connue pour s’en prémunir est l’autonomation : séparer la préparation d’un geste technique de son exécution, qui va être réalisée par un automate.

L’autonomation est au cœur de la méthodologie de continuous integration / continuous deployment, encore très peu répandue dans les DSI. L’idée est que l’ingénieur en charge du déploiement interagit avec un automate composé d’un ensemble de tâches à accomplir (telles que rassembler, packager, intégrer le code) ainsi que de différents systèmes internes de vérification qui vont bloquer les déploiements lorsque des problèmes apparaissent. L’entreprise est alors protégée des erreurs humaines de ses ingénieurs, qui peuvent eux faire évoluer leurs méthodes grâce aux retours que leur fournit l’automate.

Ces trois exemples montrent autant la puissance des nouveaux outils digitaux que leur inutilité si l’on veut faire l’impasse sur les ingénieurs qui interviennent sur les systèmes informatiques. L’entreprise les identifie souvent comme des ressources coûteuses et interchangeables, pour peu que leur CV coche la case connaissance de la technologie A ou du langage B. Or la maîtrise de la qualité de nos environnements numériques complexes dépend tout autant de la connaissance technique que de la capacité à analyser une situation et à prendre les bonnes décisions pour réduire, sans relâche, les risques de panne. Cette compétence, la capacité à résoudre des problèmes complexes, s’acquiert. Le lean management en fait une priorité et les DSI qui l’adoptent obtiennent une meilleure fiabilité et une meilleure résilience de leurs systèmes.