De la maintenance corrective à la maintenance préventive : un futur incontournable pour les entreprises ?

De nombreux outils de monitoring automatisent l’identification d'incidents et leurs causes racines. Néanmoins, une transition est en train de s’opérer grâce au machine learning vers le concept de maintenance préventive.

Alors que les entreprises de presque tous les secteurs d’activité économique deviennent des éditeurs ou des intégrateurs de logiciels, leurs directions informatiques sont amenées à produire des services digitaux de plus en plus vite et avec des niveaux de qualité de plus en plus exigeants. De surcroit, elles font face à des environnements de production d’une complexité croissante, avec des augmentations régulières du nombre de serveurs de calcul, de modules de stockage de données, de routeurs ou bien d’applications qu’il convient de faire tourner dans des écosystèmes intégrés. Le seul indicateur susceptible de baisser d’une année à l’autre est le budget de fonctionnement !

Dans ce contexte, il devient indispensable de se doter de méthodes et d’outils permettant d’automatiser l’identification d’anomalies ainsi et des causes racines de ces anomalies.

Mais, est-ce qu’on peut aller plus loin ? Serait-il possible de cerner les causes racines des anomalies avant que les incidents ne se produisent ?

D’une maintenance corrective à une maintenance préventive

Aujourd’hui, de nombreux outils de monitoring peuvent automatiser l’identification des incidents et leurs causes racines - ce qu’on appelle la maintenance corrective. Néanmoins, une transition est en train de s’opérer grâce au machine learning (ML) qui permet de basculer vers un nouveau paradigme de maintenance préventive.

Pour fonctionner, cette approche a besoin d’algorithmes de pointe qui ingèrent de grandes quantités de données pour apprendre ce qui est un fonctionnement optimal, normal, dégradé ou à l’arrêt. Une fois entrainés sur des données historiques, ces algorithmes sont capables d’analyser des environnements complexes avec un niveau de fiabilité élevé, et d’identifier des zones de la topologie informatique qui risquent de subir un incident à venir.

Lorsque les signaux machine-to-machine (M2M) sont horodatés et structurés, les algorithmes de ML identifient, puis modélisent les signaux observés avant chaque dégradation de service. Ces modèles sont ensuite sauvegardés dans des référentiels et utilisés pour comparer les signaux entrants à l’instant T. Lorsqu’il y a une correspondance entre des signaux entrants et les modèles dans le référentiel, une alerte est lancée. Ce type d’approche permet de prévoir les dysfonctionnements avec des taux d’erreurs inférieurs à 10%, ce qui est très intéressant.

Grâce à ces alertes hyper précises, les équipes de maintenance peuvent focaliser leurs efforts sur les vraies faiblesses de leurs systèmes d’information afin d’éviter des incidents, plutôt que de réagir aux incidents une fois que ceux-ci se sont produits.

Cette approche permet de gagner du temps et d’augmenter la qualité de service, tout en réduisant les coûts de fonctionnement des équipes de maintenance. Le coût de la maintenance corrective se situe à environ 5% du budget informatique. Grâce à la possibilité d’identifier et traiter les risques d’anomalies avant qu’elles n’apparaissent, les équipes de maintenance peuvent éliminer jusqu’à 80% des incidents, ce qui a un impact direct sur les coûts.

Mais ça change également la manière de gérer les efforts de maintenance préventive. Typiquement, pour chaque euro dépensé dans la maintenance corrective, les directions informatiques dépensent encore 4€ à 5€ sur la maintenance préventive, qui se déploient typiquement de 3 façons différentes :

  • Suivant un calendrier prédéfini
  • Après un certain nombre d’heures de production
  • Suivant un audit qui révèle des faiblesses

Identifier les faiblesses du système d’information avec un niveau de confiance élevé permet de focaliser les efforts de maintenance préventive là où cela compte réellement (point 3 ci-dessus) et d’éliminer des efforts déployés sur des zones qui sont dans un bon état de fonctionnement.

Pourquoi l’IA est-elle importante dans le traitement de signaux machine to machine ?

Les serveurs, routeurs, et applications génèrent des quantités considérables de données machine to machine (M2M) chaque jour. En effet, un serveur peut générer jusqu’à 200 000 messages par jour, avec une moyenne de 5 000 messages. Multiplié par le nombre de serveurs déployés sur un data center, ce chiffre grimpe rapidement, générant des quantités de messages ingérables sans outils performants.

Mais ce n’est pas tout. Les infrastructures hybrides, couplées avec des technologies hétérogènes, augmentent davantage la complexité associée à la collecte des datas hétérogènes, la transformation de ces datas vers des bases de données structurées, l’analyse des données puis le déploiement de modules de ML qui s’adaptent dès lors que les caractéristiques des environnements opérationnels changent.

Vers l’entreprise digitale autonome

Le module qui identifie les anomalies représente une brique essentielle mais incomplète de la solution d’automatisation de bout en bout. Lorsqu’un risque d’incident est décelé, le module identifie la cause racine du risque, puis doit également être en mesure de déceler la stratégie de remédiation optimale. C’est alors qu’il lance le processus de remédiation pour éliminer ou corriger les sources du problème. Pour déployer ces capabilités, il convient d’intégrer les modules de ML avec des solutions d’automatisation des serveurs ou réseaux qui existent sur le marché.

Grâce à cet ensemble de solutions, la direction informatique peut atteindre un niveau d’agilité, de productivité et de qualité hors pair ; ce qui offre un véritable avantage compétitif à l’entreprise digitale.