Plan de sauvetage en cas d’incident réseau : les 4 questions à se poser

Un plan de reprise d’activité suite à un important incident réseau consiste en un ensemble de procédures établies pour aider une entreprise à faire face à une interruption de service réseau, liée à un sinistre d’origine humaine ou environnementale.

Ce plan d’intervention doit comporter des instructions claires et simples à suivre pour restaurer les services réseau et les opérations courantes suite à un sinistre, une urgence ou une crise. 

La situation idéale est bien sûr d’éviter les gros incidents IT en se concentrant avant tout sur la prévention et la planification. De nombreux scénarios catastrophe peuvent ainsi être analysés et anticipés dans les moindres détails avant qu’ils ne surviennent. Mais quand un incident n’a pas pu être évité, voici les mesures à prendre dans le cadre du plan de reprise d’activité :

  • Identifier l’origine de l’interruption et les conséquences de l’incident le plus rapidement possible

  • Avertir toutes les équipes affectées afin qu’elles puissent agir

  • Isoler les systèmes concernés afin que les dégâts ne puissent pas se propager

  • Réparer les systèmes critiques affectés pour que l’activité puisse reprendre

Ces différentes mesures représentent des actions de gestion de risques ou d’atténuation des risques. Lorsqu’elles sont bien exécutées, ces procédures de reprise d’activité permettent d’économiser beaucoup d’argent. L’impact financier de quelques heures d’interruption de réseau ou de perte de connexion web sur les entreprises peuvent en effet se chiffrer rapidement en très gros montants. Le spécialiste des communications en entreprise Avaya a publié des résultats d’étude sur ce sujet : 81% des entreprises européennes interrogées en 2013 ont souffert de pannes de réseaux, entraînant des coûts moyens de 60 000 €. Conséquence supplémentaire, les équipes IT responsables ont été licenciées dans une entreprise concernée sur cinq. 

Pour éviter ou atténuer ces risques, il s’agit donc de créer un bon plan de sauvetage, en commençant par se poser une première question :

Question n°1 : quels scénarios peuvent provoquer une interruption de réseau ?
Plusieurs types de scénarios doivent être considérés en fonction des différentes menaces pour le réseau :

  • Attaques (internes et externes, telles que des attaques de pirates informatiques et de virus)

  • Pannes d’électricité 

  • Dommages physiques (qu’ils proviennent d’un sabotage, des intempéries, de surtensions électriques, d’un incendie ou d’un dégât des eaux)

  • Mauvaises configurations

  • Échec des mises à jour

Il est essentiel de prendre en compte toutes les menaces et scénarios possibles, aucun risque ne devant être exclu dans le plan de sauvetage et de reprise d’activité. Mais puisque tous les services de l’entreprise ne partagent pas forcément la même anticipation, voici la seconde question à prendre en compte…

Question n°2 : quels services sont les plus importants pour les processus métiers de l’entreprise ?

Il est fort probable que chaque service de l’entreprise n’ait pas la même importance pour ses processus métiers et donc sa réussite. Afin de déterminer quelle action est plus cruciale qu’une autre, il est donc nécessaire d’identifier les services les plus critiques, en se posant les questions suivantes :

  • Qui sera affecté par l’interruption d’un certain service ?

  • Quel est l’impact pour l’entreprise ?

  • Quelle est la durée acceptable d’une interruption ?

  • Quels sont les seuils pour un « incident », une « urgence » et une « crise » ?

On peut établir qu’un « incident » signifie par exemple une interruption de 30 à 60 minutes, tandis qu’une « crise » pourrait représenter une interruption de plus de 24 heures, entraînant des pertes financières importantes. C’est en fonction des dommages prévisibles que l’on définit le sinistre comme un incident, une urgence ou une crise, et que l’on peut y répondre de façon appropriée.

Et lorsque l’on juge de l’importance d’un service, il ne faut pas oublier d’examiner aussi ses diverses dépendances : de quels autres services il dépend et quels sont les services qui dépendent de lui ?
Question n°3 : que faire pour atténuer certains risques potentiels et à quel prix ?

Il existe une corrélation directe entre investissement et disponibilité optimale. Subir de très petites et courtes interruptions peut coûter cher. Ne pas être en mesure de proposer provisoirement des services aux employés et aux clients peut potentiellement être encore plus coûteux. La clé est ici de déterminer quel est le coût pour disposer d’un service à haute disponibilité, et de le comparer à la probabilité que diverses interruptions surviennent et combien elles coûteraient en termes de revenus perdus. 

Voici la formule que l’on peut utiliser pour effectuer cette analyse : 

Coûts < (pertes de revenus x probabilité d’incidents)

Question n°4 : en cas d’incident, d’urgence ou de crise, quelles sont les personnes à contacter ?

Même si on espère toujours le meilleur pour son entreprise, il faut être préparé à chaque instant au pire. Dans les cas de scénarios catastrophe, les responsables de l’entreprise doivent être informés, pour pouvoir ensuite informer d’autres personnes. 

Un plan de reprise d’activité suite à un incident doit indiquer les personnes à contacter pour les différentes actions à mener, des administrateurs système jusqu’aux cadres supérieurs et le PDG.

Il est important de déterminer qui doit informer les autres et qui a besoin d’être informé. De plus, il faut avoir identifié quels sont les contacts externes pour la police, les fournisseurs et sous-traitants ou les opérateurs de Data Centers.

Pour conclure, voici donc le mantra de tous les plans de sauvetage viables :  

« Sécurisez au mieux votre réseau. Mais soyez toujours prêts au cas où quelque chose se passerait vraiment mal ».