Data center : la théorie du cygne noir, ou comment se préparer au sinistre

La théorie du « cygne noir » décrit les évènements comme étant peu probables et impossibles à prévoir, mais pouvant entrainer – s’ils se produisent un jour – des conséquences désastreuses.

Les aspects techniques d’une reprise d’activité après sinistre sont importants, mais le critère humain doit également être pris en compte. Il faut en effet réfléchir au concept de prévisibilité et d'inévitabilité, et tout particulièrement à la théorie du « cygne noir » du philosophe Nassim Nicholas Taleb.

Cette théorie décrit les évènements du type « cygne noir » comme étant des évènements peu probables et impossibles à prévoir, mais qui peuvent entrainer – s’ils se produisent un jour – des conséquences désastreuses.

En réalité, une entreprise peut planifier les évènements rares, et ainsi renforcer la capacité de réponse individuelle ou collective. Dans son livre, Taleb prétend que les personnes en général – et en particulier au sein des sociétés et des entreprises – sont très vulnérables face aux évènements de type « cygne noir » et peuvent subir de lourdes pertes en l'absence de préparation appropriée.

La question n'est pas de savoir si l'évènement va se produire, mais quand !

Pourquoi la plupart d'entre nous ne prennent en compte le phénomène du « cygne noir » qu'après qu'il se soit produit ? Selon Taleb, une partie de la réponse tient du fait que les humains sont programmés pour apprendre des choses spécifiques et concrètes alors qu'ils devraient se concentrer sur les généralités et sur une vue d’ensemble. Nous nous concentrons sur ce que nous connaissons déjà, et l'expérience ne cesse de le prouver, nous ne prenons pas en considération ce que nous ne savons pas. Nous sommes ainsi incapables de véritablement estimer les opportunités, et pas suffisamment enclins à écouter et récompenser ceux qui peuvent imaginer l'impossible.

Revenons maintenant aux datacenters. Il existe une analogie évidente entre la théorie du « cygne noir » et le besoin de se préparer aux sinistres éventuels pour protéger le système informatique. En effet, selon une étude américaine menée par l’Institute for Business and Home Safety, environ 25% des entreprises ayant subi un sinistre au sein de leur datacenter cessent leur activité. Pour éviter un tel scénario, il est primordial de se préparer en amont afin de pouvoir assurer une reprise d’activité rapide en cas de sinistre – et ainsi limiter l’impact financier.

Il est impossible de prévoir les pannes matérielles ou logicielles, les erreurs humaines ou la négligence, les catastrophes naturelles ou les actes terroristes. Mais, une fois que nous acceptons le fait que certains de ces évènements vont inévitablement se produire alors que nous sommes responsables de la protection de l’infrastructure IT, nous avons déjà franchi un pas décisif qui nous sépare d'une catastrophe aux conséquences fatales. Prendre l'inévitable comme postulat de départ et s'y préparer – ce sont deux étapes cruciales pour éviter les conséquences désastreuses suivant un sinistre.

Voici les points à prendre en considération pour se préparer au mieux à un sinistre :

1. Contrôler le facteur humain – imaginez qu'un désastre se produise. Vos serveurs ne fonctionnent plus. Vous vérifiez que les données de votre dernière sauvegarde sont en bon état. Votre alimentation électrique est défaillante et vous ne savez pas si celle-ci va être fiable dans les jours à venir. Vous recevez de nombreux appels de votre patron, des clients et de l'assistance technique – tous posent la même question : « Quand serons nous à nouveau opérationnels ? » Dans un climat de pression, il faut que le service informatique soit capable de calmement maîtriser la situation, avec confiance, tout en exécutant toutes les tâches de restauration, en minimisant les risques et en réparant les entités concernées. Le stress lié à une telle situation – sans préparation préalable – peut pousser les meilleures équipes à la faute.

2. Tester régulièrement les restaurations – L’environnement IT est en constante évolution, en particulier à l'époque des Software Defined Data Centers. Les mises à niveau et les correctifs logiciels, les modifications matérielles, les nouvelles applications, la rotation des personnels, les changements d'ordre organisationnel – toutes ces conditions peuvent ruiner le meilleur scénario de reprise d’activité après sinistre. Pour comprendre l’impact de ces divers éléments, il faut tester régulièrement les plans de restaurations pour assurer le bon fonctionnement de la procédure en cas d'urgence.

3. Exploiter les techniques d'automatisation – Même si les tests ont fonctionné à merveille, il n’est pas certain que tous les processus complexes de restauration vont s'exécuter exactement comme ils sont supposés le faire le jour J. Le facteur humain peut jouer un rôle et bloquer certains processus. Comment faire pour réduire le risque ? L'automatisation est la solution. Si votre plan de restauration n'est pas un fichier Word ou Excel, mais qu'il est au contraire dans un format permettant l’exécution en un clic, la probabilité que tout se déroule exactement comme prévu est beaucoup plus élevée.

4. Assurez-vous d'avoir toute l'aide requise – Si vous devez affronter un désastre à l'échelle locale ou régionale, votre équipe sera-t-elle disponible ? Si la reprise d’activité après sinistre est critique pour votre entreprise, vos employés peuvent vouloir protéger leurs familles, leurs biens ou s'assurer de limiter les dégâts sur leurs vies personnelles au maximum. Ce n'est que lorsqu'ils se seront occupés de ces aspects qu'ils seront à nouveau disponibles pour l'entreprise. Mais il pourrait être trop tard. Il est indispensable de disposer d'une aide extérieure qui ne soit pas affectée par la même catastrophe et qui puisse vous offrir une assistance professionnelle optimale tandis que vos employés affrontent leurs propres problèmes. Il ne faut donc pas sous-estimer la valeur d'un partenaire externe pour l'assistance.

5. Travaillez avec le bon fournisseur – Se renseigner et choisir un fournisseur demande du temps et des ressources pour tester chaque solution. Il est possible, pour faciliter la phase de choix, de se pencher sur le dernier rapport Gartner Magic Quadrant concernant la reprise d’activité après sinistre comme Service. Gartner évalue les tendances actuelles et les principaux fournisseurs du marché, ce qui vous permettra de choisir une solution répondant exactement à vos besoins.

La reprise d’activité après sinistre est un élément clé et peut, le jour où un désastre se produira, représenter une véritable valeur ajoutée pour l’entreprise en minimisant le temps d’arrêt du système informatique. Prendre en compte la théorie du « cygne noir » force les entreprises à se préparer au pire, afin de s’assurer que le meilleur plan d’action sera déployable dans les plus brefs délais.  

Autour du même sujet