Ouragan Sandy : les leçons à tirer d'une crise informatique

L'ouragan Sandy a eu des conséquences désastreuses pour les entreprises de la zone touchée. Voici des bonnes pratiques à tirer de cette catastrophe afin de permettre aux entreprises de se préparer à une situation de crise.

Fin octobre 2012, l’ouragan Sandy a frappé de plein fouet les Caraïbes, ainsi que la côté Est et le Nord-Est des États-Unis, avec des conséquences désastreuses. On estime le coût des dégâts et des pertes liées à l’interruption de l’activité des entreprises à 65,6 milliards de dollars (soit environ 48,6 milliards d’euros). Chez SunGard Availability Services, nous avons reçu 342 mises en alerte qui ont généré 117 déclenchements. Pour soutenir la reprise des activités de nos clients dans cette région, nous avons déployé près d’un tiers de notre personnel, 5 unités de reprise mobiles, 9 centres de secours utilisateurs et 1 500 positions de secours. Par ailleurs, notre site de Carlstadt a servi de poste de commande improvisé pour les forces de police locales et les équipes de soins et de premiers secours. Il nous a dès lors semblé essentiel de rassembler certaines bonnes pratiques ainsi que les leçons tirées de cette catastrophe naturelle afin de permettre aux entreprises de se préparer au mieux à ce type d’événement.
Il convient en préambule de préciser que les principaux défis à considérer pour assurer une reprise d’activités efficace se situent à trois niveaux : la protection des données, le redémarrage des systèmes, mais aussi la gestion des collaborateurs, des processus et des solutions de reprise.

Protection deS données

Les défis auxquels ont été confrontés nos clients, en particulier ceux utilisant la sauvegarde sur bandes, nous ont permis d’émettre plusieurs constats. Tout d’abord, le transport des bandes, dans le contexte Sandy, vers nos centres sécurisés, a été particulièrement complexe. Depuis, un grand nombre de nos clients envisage, dans le cadre d’une stratégie alternative de sauvegarde de données, d’adopter une sauvegarde sur disque, voire une écriture miroir et une réplication des données en temps réel. Par ailleurs, si la sauvegarde sur bande constitue une solution relativement peu onéreuse, elle souffre d’un temps de restauration beaucoup plus long. Il est donc nécessaire d’envisager d’utiliser des services d’infogérance de sauvegarde ou de sauvegarde électronique de données  permettant une réplication et une externalisation automatisée et centralisée.
Il est néanmoins possible de conserver l’usage des bandes tout en réduisant considérablement les temps de reprise grâce à de bonnes pratiques de traitements parallèles. Une entreprise peut ainsi stocker une copie de son système d’exploitation chez un prestataire comme SunGard qui configurera le matériel de reprise et pourra remettre en service le système d’exploitation en attendant l’arrivée des bandes.

Redémarrage des systèmes

Nos clients exploitent des environnements hybrides ou hétérogènes ; très peu disposent d’une infrastructure entièrement physique ou virtualisée. Leurs applications reposent parfois sur des interdépendances complexes. Ainsi, des applications mineures doivent parfois être reprises en même temps que des applications critiques, ces dernières dépendant souvent des premières.

La gestion du changement est donc essentielle. Si l’environnement de reprise n’est pas totalement compatible avec l’environnement de production, la reprise échouera. En cas d’incident, il est difficile de négocier des changements de dernière minute sur le site de secours. Cela ne fera que retarder la reprise des activités. Pendant l’ouragan Sandy, près d’un tiers de nos clients ont dû procéder à des modifications majeures de leur configuration de secours, notamment pour bénéficier de serveurs plus performants, d’une capacité de disque supplémentaire, de différentes technologies de bandes, de configuration des pare-feu, ou encore de ponts LAN.
Une autre erreur, fréquemment observée lors de reprises d’activités, a consisté à ne pas prendre en considération les trois couches d’application : bases de données, logiciels intermédiaires et Web. Certains clients ont ainsi été dans l’impossibilité de récupérer ces trois couches et se sont retrouvés dans l’incapacité de reprendre leurs activités. Enfin, en termes de connectivité réseau, il est important de repenser la conception du réseau central et de mettre en place des chemins de basculement afin d’éviter une congestion des réseaux dans les zones touchées par l’ouragan.

Personnes, processus et solutions de reprise

Concernant les employés, la principale leçon à retenir est qu’il faut réexaminer la question du télétravail et des autres stratégies alternatives en ayant à l’esprit qu’un sinistre de l’ampleur de Sandy peut toucher de très larges zones géographiques. Nous conseillons aux organisations soumises à des réglementations concernant la confidentialité des données de conclure avec leur prestataire un contrat portant sur des espaces de travail dédiés, où seul le personnel autorisé aura accès aux données critiques, et d’indiquer le nombre exact de positions dont elles ont besoin, ni plus, ni moins.
Par ailleurs, la fermeture de nombreux axes routiers a grandement compliqué les déplacements des équipes en charge de la reprise. Ainsi, pour des raisons de sécurité, certaines personnes n’ont pas pu - ou pas souhaité - quitter leur zone habituelle d’activité. Dans ce contexte, confier la reprise de ses activités à un prestataire spécialisé reste la meilleure option. Il est également important de communiquer en amont auprès de ses employés et de planifier en interne les mesures à adopter en cas d’incident, y compris en donnant des indications à caractère privé de type accès du domicile au data center, etc. Lorsque cela est possible, l’entreprise peut également demander aux équipes en charge de la reprise des activités d’arriver sur les sites de reprise avant le début des événements afin d’éviter qu’elles ne soient bloquées par d’éventuelles ruptures de transport.
En termes de processus, les plans de reprise doivent être constamment mis à jour, et les procédures conformes aux configurations de production en vigueur. Les outils de communication de masse doivent eux aussi faire l’objet de mises à jour et de contrôles réguliers. De plus, il est nécessaire d’identifier des outils de communication alternatifs et de former les salariés à leur utilisation, afin de bénéficier d’une solution de repli si l’un des moyens de communication n’est pas accessible.
Enfin, il est important de noter que même si les tests de reprise sont concluants, la reprise des activités peut encore échouer. En effet, les tests nécessitent en moyenne une période de planification de 12 semaines et aucun ouragan n’est prévisible aussi longtemps à l’avance. L’entreprise doit donc toujours se tenir prête en veillant à ce que des analyses post-tests soient menées et que les recommandations et enseignements soient intégrés aux plans et solutions de secours.
Il convient donc d’établir des stratégies strictes de gestion du changement. Dans ce domaine, la plupart de nos clients essaient de faire au mieux mais beaucoup doivent faire face à des restrictions budgétaires et ne disposent pas des ressources et compétences nécessaires pour mettre en œuvre des tests et une politique de gestion du changement efficace. Pour ces derniers, il peut être utile de confier leur plan de reprise d’activité à un fournisseur spécialisé en gestion et implémentation de PCA. L’expertise d’un partenaire permet à une entreprise de réaliser des économies et d’être prête en permanence à parer toute éventualité.

En conclusion, les dégâts provoqués par l’ouragan Sandy ont causé de grandes difficultés à nos clients. En matière de sauvegarde des données, nos clients ont été amenés à réfléchir plus en profondeur à leurs objectifs en termes de temps de reprise et de perte de données admissibles ainsi qu’à un éventuel transfert de leurs moyens de sauvegarde.
Un grand nombre d’entre eux ont également eu besoin d’apporter de profondes modifications à leur environnement de reprise, soulignant ainsi l’importance de la gestion du changement et d’une parfaite adéquation entre l’environnement de reprise et l’environnement de production. Ils ont également pris conscience que la qualité de leurs procédures de secours dépendait de leurs derniers tests, et que des plans incomplets rallongeaient les délais nécessaires au redémarrage des applications critiques. Enfin, l’ouragan Sandy a permis de contester l’hypothèse selon laquelle le télétravail constitue à lui seul une stratégie efficace et viable en matière de continuité d’activités. Il est également important de disposer de positions de secours dédiées suffisantes pour répondre aux exigences réglementaires et permettre aux collaborateurs essentiels de procéder à la reprise des activités critiques de l’entreprise.

 

Autour du même sujet