Ouragan Sandy : les leçons à tirer d'une crise informatique
L'ouragan Sandy a eu des conséquences désastreuses pour les entreprises de la zone touchée. Voici des bonnes pratiques à tirer de cette catastrophe afin de permettre aux entreprises de se préparer à une situation de crise.
Fin octobre 2012, l’ouragan Sandy a
frappé de plein fouet les Caraïbes, ainsi que la côté Est et le Nord-Est des
États-Unis, avec des conséquences désastreuses. On estime le coût des dégâts et
des pertes liées à l’interruption de l’activité des entreprises à 65,6
milliards de dollars (soit environ 48,6 milliards d’euros). Chez SunGard
Availability Services, nous avons reçu 342 mises en alerte qui ont généré 117 déclenchements. Pour soutenir la
reprise des activités de nos clients dans cette région, nous avons déployé près
d’un tiers de notre personnel, 5 unités de reprise mobiles, 9 centres de secours
utilisateurs et 1 500 positions de secours. Par ailleurs, notre site de
Carlstadt a servi de poste de commande improvisé pour les forces de police locales
et les équipes de soins et de premiers secours. Il nous a dès lors semblé
essentiel de rassembler certaines bonnes pratiques ainsi que les leçons tirées
de cette catastrophe naturelle afin de permettre aux entreprises de se préparer
au mieux à ce type d’événement.
Il convient en préambule de préciser que les
principaux défis à considérer pour assurer une reprise d’activités efficace se
situent à trois niveaux : la protection des données, le redémarrage des
systèmes, mais aussi la gestion des collaborateurs, des processus et des solutions
de reprise.
Protection deS données
Les défis auxquels ont été confrontés nos
clients, en particulier ceux utilisant la sauvegarde sur bandes, nous ont
permis d’émettre plusieurs constats. Tout d’abord, le transport des bandes,
dans le contexte Sandy, vers nos centres sécurisés, a été particulièrement
complexe. Depuis, un grand nombre de nos clients envisage, dans le cadre d’une
stratégie alternative de sauvegarde de données, d’adopter une sauvegarde sur
disque, voire une écriture miroir et une réplication des données en temps réel.
Par ailleurs, si la sauvegarde sur bande constitue une solution relativement
peu onéreuse, elle souffre d’un temps de restauration beaucoup plus long. Il
est donc nécessaire d’envisager d’utiliser des services d’infogérance de
sauvegarde ou de sauvegarde électronique de données permettant une réplication et une
externalisation automatisée et centralisée.
Il est néanmoins possible de conserver
l’usage des bandes tout en réduisant considérablement les temps de reprise grâce
à de bonnes pratiques de traitements parallèles. Une entreprise peut ainsi
stocker une copie de son système d’exploitation chez un prestataire comme
SunGard qui configurera le matériel de reprise et pourra remettre en service le
système d’exploitation en attendant l’arrivée des bandes.
Redémarrage des systèmes
Nos clients exploitent des environnements hybrides ou hétérogènes ; très peu disposent d’une infrastructure entièrement physique ou virtualisée. Leurs applications reposent parfois sur des interdépendances complexes. Ainsi, des applications mineures doivent parfois être reprises en même temps que des applications critiques, ces dernières dépendant souvent des premières.
La gestion du changement est donc essentielle.
Si l’environnement de reprise n’est pas totalement compatible avec
l’environnement de production, la reprise échouera. En cas d’incident, il est
difficile de négocier des changements de dernière minute sur le site de secours.
Cela ne fera que retarder la reprise des activités. Pendant l’ouragan Sandy,
près d’un tiers de nos clients ont dû procéder à des modifications majeures de
leur configuration de secours, notamment pour bénéficier de serveurs plus performants,
d’une capacité de disque supplémentaire, de différentes technologies de bandes,
de configuration des pare-feu, ou encore de ponts LAN.
Une autre erreur, fréquemment observée lors
de reprises d’activités, a consisté à ne pas prendre en considération les trois
couches d’application : bases de données, logiciels intermédiaires et Web.
Certains clients ont ainsi été dans l’impossibilité de récupérer ces trois
couches et se sont retrouvés dans l’incapacité de reprendre leurs activités. Enfin,
en termes de connectivité réseau, il est important de repenser la conception du
réseau central et de mettre en place des chemins de basculement afin d’éviter
une congestion des réseaux dans les zones touchées par l’ouragan.
Personnes,
processus et solutions de reprise
Concernant les employés, la principale leçon
à retenir est qu’il faut réexaminer la question du télétravail et des autres
stratégies alternatives en ayant à l’esprit qu’un sinistre de l’ampleur de
Sandy peut toucher de très larges zones géographiques. Nous conseillons aux organisations
soumises à des réglementations concernant la confidentialité des données de conclure
avec leur prestataire un contrat portant sur des espaces de travail dédiés, où seul
le personnel autorisé aura accès aux données critiques, et d’indiquer le nombre
exact de positions dont elles ont besoin, ni plus, ni moins.
Par ailleurs, la fermeture de nombreux axes
routiers a grandement compliqué les déplacements des équipes en charge de la
reprise. Ainsi, pour des raisons de sécurité, certaines personnes n’ont pas pu
- ou pas souhaité - quitter leur zone habituelle d’activité. Dans ce contexte, confier
la reprise de ses activités à un prestataire spécialisé reste la meilleure option.
Il est également important de communiquer en amont auprès de ses employés et de
planifier en interne les mesures à adopter en cas d’incident, y compris en
donnant des indications à caractère privé de type accès du domicile au data
center, etc. Lorsque cela est possible, l’entreprise peut également demander aux
équipes en charge de la reprise des activités d’arriver sur les sites de
reprise avant le début des événements afin d’éviter qu’elles ne soient bloquées
par d’éventuelles ruptures de transport.
En termes de processus, les plans de reprise
doivent être constamment mis à jour, et les procédures conformes aux
configurations de production en vigueur. Les outils de communication de masse
doivent eux aussi faire l’objet de mises à jour et de contrôles réguliers. De
plus, il est nécessaire d’identifier des outils de communication alternatifs et
de former les salariés à leur utilisation, afin de bénéficier d’une solution de
repli si l’un des moyens de communication n’est pas accessible.
Enfin, il est important de noter que même si les
tests de reprise sont concluants, la reprise des activités peut encore échouer.
En effet, les tests nécessitent en moyenne une période de planification de 12
semaines et aucun ouragan n’est prévisible aussi longtemps à l’avance. L’entreprise
doit donc toujours se tenir prête en veillant à ce que des analyses post-tests
soient menées et que les recommandations et enseignements soient intégrés aux
plans et solutions de secours.
Il convient donc d’établir des stratégies strictes
de gestion du changement. Dans ce domaine, la plupart de nos clients essaient
de faire au mieux mais beaucoup doivent faire face à des restrictions
budgétaires et ne disposent pas des ressources et compétences nécessaires pour
mettre en œuvre des tests et une politique de gestion du changement efficace. Pour
ces derniers, il peut être utile de confier leur plan de reprise d’activité à
un fournisseur spécialisé en gestion et implémentation de PCA. L’expertise d’un
partenaire permet à une entreprise de réaliser des économies et d’être prête en
permanence à parer toute éventualité.
En conclusion, les dégâts provoqués par
l’ouragan Sandy ont causé de grandes difficultés à nos clients. En matière de sauvegarde
des données, nos clients ont été amenés à réfléchir plus en profondeur à leurs
objectifs en termes de temps de reprise et de perte de données admissibles
ainsi qu’à un éventuel transfert de leurs moyens de sauvegarde.
Un grand nombre
d’entre eux ont également eu besoin d’apporter de profondes modifications à leur
environnement de reprise, soulignant ainsi l’importance de la gestion du
changement et d’une parfaite adéquation entre l’environnement de reprise et
l’environnement de production. Ils ont également pris conscience que la qualité
de leurs procédures de secours dépendait de leurs derniers tests, et que des plans
incomplets rallongeaient les délais nécessaires au redémarrage des applications
critiques. Enfin, l’ouragan Sandy a permis de contester l’hypothèse selon
laquelle le télétravail constitue à lui seul une stratégie efficace et viable
en matière de continuité d’activités. Il est également important de disposer de
positions de secours dédiées suffisantes pour répondre aux exigences
réglementaires et permettre aux collaborateurs essentiels de procéder à la reprise
des activités critiques de l’entreprise.