Les 3 clés pour planifier une stratégie réussie de reprise d’activités après sinistre

Face aux attaques et aux incidents informatiques, il est aujourd'hui primordial pour les entreprises d'adopter des stratégies efficaces de reprise d'activité après sinistre. Et si la question de la technique est évidemment importante, d'autres aspects ne doivent pas être négligés.

Quand il s’agit sauvegarde et de reprise d’activités après sinistre il existe aujourd’hui des technologies de pointe qui permettent aux entreprises de se remettre rapidement et efficacement d'un sinistre et minimiser les temps d'arrêt. Cependant, d’après mon expérience, la technologie, aussi avancée soit-elle, n'est qu'un élément de l'équation de la reprise d’activités. Un PRA (Plan de Reprise d’Activités après sinistre) entièrement élaboré nécessite des personnes, des processus et de la technologie afin d'être vraiment efficace. Voici un aperçu de certains des principaux facteurs à prendre en compte lors de l'élaboration de votre stratégie de Reprise d’Activités:
Les personnes
Tout d'abord, vous devez faire approuver votre stratégie par les bons intervenants et la direction afin qu'ils puissent vous appuyer dans l'affectation des ressources humaines et matérielles. Une planification réussie d’une reprise d’activités après sinistre exige du temps et la participation de nombreuses personnes à l'échelle de votre organisation - plus l'entreprise est grande, plus il y a de personnes impliquées. Votre équipe doit être représentative de tous les secteurs clés de votre entreprise, avec des groupes plus petits concentrés sur la logistique et les opérations si nécessaire. 
Voici quelques exemples sur la façon de former efficacement votre équipe :
- Intervenants par unité d’exploitation : Identifier les applications critiques, les critères de succès et les obstacles potentiels. Fournir des commentaires aux autres équipes, si besoin.
- Propriétaires/Analystes d'applications : Disposer de votre propre cartographie des dépendances et des critères de succès pour les tests applicatifs.
- Ingénieurs en infrastructure informatique (compute/networking/storage/voice/databases) : Effectuer l'essentiel du travail lors des essais et des événements. Spécifier le dimensionnement des ressources du site de Reprise d’Activité après sinistre (DR), la connectivité et les outils d'automatisation.
Chacun doit être parfaitement clair au sujet de son rôle et de ses responsabilités, et vous devrez peut-être tenir compte de ceux qui sont des "single points of failure" dans l'équipe. J'ai vu plus d'un effort échouer parce qu'un membre critique de l'équipe n'a pas accompli une tâche assignée.
Le Processus
Commencez par remplir une matrice d'attribution des responsabilités, ou RACI en anglais (Responsible, Accountable, Consulted and Informed), et un plan de projet pour que chacun comprenne ce que l'on attend de lui, et quand il doit le faire. Une matrice est utilisée pour déterminer les tâches que chaque individu ou groupe doit faire. En règle générale, une partie responsable et imputable est assignée à chaque tâche de la matrice, et les autres valeurs sont assignées au besoin. Une gestion de projet efficace rend ce processus beaucoup plus facile à exécuter.
Une fois votre équipe en place et les responsabilités de base désignées, il est temps d'entrer dans les détails. Tout d'abord, déterminez quels systèmes sont dans le champ d'application, ainsi que votre objectif de point de récupération (RPO : Recovery Point Objective) et votre objectif de temps de récupération (RTO : Recovery Time Objective) cibles.

- Un RPO est une décision concernant la quantité de données que vous êtes prêt à perdre en cas de sinistre, et elle est généralement associée à la fréquence à laquelle les sauvegardes sont exécutées.

- Un RTO est le délai cible pour le retour aux opérations normales après un sinistre, ce qui correspond à peu près au temps qu'il faudrait pour exécuter un plan de reprise d’activités.

Presque toutes les autres décisions sont liées à votre RPO et RTO. L'élaboration d'un plan est un processus difficile, qui peut prendre des mois, voire des années. Pensez à chaque situation de défaillance distincte, pas seulement au pire des scénarios. La défaillance d'une application critique peut avoir le même impact que la destruction de votre Datacenter.

Des tests réguliers sont l'élément le plus crucial et le plus long de votre stratégie de RA. Les critères de réussite doivent être bien définis et mesurables, mais il est important de se rappeler que l’échec d’un test ne signifie pas que votre équipe a échoué. Vous avez en fait découvert une faille dans votre plan qui peut être résolue avant qu'une véritable catastrophe ne se produise. Tout le monde s'efforce de réussir un test dès la première tentative, mais cela se produit rarement. Assurez-vous que l'équipe a des attentes réalistes, surtout lors des premiers tests.

N'oubliez pas votre plan de retour en arrière. Vous pouvez tester votre processus de reprise d’activités plusieurs fois, mais souvent son environnement est détruit une fois le test terminé. En cas de véritable catastrophe, vous devez pouvoir migrer vos charges de travail vers votre centre de données. Portez une attention particulière sur ce point si vous utilisez un fournisseur de Cloud Computing comme site de reprise d’activités. Il y a une raison pour laquelle les gens se réfèrent au Cloud sous le terme d’"Hotel California." Je trouve que cette analogie est très parlante car La chanson populaire Hotel California retrace en fait, l’histoire d’un individu, enfermé entre les quatre murs d'un hôtel, qui s'avère être en réalité un centre de désintoxication dont il ne pourra jamais sortir  - Appliqué au cloud on constate qu’il est souvent beaucoup plus facile de faire entrer les charges de travail dans le Cloud que de les faire sortir. Technologie

Votre infrastructure technologique existante a des implications majeures sur la difficulté de la reprise d’activité. Si vous êtes déjà 100 % virtualisé, vous aurez certainement moins de maux de tête que ceux qui ont de multiples charges de travail fonctionnant sur des serveurs physiques. Les salles informatiques qui fonctionnent encore avec des mainframes ou des charges de travail non compatibles avec l’environnement x86 se trouvent dans une situation particulièrement difficile puisqu'elles sont limitées aux fournisseurs de DR/cloud qui prennent en charge ces systèmes. Ajoutez à cela le fait que les mainframes sont généralement des systèmes plus anciens, et il devient évident que les entreprises dans cette situation doivent avoir une stratégie de reprise d’activités bien pensée. Bien que cela ne fasse généralement pas partie de la discussion sur le règlement des différends, la modernisation de votre infrastructure technologique doit être une considération importante.

Le réseau est aussi un sujet de préoccupation commun et une pierre d'achoppement fréquente dans toutes les entreprises. Assurez-vous de bien comprendre les implications du déplacement des adresses IP publiques si votre entreprise donne accès à des ressources sur Internet. Souvent, il faut pour cela soumettre une lettre au Fournisseur d’Accès Internet (FAI) de votre site de reprise d’activités, l'autorisant à diffuser votre plage d'adresses IP. Dans certains cas, les adresses IP publiques ne peuvent pas être déplacées et exigent des entreprises qu'elles gèrent un changement de DNS ou qu'elles implémentent une certaine forme de Global Server Load Balancing (GSLB). En fonction de la complexité de votre réseau, réfléchissez à la manière de maintenir le réseau de votre site de reprise d’activités à jour lorsque vous ajoutez des VLAN ou des sous-réseaux en production. Disposer d'une connectivité rapide et redondante à votre site de reprise d’activités est crucial si vous comptez sur la réplication du stockage pour une partie de votre DR. Les réseaux de stockage ne peuvent pas gérer une dégradation ou une perturbation de la connectivité entre les sites.

Bien dimensionner votre site de DR peut être plus un art qu'une science. De nombreuses entreprises partent du principe que les ressources de calcul, de mise en réseau et de stockage doivent être exactement de la même taille que la production. Cela peut entraîner une très mauvaise surprise et, dans certains cas, un site de DR chaud rempli d'équipement qui n'est utilisé qu'une fraction du temps. 

Pour conclure, la reprise d’activités après sinistre est une tâche qui peut paraître intimidante, mais avec la bonne équipe, les procédures appropriées et une technologie de pointe, c'est possible. L’objectif est de trouver un équilibre en vous rappelant qu'en cas de véritable catastrophe, la disponibilité est généralement plus importante qu'un succès de performance.