Que penser des stratégies « zéro incident » des fournisseurs de cloud ?
Stratégies « zéro incident » ? Cela signifie, selon la définition du Harvard Research Group, un niveau de disponibilité des systèmes de 99,999 %, soit au maximum cinq minutes de panne par an (hors accords régissant les nouvelles versions, les mises à jour ou les migrations).
Deux heures de panne de Facebook, en
mars 2013, ont alarmé des millions d’utilisateurs dans le monde
entier : omniprésent, le cloud computing est aussi vulnérable. Les
interruptions de service peuvent coûter cher. L’International Working Group on Cloud
Computing Resiliency (IWGCR), créé
par l’université Paris XIII et Télécom Paris Tech, a étudié
568 heures de panne survenues depuis 2007 chez treize services cloud très
connus. Selon lui, leur coût s’établit à 126.000 dollars l’heure en
moyenne ; il s’étage entre 89.000 dollars l’heure pour le service de
réservation de voyages Amadeus et 225.000 dollars pour le système de paiements
en ligne Paypal. Certains experts estiment qu’il pourrait
atteindre 2,5 millions de dollars dans le secteur bancaire !
Pour répondre aux inquiétudes des
entreprises, les fournisseurs de cloud proposent des stratégies « zéro
incident ». Cela signifie, selon la définition du Harvard Research Group,
un niveau de disponibilité des systèmes de 99,999 %, soit au maximum cinq
minutes de panne par an (hors accords régissant les nouvelles versions, les
mises à jour ou les migrations). On en est loin : avec 7,5 heures
d’interruption par an, le taux de disponibilité des services observés par
l’IWGCR est « seulement » de 99,9 %.
L’Eldorado
du zéro incident, le cloud parfait, est-il à la portée des utilisateurs ?
En pratique, la réponse est non pour le cloud public. Celui-ci réside par
nature dans l’internet public et ne peut totalement éliminer le risque de
panne. De nombreux services, une capacité de stockage quasiment
illimitée par exemple, y sont proposés sans bourse délier. On ne peut espérer
avoir le beurre et la gratuité du beurre…
Le cloud privé nourrit d’autres
ambitions. Avec des solutions « propriétaires » de bout en bout
comprenant des fonctions intégrées de prévention des pannes, un suivi constant
du fonctionnement et des évènements du réseau, et des logiciels intelligents
capables d'auto-réparation sans intervention manuelle en cas de situation
critique, les fournisseurs peuvent garantir une disponibilité élevée.
Zéro incident égale qualité totale
Cela interdit toute concession sur les
équipements. Ainsi, des systèmes RAID (regroupement redondant de disques
indépendants) mettront les données en miroir automatiquement sur, au minimum,
deux supports de stockage distincts en parallèle. Une panne de l’un d’eux sera
alors invisible de l’utilisateur.
On éliminera les points uniques de
défaillance (SpoF, selon leur acronyme anglais) installés qu'une seule fois
dans un système et donc susceptibles d’entraîner l'arrêt complet des opérations
en cas de panne, et protéger les centres de données contre une défaillance
catastrophique par le biais d'une ASI (alimentation sans interruption). Les
systèmes doivent aussi être capables de récupérer automatiquement d’éventuelles
lacunes de traitement en répétant toutes les étapes qui n’auraient pu être
effectuées à cause de la défaillance d'une application.
Enfin, le zéro incident passe par le
professionnalisme des salariés. Les études révèlent que plus de 50 % des
pannes résultent d'erreurs humaines. Les fournisseurs de cloud doivent donc
veiller à développer, via leurs formations et leurs processus, une culture
d’entreprise tournée vers la qualité, au niveau mondial. Leur personnel devra
être capable d’éliminer
les causes possibles d’incident (conformément à l’adage « mieux
vaut prévenir que guérir ») et d’exploiter les incidents constatés pour
éviter leur reproduction. Sur le plan de l’organisation, une équipe centralisée
de spécialistes pourra être mobilisée très vite pour lancer les processus de
récupération en cas d’incident.
Jamais on n’atteindra le zéro incident absolu dans le cloud. Mais un taux de disponibilité de 99,999 %, et même au-delà, n'est pas impossible. Tel devrait désormais être l’objectif visé par les entreprises quand elles signent des accords de niveau de service avec leurs fournisseurs de services.