Que penser des stratégies « zéro incident » des fournisseurs de cloud ?

Stratégies « zéro incident » ? Cela signifie, selon la définition du Harvard Research Group, un niveau de disponibilité des systèmes de 99,999 %, soit au maximum cinq minutes de panne par an (hors accords régissant les nouvelles versions, les mises à jour ou les migrations).

Deux heures de panne de Facebook, en mars 2013, ont alarmé des millions d’utilisateurs dans le monde entier : omniprésent, le cloud computing est aussi vulnérable. Les interruptions de service peuvent coûter cher. L’International Working Group on Cloud Computing Resiliency (IWGCR), créé par l’université Paris XIII et Télécom Paris Tech, a étudié 568 heures de panne survenues depuis 2007 chez treize services cloud très connus. Selon lui, leur coût s’établit à 126.000 dollars l’heure en moyenne ; il s’étage entre 89.000 dollars l’heure pour le service de réservation de voyages Amadeus et 225.000 dollars pour le système de paiements en ligne Paypal. Certains experts estiment qu’il pourrait atteindre 2,5 millions de dollars dans le secteur bancaire !
Pour répondre aux inquiétudes des entreprises, les fournisseurs de cloud proposent des stratégies « zéro incident ». Cela signifie, selon la définition du Harvard Research Group, un niveau de disponibilité des systèmes de 99,999 %, soit au maximum cinq minutes de panne par an (hors accords régissant les nouvelles versions, les mises à jour ou les migrations). On en est loin : avec 7,5 heures d’interruption par an, le taux de disponibilité des services observés par l’IWGCR est « seulement » de 99,9 %
.
L’Eldorado du zéro incident, le cloud parfait, est-il à la portée des utilisateurs ? En pratique, la réponse est non pour le cloud public. Celui-ci réside par nature dans l’internet public et ne peut totalement éliminer le risque de panne.
De nombreux services, une capacité de stockage quasiment illimitée par exemple, y sont proposés sans bourse délier. On ne peut espérer avoir le beurre et la gratuité du beurre…
Le cloud privé nourrit d’autres ambitions. Avec des solutions « propriétaires » de bout en bout comprenant des fonctions intégrées de prévention des pannes, un suivi constant du fonctionnement et des évènements du réseau, et des logiciels intelligents capables d'auto-réparation sans intervention manuelle en cas de situation critique, les fournisseurs peuvent garantir une disponibilité élevée.

Zéro incident égale qualité totale

Cela interdit toute concession sur les équipements. Ainsi, des systèmes RAID (regroupement redondant de disques indépendants) mettront les données en miroir automatiquement sur, au minimum, deux supports de stockage distincts en parallèle. Une panne de l’un d’eux sera alors invisible de l’utilisateur.
On éliminera les points uniques de défaillance (SpoF, selon leur acronyme anglais) installés qu'une seule fois dans un système et donc susceptibles d’entraîner l'arrêt complet des opérations en cas de panne, et protéger les centres de données contre une défaillance catastrophique par le biais d'une ASI (alimentation sans interruption). Les systèmes doivent aussi être capables de récupérer automatiquement d’éventuelles lacunes de traitement en répétant toutes les étapes qui n’auraient pu être effectuées à cause de la défaillance d'une application.
Enfin, le zéro incident passe par le professionnalisme des salariés. Les études révèlent que plus de 50 % des pannes résultent d'erreurs humaines. Les fournisseurs de cloud doivent donc veiller à développer, via leurs formations et leurs processus, une culture d’entreprise tournée vers la qualité, au niveau mondial. Leur personnel devra être capable
d’éliminer les causes possibles d’incident (conformément à l’adage « mieux vaut prévenir que guérir ») et d’exploiter les incidents constatés pour éviter leur reproduction. Sur le plan de l’organisation, une équipe centralisée de spécialistes pourra être mobilisée très vite pour lancer les processus de récupération en cas d’incident.

Jamais on n’atteindra le zéro incident absolu dans le cloud. Mais un taux de disponibilité de 99,999 %, et même au-delà, n'est pas impossible. Tel devrait désormais être l’objectif visé par les entreprises quand elles signent des accords de niveau de service avec leurs fournisseurs de services.