Comment faire de la résilience opérationnelle un atout pour l'Europe ?

La standardisation de la résilience opérationnelle deviendra bientôt une nécessité pour les infrastructures vitales en Europe. Les régulateurs doivent imposer des normes, au nom du bien commun.

S’il était encore nécessaire de démontrer l’importance de la résilience opérationnelle des infrastructures IT, les récentes pannes géantes de plusieurs opérateurs cloud en seraient le meilleur exemple. L’interruption de service de Google Cloud en avril 2023 illustre parfaitement la situation et ses conséquences. Cet événement n’est d’ailleurs pas un cas isolé, puisque ce genre d’incidents surviennent fréquemment. Les enjeux sont tels que la préoccupation remonte au sommet de bien des Etats. Le risque de panne, même momentanée, sur les infrastructures financières est ainsi devenu une crainte majeure ; notamment pour l’impact que cela pourrait avoir sur l’économie et le monde réel.

Ces préoccupations ne sont pas restées longtemps des lettres mortes puisque plusieurs pays imposent désormais des exigences techniques particulières. Elles visent à garantir la résilience opérationnelle de leurs institutions financières, ainsi que d'autres services essentiels tels que les services publics, les transports ou encore la Santé par exemple. Du statut de simples exigences, ces normes techniques sont en passe de devenir des réglementations officielles dans certains pays. Et ce n'est que le début car d’autres règles plus drastiques encore se profilent à l’horizon. Quelles sont les conséquences pour les entreprises et comment peuvent-elles alors se préparer ?

Qu’est ce que la résilience opérationnelle ?

La résilience opérationnelle est la capacité d’une organisation à s’adapter et à répondre à problématiques ou des événements inattendus tout en préservant le fonctionnement général, et sans interrompre la distribution de produits ou services aux clients finaux ; et dans l’idéal, que cela passe inaperçu.

Cela implique de fait l'identification, l'analyse et la gestion des risques opérationnels, tels que les cyberattaques, les catastrophes naturelles, les perturbations de la chaîne d'approvisionnement et (surtout) les défaillances techniques. La récente panne de la zone europe-west9 de Google Cloud a par exemple mis hors service l’intégralité de la région pendant 24 heures. La restauration des services a quant à elle été graduelle, mettant parfois plusieurs jours pour un retour à la normale. Cet incident, dont l’origine était un feu et un dégât des eaux dans un datacenter de la région parisienne, a également provoqué une panne de quatre heures des services Cloud Console et GCE Global Control dans le monde entier.

Si ces genres de pannes sont rares, elles peuvent toutefois arriver à n’importe quel fournisseur. Il est encore trop tôt pour dresser le bilan définitif de l’incident de Google en avril dernier, mais intéressons-nous aux conséquences d’un arrêt de service sur une région entière.

En mars 2021, un incendie dans le datacenter OVH de Strasbourg a paralysé une grande partie du Web français et européen dont 3,6 millions de sites Web indisponibles, 464.000 noms de domaine inaccessibles, 18% des adresses IP attribuées à OVH restant sans réponse. Résultat : des médias, des villes, des partis politiques, des sites gouvernementaux et des services Web à l’arrêt.

Rien de dramatique, certes, même si les conséquences de cet incident furent pénibles pour les utilisateurs des services impactés. Mais que ce serait-il passé si un réseau bancaire avait cessé de fonctionner pendant 8 heures ? Des millions de clients auraient alors soudainement été incapables d'accéder à leurs comptes, ou même d'utiliser leurs cartes de crédit. Toutes les entreprises dépendant de cette banque pour traiter leurs transactions auraient pu être paralysées. Un tel incident pourrait sans conteste profondément ébranler l’économie d’un pays.

Le fait est que cela pourrait vraiment arriver ! Si la panne OVH a été remarquée pour son impact considérable et sa résonance auprès du public, il est important de rappeler que les fournisseurs de services cloud subissent très régulièrement des pannes et des défaillances. La plupart ont une portée limitée et sont rapidement résolues, mais les pannes majeures finissent par se produire - et c'est inévitable.

De l’importance de la résilience

Ce type d’incident ne se limite pas à provoquer la colère des utilisateurs. Ils doivent aussi alerter sur les dangers du système actuel, dans lequel la concentration d’une grande partie de l’activité économique repose sur un nombre très limité de fournisseurs. Quoi de mieux pour illustrer l’importance de la résilience opérationnelle ?

En effet il existe un secteur en particulier dans lequel une panne majeure pourrait entraîner des conséquences littéralement désastreuses : la Finance. Si une institution bancaire venait à subir une interruption de service, il deviendrait impossible d'effectuer des transactions et la vie s'arrêterait pour tous les clients, qu'il s'agisse de particuliers ou d'entreprises. Toutefois, bien que les gouvernements et les fournisseurs aient compris que les interruptions majeures sont très rares, ils savent aussi qu’elles sont inévitables.

Les premières preuves commencent d’ailleurs à affluer. Comme des annonces d’emploi pour des ingénieurs capables de maintenir des systèmes entiers à flot. Mais aussi des articles de presse sur des architectures instoppables. C’est le début d’une prise de conscience généralisée dans les entreprises qui comprennent désormais la nécessité de se doter de procédures pour survivre aux pannes. C’est aussi ce qui a donné naissance au concept de résilience opérationnelle. Initialement, si cela faisait partie des traditionnels Plans de continuité de l’activité (PCA), c’est bel et bien devenu un sujet à part entière. A tel point que, les enjeux étant tellement énormes dans certains secteurs, les gouvernements ont dû commencer à intervenir.

[UK Deputy Governor]

"Les banques et autres entreprises fournissant des services financiers en Europe ont déjà mis en place des plans pour leur sécurité informatique, mais nous devons aller plus loin, a martelé Zbyněk Stanjura, ministre des finances de la République tchèque devant le conseil de l’Union Européenne. Si une attaque à grande échelle est lancée contre le secteur financier européen, nous y serons préparés."

En Europe, les institutions financières sont encore trop concentrées sur quelques fournisseurs cloud. Toutefois, elles font aussi partie des entreprises les plus avisées en termes de risques informatiques. Une vaste majorité dispose de stratégie pour faire face aux risques, comprenant notamment le recours à des infrastructures cloud hybrides et multi-régions. Dans la plupart des cas, un incident n’aurait alors pas d’impact sur les clients. Mais le risque d’un incident majeur (conditions climatiques extrêmes, cyberattaque, incendie, etc.) n’est pas à écarter pour autant et pourrait potentiellement perturber l'ensemble du système financier d’un pays.

En d’autres termes, une panne majeure - même temporaire - sur une région européenne centrale pourrait avoir des conséquences catastrophiques sur l’économie de plusieurs pays. C’est ce scénario qui a conduit aux récentes lois sur la résilience opérationnelle.

Résilience opérationnelle : que disent les régulateurs ?

Les gouvernements du monde entier prennent (ou ont pris) des mesures législatives pour imposer des exigences techniques aux institutions financières afin de réduire les risques. Plusieurs pays ont déjà pris des initiatives, à l’image des Etats-Unis qui ont publié un guide pour renforcer la résilience opérationnelle. Le Royaume-Uni a quant à lui déjà pris une longueur d’avance, mais l’Europe n’est pas en reste.

Approuvée fin 2022, la loi sur la résilience opérationnelle numérique (Digital Operational Resilience Act ou DORA) vise à garantir que tous les acteurs des marchés financiers disposent de stratégies et de capacités efficaces pour gérer la résilience opérationnelle. Si sa mise en œuvre est progressive les organisations financières devront s’y conformer d'ici le début de l'année 2025. Car sa cible est bien plus large que les seules banques : tous les fournisseurs de services numériques, y compris cloud, moteurs de recherche, plateformes de commerce électronique et marchés en ligne sont concernés. Et ce, qu'ils soient basés à l'intérieur ou à l'extérieur de l'UE.

Les OIV (Opérateurs d’infrastructures vitales), tels que les services publics, les entreprises de transport et de logistique et les prestataires de soins de santé, ont déjà été tenus de respecter des réglementations normalisées en matière de sécurité et de réseau. En Europe, le règlement DORA introduit des exigences très spécifiques et normatives. Toutefois, il ne s’agit pas uniquement de lignes directrices. En l’occurrence, cela s’apparente à un ensemble de critères, de modèles et d’instructions qui détermineront la manière dont les organismes financiers gèrent les risques liés aux TIC.

Toujours est-il que la tendance est évidente : ces réglementations ne feront qu'augmenter en nombre et en portée au cours des mois et des années à venir, et il est presque certain qu'elles finiront par concerner la plupart des secteurs d’activité. Dans ce contexte, que peut-on faire dès maintenant pour accroître la résilience opérationnelle, avant même que ces réglementations ne deviennent des injonctions locales ?

Comment parvenir à la résilience opérationnelle ?

La résilience opérationnelle a le mérite de remettre en question certaines idées reçues : peu importe la réputation ou le nombre de fournisseurs cloud utilisés, ou même que vos sauvegardes soient sécurisées sur des serveurs privés. Ce qui importe réellement est ailleurs : c’est l’intégration de la résilience opérationnelle dans l'architecture d'une application.

La plupart des systèmes sont conçus pour fonctionner avec un seul fournisseur cloud. C’est en effet généralement la solution la plus économique et la plus simple pour presque tous les cas d'utilisation. En tout cas jusqu’à présent, car à l’heure où les réglementations en matière de résilience opérationnelle semblent de plus en plus inévitables, la plupart des entreprises n'avaient pas de raison impérieuse de réfléchir à une stratégie multi-cloud. Cela signifie aussi que jusqu’à aujourd’hui, elles n’ont pas eu la nécessité d’évaluer les conséquences du recours à un fournisseur cloud unique.

L'idée communément admise est que votre fournisseur de services cloud ne fait que vous fournir une plateforme, et qu’il suffit de construire vos applications dessus. Ainsi la conclusion logique est qu’il n’est pas très difficile de transférer une application d’un fournisseur à l’autre. Il s’agirait alors trivialement d’établir quelques connexions réseau et via API… En réalité, chaque service que vous utilisez, chaque élément de votre application - qu'elle soit native ou tierce, codée sur mesure ou open source - doit également communiquer avec cette nouvelle plateforme. Mais chaque fournisseur de services dispose de sa propre façon de communiquer avec chaque service de votre application.

Au lieu d'un simple transfert, l'ensemble de votre application doit donc être réécrite, et selon les normes propriétaires uniques de la nouvelle plateforme ! La nécessité de jongler entre des normes différentes pour chaque fournisseur rend donc extrêmement complexe l’aboutissement de la résilience opérationnelle avec une approche multi-cloud.

En guise d’exemple, l’utilisation de Kubernetes pour la portabilité des charges de travail d’une application est communément admise comme étant une bonne pratique. Or n’oubliez pas que l’opérateur Kubernetes lui-même doit être tout aussi flexible. Peu importe que vous utilisiez l’environnement GKE ou EKS lors de la conception de l’architecture d’une application. Les ennuis commencent au moment où il est temps de changer ou d'ajouter un autre fournisseur cloud, ou même de passer à l'hybride avec un centre de données physique. C'est alors que, soudainement, Kubernetes peut sembler tout sauf portable et flexible.