Panne géante d'Orange : les dessous techniques de l'incident

L'incident qui a paralysé le réseau mobile d'Orange pendant près de 12 heures vendredi provient d'une panne du registre d'identification des utilisateurs. Le HLR est un composant critique d'une infrastructure télécom GSM.

Le HLR (ou Home Location Register) est l'une des briques centrales d'une infrastructure de téléphonie cellulaire. La panne géante essuyée par Orange sur son réseau GSM vendredi 6 juillet provient précisément d'un crash sur cette application. L'opérateur l'a confirmé, évoquant une "panne logicielle importante du cœur réseau qui prend en charge la signalisation des appels".

Ce registre qui sert de référence à l'ensemble des sous-réseaux mobiles d'un opérateur contient les données des utilisateurs habilités à accéder au service. Central pour gérer les autorisations, il contient notamment le numéro de téléphone des abonnés, leur identifiant, les services auxquels ils ont souscrits, ainsi qu'un numéro unique d'identification des terminaux. Il stocke également des informations complémentaires pour gérer le routage des appels, notamment des adresses standardisées pour suivre la position de l'utilisateur (y compris à l'étranger).

En l'absence de ces données, le réseau GSM ne pouvait donc plus opérer. Or, selon les experts du secteur, le redémarrage d'une telle application peut être long et complexe. D'où les termes utilisés par Orange pour qualifier la panne : "un incident logiciel majeur". Imaginez que l'annuaire LDAP de votre entreprise tombe en panne, sans pouvoir être redémarré rapidement...

Des messages d'erreur qui s'accumulent

Concrètement, le HLR d'Orange a commencé à essuyer des problèmes dans l'échange de ses données entre frontaux, serveurs centraux et bases de données. "Des incohérences sont apparues, des messages erronés ont été échangés entre ces équipements, ce qui a entraîné des saturations et par un effet boule de neige, un blocage du système", explique Philippe Chicaud, en charge des réseaux fixes et mobiles d'Orange, précisant que le HLR du groupe repose sur du matériel Alcatel (dixit Réseaux-Télécom).

Les messages d'erreurs se sont ensuite accumulés, engendrant des blocages d'accès au réseau qui se sont petit à petit étendus. Pour remettre en service, l'opérateur a découplé la chaîne voix/SMS et la chaîne Data. Les systèmes ont été ensuite redémarrés les uns après les autres. Orange a précisé qu'il tirerait tous les enseignements de cette panne, et modifierait ces procédures de Plan de continuité d'activité en conséquence.

Orange / Réseau