Comment la SNCF déploie le Big Data pour optimiser les flux de voyageurs

SNCF Gares & Connexions va se doter d'un cluster Hadoop pour analyser les données Wi-fi des gares. Objectif : suivre et optimiser en temps réel les flux de voyageurs.

La SNCF s'est lancée dans un vaste projet visant à optimiser les mouvements de voyageurs en gares. Le projet est mené au sein du pôle SNCF Gares & Connexions qui a pour mission de maintenir, d'aménager et de développer quelque 3000 gares ferroviaires à travers la France. Le défi : mieux comprendre les flux des deux milliards de passagers transitant chaque année en gare et établissant des connexions avec d'autres moyens de transports (bus, autocars, taxis, vélos en libre-service...). Un vaste chantier de Big Data a été initié pour le relever. Son nom de code : Magnolia.

La data visualisation au service de l'optimisation des gares

Première étape du projet, le déploiement d'une brique pour fédérer les données d'enquêtes réalisées depuis 2010 auprès des voyageurs en gare. Combinant des informations de comptage et de profils de voyageur (le tout au format Excel), elles ont été intégrées à un environnement d'analyse unifiée. Il repose sur la solution de data visualisation SAS Visual Analytics, et l'outil SAS Office Analytics - qui donne accès au moteur d'analyse de SAS dans Excel. "SAS nous offre une couverture, avec la même suite, de la collecte et mise en qualité des donnés, jusqu'à l'analyse, la restitution, y compris cartographique, et le partage du résultat des analyses", indique Georges Colin, architecte au sein de la direction déléguée SI Gares de la DSI Voyageurs.

Vers le traitement temps réel de volumes de données massifs

Permettant de réaliser en quelques heures des rapports qui auraient demandé auparavant trois semaines de travail, la solution a déjà été utilisée pour établir un premier niveau de comparaison entre les gares. "Grâce à la plus grande visibilité qu'il fournit, ce projet permet de tabler sur une réduction notable des niveaux d'incertitude dans les choix opérés en matière de développement, d'aménagement ou de tarification, tant au niveau marketing et commercial qu'au niveau des opérations en gares, et, en conséquence, une augmentation du retour sur investissement", poursuit Georges Colin.

La prochaine étape : Hadoop et le Big Data

Mais la SNCF planche déjà sur la prochaine étape. Et celle-ci est beaucoup plus ambitieuse. Sa finalité ? Exploiter les données des réseaux Wi-fi, qui sont en train d'être déployés dans les gares, en vue d'assurer un suivi plus fin des flux de voyageurs. Pour atteindre cet objectif, SNCF Gares & Connexions compte miser sur une plateforme Hadoop. C'est elle qui accueillera ces données, mais aussi celles issues d'éventuels capteurs de comptage qui pourraient être installés à l'entrée des gares. Des expérimentations (Poc) sont en cours, en vue d'arrêter les choix technologiques autour de ce nouveau cluster. Pour le construire, deux pistes sont envisagées : un déploiement interne (probablement basé sur la distribution Hadoop d'Hortonworks), ou le recours au cloud.

La gestion des risques de retard parmi les applications potentielles

Du côté des services Hadoop en mode cloud, SNCF Gares & Connexions étudie plusieurs pistes : le cloud IBM Bluemix et les services Microsoft Azure notamment. Quant à Amazon Web Services, il a été pour l'heure écarté. Pourquoi ? Car l'Américain n'a pas su apporter de réponses spécifiques à certaines questions posées par la SNCF, notamment en matière de sécurité des données. Quant à Google, ses projets dans le domaine de la géolocalisation liée au ferroviaire ont conduit à écarter d'emblée son offre.

La masse de données manipulée au sein de la future plateforme Hadoop promet d'être gigantesque. Les premiers tests effectués ont conduit à estimer à environ 100 Go le volumes de logs générés quotidiennement par les réseaux Wi-fi en gares.

Réduire les retards, et gérer les gares en temps réel

Pour SNCF Gares & Connexions, la solution d'un cluster Hadoop, qu'il soit en mode cloud ou pas, permettra de décorréler le stockage de données des outils d'analyse et de restitution. Pour le pôle, l'objectif est en effet de s'équiper d'une plateforme capable de répondre, à terme, à tous ses usages internes de Big Data. D'où l'intérêt d'un environnement qui puisse accueillir des données de tout type (log Wi-fi, d'apps mobiles, contenus des tableaux de départs et d'arrivées, flux vidéo, mais aussi informations commerciales, financières du groupe, données externes, météo...). La SNCF cherche ainsi à se doter d'un environnement interne qualifié "d'Open Data" permettant de partager des données entre directions ou métiers pour mieux servir les usagers. Une cellule de compétences a été mise en place pour étudier les opportunités qui pourraient être tirées d'un tel édifice.

"Cette plateforme va ouvrir des perspectives que nous ignorons encore très largement", estime Georges Colin. Parmi ces perspectives figurent naturellement l'optimisation des modes opératoires des gares pour gérer leurs flux de voyageurs. Mais aussi une meilleure capacité à détecter les causes des retards, voire même de les anticiper. "Toutes ces nouvelles données amélioreront encore le niveau de service et la rentabilité tout en permettant une gestion de la gare en temps réel", conclut Georges Colin.

A lire aussi