Comment le Tour de France est entré dans une nouvelle dimension avec le machine learning ?

Les technologies telles que le machine learning et l'analyse prédictive portent leurs fruits, qu'elles soient appliquées au monde sportif, comme à celui de l'entreprise.

19,66 km/h, c’est la vitesse moyenne du vainqueur de l’étape du 6 juillet 2017 : l’Italien Fabio Aru, du pied de l’ascension finale jusqu’au sommet (dont 5,8 km à 8,5%). Christopher Froome, lui, n’a grimpé « qu’à » 18,45 km/h. Ces chiffres ont été communiqué en temps réel, au même titre que d’autres informations clés : distance au mètre près restant à parcourir par le maillot jaune jusqu’au sommet du col, l’écart à la seconde entre les échappés et le peloton, les vitesses instantanées comparées pour deux coureurs... Les trois semaines du Tour de France ont été marquées par le partage quotidien de données très précises des performances des coureurs, confirmant le virage technologique pris par les organisateurs du Tour de France depuis 2015.  

La solution big data utilisée sur le Tour de France a franchi un nouveau palier cette année grâce à deux nouvelles briques technologiques : le machine learning et l’analyse prédictive, et ce pour la première fois dans le monde du cyclisme professionnel. Les progrès dans ce domaine permettent en effet de réaliser des prédictions sur les résultats des événements sportifs, et ceci en allant bien plus loin qu’une « simple » analyse des données historiques.  Ainsi, en s’appuyant sur trois années de données compilées lors des Tours de France combinées avec d’autres informations pertinentes, telles que le parcours de l’étape, la météo et le profil des coureurs, il est devenu possible de prédire les noms des premiers coureurs à franchir la ligne d’arrivée. L’exemple du Tour de France démontre que l’analyse prédictive et le machine learning ont le potentiel de transformer le monde du sport, au même titre que celui de l’entreprise.

Sur quoi repose cette technologie ?

Le machine learning repose essentiellement sur l’accès à de grandes quantités de données qualitatives. Sur le Tour, trois années de données de télémétrie recueillie par le biais d’un petit récepteur-émetteur positionné sous la selle des coureurs et cinq années de résultats collectés sur d’autres courses (Critérium du Dauphiné, la Vuelta…) ou encore d’informations détaillées sur les conditions météorologiques et les différentes étapes de la Grande Boucle ont été rassemblées. Pendant l’épreuve, plus de 3 milliards de données ont ainsi été traitées, représentant à elles-seules 147 gigaoctets. Toutes ces informations étaient essentielles pour permettre au système de tenir ses promesses. L’appui du cloud a permis d’apporter la flexibilité nécessaire pour augmenter ou réduire la capacité des services en fonction des besoins.

Pour arriver à une technologie fonctionnelle, un POC (proof of concept) a été réalisé en janvier 2017 ainsi qu’une démonstration afin de garantir une mise en marche sans accroc le jour J. Pour autant, toute cette technologie ne peut fonctionner sans une équipe constituée d’experts IT mais également sportifs. Sur le Tour, l’équipe d’analyse comptait cinq personnes : deux data scientists, deux ingénieurs et un expert du domaine (en l’occurrence un ancien cycliste professionnel). Cette diversité dans la composition de l’équipe est cruciale dans la mesure où le machine learning recouvre plusieurs disciplines. Pour tirer le meilleur parti du machine learning, l’équipe doit constamment analyser les résultats, rechercher les points faibles et optimiser les algorithmes afin de gagner en exactitude. Il est nécessaire de tester les résultats et d’en tirer les enseignements : à mesure que la quantité de données mises à la disposition du système augmente, il doit être possible d’en observer le comportement et de l’améliorer continuellement au fil du temps.

Cette technologie mise en place en 2017 pourra être étendue pour la prochaine édition. Des axes de progression sont déjà à l’étude : il s’agit de poursuivre l’itération et d’améliorer la précision du système, notamment en l’enrichissant de données supplémentaires afin d’introduire des prévisions nouvelles, et d’étendre la solution à d’autres sports et secteurs.

L’analyse prédictive et le machine learning ont le potentiel de transformer le monde du sport, mais aussi celui de l’entreprise, et le succès de ce projet peut clairement inspirer les entreprises. L’explosion des données dans le monde de l’entreprise rend incontournable la mise en œuvre d’outils performants de machine learning. Alors que ce marché devrait franchir le cap des 18 milliards de dollars d’ici à 2020, l’heure est venue de saisir au maximum les opportunités.