Machine learning : décryptage d'une technologie qui monte
Vente en ligne, recommandation de films, analyse de la consommation électrique, objets connectés... Les domaines d'application du machine learning sont nombreux. Décryptage.
Le machine learning, qu'est-ce que c'est ?
Le "machine learning" ou "Apprentissage Automatique" en français permet aux ordinateurs d'apprendre à partir des données qui leurs sont soumises, et plus seulement d'exécuter des algorithmes. "Historiquement, cette théorie a pris son essor avec les travaux des mathématiciens Vapnik et Chervonenkis dans les années 60", rappelle Stéphan Clémençon, titulaire de la Chaire Machine-Learning for Big Data et animateur du Groupe de Recherche STA (STatistiques et Applications) à Telecom ParisTech. "Ces travaux se sont développés un peu à l'écart du monde des probabilités et des statistiques. Ils n'ont pas été reconnus tout de suite, car avec le machine learning, le point de vue est différent de celui de la statistique traditionnelle. Le machine learning ne se concentre plus sur la façon de retrouver des objets abstraits comme une loi de probabilité par exemple, mais se concentre avant tout sur le côté opérationnel, c'est-à-dire la prise de décision à partir des données en faisant le moins d'erreurs possibles."
Une grande différence qui existe entre le machine learning et les statistiques traditionnelles, c'est cette capacité des algorithmes à apprendre à partir des données. "Comme bon nombre d'autres applications en intelligence artificielle, l'apprentissage automatique des systèmes est aussi basé sur l'usage des algorithmes, mais avec un focus sur les données qui 'éduquent' la machine concernée", explique Janvier Régis Habimana, consultant en Cloud Transformation chez Devoteam Consulting.
Quelles sont les principales applications du machine learning ?
Si aujourd'hui on parle énormément du machine learning, c'est essentiellement pour ses applications pour le web, notamment dans les systèmes de recommandation des sites marchands ou des jeux en ligne. Néanmoins, la technique est apparue bien avant, notamment pour la compression de données ou encore la visualisation de grandes quantités d'informations. "Le problème phare du machine learning a été la reconnaissance de formes qui a engendré des applications dans la biométrie, la reconnaissance de visages ou de caractères manuscrits" rappelle Stéphan Clémençon. Autre exemple évoqué par le chercheur, la transmission des images et vidéos sur Internet. "Si leur transmission est beaucoup plus rapide aujourd'hui, c'est grâce au format Jpeg 2000 et la compression par ondelettes. C'est un mode de représentation qui permet de s'adapter à la variabilité des données à la volée", explique Stéphan Clémençon.
Depuis ces premières applications, des algorithmes de machine learning ont été déployés à grande échelle pour le filtrage anti-spam, pour optimiser les stocks dans la distribution, et bien évidemment pour la segmentation et le ciblage des clients. Mais des applications du machine learning commencent aussi à apparaitre dans la maintenance industrielle, notamment la maintenance prédictive des matériels installés sur les plateformes pétrolières, les moteurs d'avion... De leur côté, les objets connectés, des compteurs aux bracelets connectés, laissent augurer de multiples autres applications.
Le machine learning pour gérer les risques financiers
Autre secteur avide de nouveaux algorithmes, le domaine de la gestion des risques qui s'est intéressé au machine learning voici déjà plusieurs années. Janvier Régis Habimana souligne : "des modèles se basent sur le machine learning afin de fournir une prédiction de risques pris, par exemple, par des établissements financiers dans le cadre de prêts ou de contrats d'assurance" Enfin, le machine learning peut trouver des applications dans la lutte contre la criminalité. Plusieurs villes américaines font aujourd'hui appel à IBM pour prédire les zones où pourraient survenir les prochaines agressions.
Quels sont les algorithmes mis en œuvre par le machine learning ?
Machines à vecteurs de support, boosting, réseaux de neurones, arbres de décision, régression logistique, analyse discriminante linéaire ou encore algorithmes génétiques, les Data Scientists disposent déjà de tout un attirail méthodologique pour développer leurs algorithmes prédictifs. A eux de choisir le ou les outils les plus adaptés et de bien les paramétrer. "Les entreprises qui souhaitent utiliser le machine learning recourent donc de plus en plus aux services des Data Scientists, et font appel à des algorithmes et modèles mis à disposition par des 'brokers' d'algorithmes en les adaptant à leurs domaines spécifiques", commente Janvier Régis Habimana.
Non seulement il n'existe pas un algorithme universel capable de prédire un comportement, un phénomène, mais tout reste encore à inventer comme aime à le souligner Stéphan Clémençon : "en termes d'algorithmes, tout reste à faire. Par exemple, aujourd'hui, nous sommes fréquemment amenés à gérer des graphes de données. La théorie des graphes, ce n'est pas quelque chose de neuf en mathématiques appliquées. Mais auparavant, on traitait des graphes qui n'ont rien à voir avec ceux que nous sommes amenés à traiter aujourd'hui pour identifier des communautés, mettre en avant des attachements communautaires. Les réseaux sociaux d'aujourd'hui n'ont plus rien des graphes que l'on utilisait dans les années 50. Il n'existe même pas de méthode qui permettrait de simuler des graphes réalistes d'une telle taille."
De même en ce qui concerne les moteurs de recommandation et d'analyse des données de préférence des utilisateurs : leur principe n'est pas nouveau. "En revanche, aujourd'hui un internaute exprime ses préférences sur un nombre d'objets qui est colossal", poursuit Stéphan Clémençon. "Toutes les méthodes qui étaient basées sur une modélisation des lois sur les permutations ne passent pas du tout à l'échelle. Si vous avez n objets, vous avez factorielle n façon de les classer. De plus, les internautes n'expriment pas leur préférence sur les mêmes objets. Certains font un rating sur beaucoup d'objets, d'autres sur très peu. Les données sont très hétérogènes, très complexes, et on doit réfléchir aux bons modes de représentation."
Qu'appelle-t-on deep learning ?
Parmi les algorithmes de machine learning dont on parle le plus en ce moment, le deep learning fait couler beaucoup d'encre, notamment à cause des investissements réalisés par Google ou Amazon dans ce domaine. Le deep learning (ou apprentissage profond) et les réseaux de neurones ne sont pourtant pas des approches totalement nouvelles comme le souligne Stéphan Clémençon : "il y a beaucoup de buzz en ce moment sur le deep learning et les réseaux neuronaux, une discipline qui n'avait pas décollé dans les années 80. A l'époque, on cherchait avant tout l'interprétabilité des modèles. Or aujourd'hui, ce que veulent les gens qui font du retargeting, par exemple, c'est avant tout maximiser le taux de clic, et pas forcement comprendre les règles sous-jacentes de la psychologie des internautes".
Pour certaines applications, le deep learning fournit d'excellents résultats
Pour un certain nombre d'applications, comme l'analyse d'image, de son, de texte, le deep learning fournit d'excellents résultats. "C'est un modèle paramétrique avec beaucoup de réglages possibles : combien de nœuds va compter le réseau de neurones, de combien de couches sera-t-il constitué, quelle sera sa structure ? Cela représente beaucoup d'ingénierie", poursuit Stéphan Clémençon.
Quel lien entre Big Data et machine learning ?
L'essor du machine learning s'explique notamment par la disponibilité de données en très grands volumes. Réseaux sociaux, données de navigation web, mais aussi objets connectés... Les Data Scientist vont disposer d'énormément de matière première d'où ils vont pouvoir tirer une valeur ajoutée. Essor du Big Data et du machine learning vont donc aller de pair dans bon nombre d'organisations. "Les entreprises vont aussi devoir intégrer dans leurs modèles prédictifs des données très hétérogènes, voire incomplètes" souligne Stéphan Clémençon. "C'est le cas dans la maintenance prédictive, le monitoring d'infrastructures complexes, ou de réseaux de transport, avec pour ce dernier exemple des informations souvent parcellaires sur les parcours d'individus."
Qui sont les principaux acteurs dans le domaine ?
Pour Janvier Régis Habimana, dans le machine learning, trois acteurs se partagent le podium : Microsoft, IBM et Google. "Tous trois bénéficient de leur statut d'éditeur mondial, ainsi qu'une forte empreinte dans les domaines du cloud computing et du Big Data", note Janvier Régis Habimana. Le consultant identifie le positionnement de Microsoft tant sur la partie OS avec l'assistant Cortana et ses capacités d'apprentissage, que dans le cloud avec les API d'Azure qui donnent accès à des algorithmes prédictifs, et enfin sur Office, depuis l'arrivée de l'outil Delve dans la suite Office 365.
Dans le machine learning, trois acteurs se partagent le podium : Microsoft, IBM et Google
Google est lui aussi présent sur ce marché avec ses API Cloud. Enfin, IBM est bien connu pour ses recherches en matière d'intelligence artificielle, recherches qui ont notamment engendré la technologie Watson. Là encore, IBM propose tout un jeu d'API donnant accès à de multiples applications de machine learning. Les fonctionnalités accessibles concernent par exemple le travail sur les langues (détection de langues, traduction contextuelle...), la modélisation de l'utilisateur, avec la prédiction de ses caractéristiques sociales. Autre application de machine learning chez IBM, le domaine médical où Watson se livre notamment à une aide au diagnostic du cancer pour différents hôpitaux américains. Enfin, Big Blue a construit un système complet de machine learning, le WATT-SUN. "Développé dans le but d'améliorer le rendu des systèmes de production d'énergie solaire, il peut être mis à disposition d'un grand nombre d'acteurs de ce secteur" estime le consultant.
A ces géants de l'informatique, Janvier Régis Habimana ajoute deux acteurs français : Dataiku et Lokad.
Quel est le rôle de l'open source dans l'essor du machine learning ?
Pour Stéphan Clémençon, ce ne sont clairement pas les éditeurs de logiciels qui ont les clés du marché du machine learning. "On peut aller voir les éditeurs pour l'aspect intégration des données, notamment pour les grands groupes où il faut contrôler les flux de données, leur hébergement, leur fiabilité, ce que l'on appelle la véracité des données", commente l'expert. "Les éditeurs peuvent fournir ce 'pipeline', mais là n'est pas l'innovation." Pour le chercheur, l'innovation réside dans les algorithmes, et sur ce plan les éditeurs commerciaux sont à la traine des communautés open source. "Ce qui a fait beaucoup pour populariser le machine learning, c'est l'existence de packages open source très performants. A Telecom ParisTech et l'Inria, nous avons Scikit-Learn, une toolbox Python de machine learning qui est robuste, fiable et utilisée par de nombreux industriels. Il y a d'autres projets open source, certains plus adaptés aux données massives, comme Spark, Mahout, etc."
Si les éditeurs tels qu'IBM et SAS intègrent évidemment les algorithmes à leurs solutions, le chercheur estime qu'ils n'offrent pas les implémentations les plus efficaces. Pour lui, le marché sera dominé par les packages open source complétés des services cloud. "Dans l'incubateur Telecom ParisTech, les start-up ne disposent même pas de ressources de calcul. Elles les louent à Amazon Web Services ou d'autres clouds, et font tourner des algorithmes open source. Elles n'ont pas du tout besoin de s'encombrer d'éditeurs de logiciel", conclut Stéphan Clémençon.