Le « machine learning » – quand les données remplacent les algorithmes

Qu'est ce que le "machine learning" (apprentissage automatique) ? Pourquoi ce domaine est-il aujourd'hui en plein essor, quelles sont ses principaux domaines d'applications ? Quelles sont les principales stratégies utilisées dans le domaine de l'analyse prédictive ? Quels sont les prérequis pour se former à cette discipline prometteuse.

Les algorithmes bientôt obsolètes ?

D’ici quelques mois, le centre de cancérologie Memorial Sloan Kettering à New York va recruter un jeune spécialiste en diagnostic médical d’un type un peu particulier : non pas un brillant docteur en génétique mais une intelligence artificielle (IA) développée par IBM et qui répond au nom de Watson. Durant ses « études » Watson à ingurgité 2 millions de pages de journaux spécialisés et presqu’autant de rapports cliniques. Cette voracité de connaissances et à ses capacités d’analyse hors pair le mettent d’ores et déjà en position de surpasser ses collègues humains, c’est du moins ce que prétendent ses tuteurs. De plus, contrairement à ses collègues humains, Watson possède le don d’ubiquité, à terme il sera disponible sous forme de service cloud pour tous les hôpitaux de la planète. Peu exigeant sur sa rémunération, Watson pourrait contribuer par ailleurs à alléger la note pharamineuse des coûts de la santé dans de nombreux pays.

L’exemple précédent, qui fait entrer la médecine dans une ère nouvelle, est une application d’un domaine de recherche aujourd’hui en plein essor : le « machine learning » (ML ou « apprentissage automatique »). L’engouement récent pour cette discipline tient en grande partie à une observation qui a surpris les spécialistes en IA eux-mêmes :

« L’utilisation conjointe de quantités massives d’informations et d’algorithmes d’apprentissage relativement simples rend possible la solution de problèmes considérés il y a peu comme inaccessibles. »

Les capacités de traitements massivement parallèles ont de ce point de vue changé la donne depuis quelques années. Parmi les exemples spectaculaires, citons encore la réalisation par Google d’une voiture en conduite autonome.

Hormis ces exemples qui frappent l’imagination, il existe des applications plus prosaïques du ML dans le contexte du e-business. L’analyse prédictive d’un panier d’achat d’un consommateur est sans doute l’usage le plus commun. La détection de fraude dans les transactions bancaires ou l’estimation du risque de non-remboursement d’un prêt en fonction du passé financier d’un demandeur de crédit sont d’autres exemples. Les technologies de reconnaissance de forme au sens large, comme la reconnaissance optique de caractères (OCR) ou celle des visages, la reconnaissance du langage naturel ou la traduction automatique relèvent toutes du ML. Dans le champ des études sociales, citons l’analyse de sentiments qui cherche à classer des documents selon leur tonalité émotionnelle dominante.
Toutes ces applications ont en commun de n’utiliser aucun algorithme explicite pour parvenir à leur fin. Dans le cadre de la reconnaissance des visages, il n’existe évidement aucun algorithme répertorié capable reconnaître M. Untel. Dès lors, plutôt que de chercher à peaufiner des algorithmes sophistiqués, l’approche par le ML fait le pari qu’il est possible de construire des systèmes autonomes que l’on pourra « éduquer » sur la base d’un corpus d’exemples pertinents. Entendons-nous bien, il ne s’agit nullement de reconstituer les mécanismes cognitifs à l’œuvre dans le cerveau humain, sur ce plan là le ML ne dit rien, mais plutôt de construire des mécanismes prédictifs.

Les stratégies du « machine learning »

La possibilité de prédire un phénomène à partir d’observations passées présuppose l’existence d’un mécanisme causal. Pour prédire un phénomène, deux possibilités se présentent. La première, celle qu’utilise un chercheur, consistera à comprendre ce mécanisme causal en élaborant un modèle explicatif. La seconde, utilisée dans le ML et en statistiques, sans être aussi ambitieuse reste très utile. Elle cherche à simplement à découvrir des corrélations significatives dans un jeu d’observations, c'est-à-dire trouver un modèle prédictif. Les deux principales stratégies pour y parvenir sont les suivantes.

L’apprentissage supervisé

Pour fixer les idées, imaginons qu’au sein d’une population nous observions une corrélation entre le poids et la taille des individus. Pour « apprendre » cette relation, et être en mesure de faire ultérieurement des prédictions du poids d’un individu, on procède en trois étapes. (1) Il nous faut d’abord une représentation de nos prédictions. Un exemple d’une telle représentation est l’ensemble des droites du plan définit par l’axe « taille » (horizontal) et l’axe « poids » (vertical). Chaque droite correspond évidement à une prédiction. (2) Parmi ces prédictions, certaines sont meilleures que d’autres, il nous faut donc disposer d’une méthode d’évaluation. Dans notre exemple, une évaluation pourrait consister à additionner les « erreurs » commises sur chacun des individus, chacun d’elle étant interprétée comme la distance entre la droite et la valeur observée. (3) Il nous faut enfin une stratégie d’optimisation qui nous permette de trouver la meilleure prédiction possible. Ce triptyque « représentation, évaluation, optimisation » caractérise en réalité toutes les démarches d’apprentissages supervisées (AS) dans lesquelles on cherche à généraliser des associations connues, l’ensemble des couples (taille, poids) en l’occurrence, à des cas non encore observés. Les valeurs observées de l’effet (le poids) constituent ce qu’on appelle le feedback de l’AS.

L’exemple précédent, dans lequel on cherche une relation optimale entre plusieurs variables numériques, est ce que l’on appelle en statistique un problème de régression. Son principal mérite pour nous est de servir d’illustration de quelques concepts du ML dans un contexte élémentaire. Il n’est cependant pas représentatif de la puissance des techniques de ML dans la mesure où le processus d’optimisation s’avère pour le coup trivial puisqu’il se réduit au calcul d’une formule qui donne explicitement la prédiction optimale en fonction des valeurs observées.

Un exemple plus significatif de ML consiste par exemple à chercher à savoir si un emprunteur potentiel, dont on connait les revenus, l’âge et le taux d’épargne fait partie ou non des clients à risque. On cherche donc à prédire l’appartenance d’un individu à une catégorie plutôt qu’une caractéristique numérique, mais le principe reste le même. Nulle formule n’explicite cette fois-ci, le ML prend alors tout son sens au prix sans doute d’une représentation sous forme d’un jeu de règles à optimiser [1].
L’un des problèmes fondamentaux d’un apprentissage supervisé est d’éviter l’effet dit d’overfitting (ou de surapprentissage) qui se manifeste lorsqu’à force d’entraînement un jeu de règles se révèle parfaitement adapté aux données déjà observées mais ne conduit cependant à aucune généralisation utile. Des parades ont été élaborées par les data scientists pour se prémunir contre cet écueil. Pour partie, elles consistent à répartir astucieusement les données expérimentales en données d’apprentissage d’une part et en données de validation d’autre part.

L’apprentissage non-supervisé

Imaginons maintenant que, dans le cadre d’une application CRM, l’on cherche à répartir un ensemble de prospects en niches dans un marché dont nous ignorons complètement la segmentation. Il s’agit cette fois de découvrir des structures cachées dans les données plutôt que de généraliser des exemples à partir d’un feedback connu. C’est précisément l’objectif des techniques d’apprentissage non supervisé (ANS) du ML proches de celles du data mining. Contrairement à l’AS qui cherche à optimiser les paramètres d’un modèle, restreignant ainsi la recherche d’une solution optimale, les techniques de l’ANS ne présupposent rien, si ce n’est que des observations similaires ont des significations voisines. Dans les situations où aucun modèle n’est disponible à priori l’ANS sera donc une approche à privilégier.

Apprendre le « Machine learning »

L’art de tirer le meilleur parti de données recueillies sur un échantillon d’observations est ce qu’on appelle l’inférence statistique. C’est le fondement théorique d’une grande partie du ML. Quiconque souhaite aborder le ML ne pourra en conséquence faire l’économie de se rafraîchir la mémoire sur ce qu’est une probabilité conditionnelle, une loi normale ou le degré de signification d’un test. Que les allergiques aux mathématiques (et même les traumatisés) toutefois se rassurent car le ML est une discipline où l’intuition, l’astuce et l’expérience sont ici reines, bien plus que les beautés intemporelles des théorèmes. Le cœur du ML reste l’élaboration et l’optimisation d’algorithmes spécialisés propres à certaines tâches d’apprentissage. Dans un contexte big data la question de savoir si un algorithme est aisément parallélisable, au moyen d’un schéma MapReduce par exemple, revêt une grande importance pratique. Un data scientist devra en tenir compte pour évaluer la pertinence d’un algorithme de ML.

Quelques conseils enfin pour ceux qui souhaiteraient approfondir le sujet. Ce MOOC de l’université de Washington propose un survol du ML en une vingtaine de vidéos dont le principal mérite est d’offrir un bon panorama du ML. Pour aller plus loin, on pourra consulter cet ouvrage qui aborde en particulier les techniques récentes du ML. Enfin, pour les plus motivés, une approche pratique au ML reste la plus efficace. On pourra tester par exemple l’outil Data Science Studio de la société Dataïku qui, propose une large palette d’outils dédiés à l’apprentissage supervisé, au data mining et à l’analyse prédictive.

[1] Parmi les représentations complexes du ML citons les collections de règles, les arbres de décision ou encore les réseaux de neurones.