Deep reinforcement learning, l'IA capable de surpasser l'humain

Deep reinforcement learning, l'IA capable de surpasser l'humain L'apprentissage par renforcement profond reproduit le mécanisme "naturel" d'acquisition des connaissances. Robot, chatbot, voiture autonome, ses applications sont multiples.

Le deep reinforcement learning (DRL) est une méthode d'intelligence artificielle encore peu popularisée qui ouvre de toutes nouvelles perspectives en matière d'automatisation. Souvent présenté comme l'IA ultime, le DRL permet de créer des logiciels capables d'atteindre voire de surpasser l'intelligence humaine dans plusieurs domaines. Le système le plus célèbre tirant parti de la méthode n'est autre que DeepMind, la plateforme d'IA de Google (issue du rachat de l'entreprise britannique du même nom en 2014). C'est sur elle que le géant américain s'est basé pour développer AlphaGo, le supercalculateur connu pour avoir battu en 2017 le champion du monde de go, le Chinois Ke Jie.

Le DRL fait appel aux algorithmes d'apprentissage dits par renforcement, dont les deux plus illustres sont le TD learning (pour temporal difference learning) et le Q-learning. Des modèles de learning qui s'inspirent du processus humain (et animal) d'acquisition des connaissances par essais-erreurs.

En résumé, l'idée est de tirer les leçons d'expériences répétées. Pour orienter les choix dans la direction voulue, ces algorithmes valident les décisions prises par la machine via un mécanisme de récompense. On pourrait comparer la démarche à du dressage. Se classant dans la catégorie du machine learning automatique (ou non-supervisé), le DRL combine l'apprentissage par renforcement aux réseaux de neurones dans le but d'estimer efficacement la validité d'une stratégie "complexe", avec à la clé un grand nombre de critères de choix à prendre en compte. Le principal enjeu étant d'aboutir à un système qui encourage les comportements souhaités, et sans effets secondaires indésirables.

Pour programmer un robot, plus besoin d'un long et fastidieux travail de développement

L'avantage du DRL est de taille : pour programmer un robot par exemple, plus besoin d'un long et fastidieux travail de développement. L'ordinateur apprendra à opérer, à réagir à tel ou tel événement ou requête par lui-même. Que le robot soit physique ou virtuel, la phase de learning sera exécutée sous forme de simulation numérique. Un mode opératoire qui permet d'optimiser le temps d'apprentissage.

L'industrie est l'un des tout premiers terrains de jeu de l'apprentissage par renforcement profond. Outre-Atlantique, plusieurs start-up avancent des solutions de DRL taillées pour ce secteur. C'est notamment le cas de Covariant.ai et Osaro dans la robotisation des usines et entrepôts de marchandises. Ou encore de Bonsai dans la calibration et le contrôle qualité des systèmes industriels (qu'ils soient centrés sur la fabrication, la supply chain ou la production d'énergie). Un terrain qu'investit aussi l'Allemand Micropsi. Sur tous ces segments, le deep reinforcement learning revêt un avantage clé : il permet à aux systèmes informatiques d'auto-adapter leur logique en vue de faire face rapidement à d'éventuels changements de contexte. Grâce au DRL, un robot d'une chaîne de montage automobile peut ainsi apprendre par lui-même à poser un modèle de pièce différent (rétroviseur, essuie-glace…) de celui qu'il avait l'habitude d'installer jusque-là, et donc sans programmation préalable.

Pour l'heure, toutes ces start-up en sont au stade de la preuve de concept, et n'affichent pas encore (ou rarement) de références clients. Parmi elles, Bonsai semble la plus avancée. La jeune pousse californienne est parvenue à convaincre Siemens. Le groupe industriel allemand expérimente sa technologie en vue d'automatiser la calibration de ses machines-outils à commande numérique. Résultat : le modèle de DRL de Bonsai lui a déjà permis de réaliser ce type d'opération 30 fois plus vite qu'un opérateur humain.

Aux côtés de la robotique industrielle, l'apprentissage par renforcement profond monte en puissance sur d'autres créneaux. Par exemple dans le monde financier, pour optimiser le trading automatisé ou la gestion des risques de marché (cf. la start-up américaine Prowler.io). Ou encore dans les chatbots et autres systèmes conversationnels intelligents. Un champ d'application qui est lui-aussi investi par des jeunes pousses (par exemple Semantic Machines), mais pas seulement. Les géants du numérique sont là également. Apple et Microsoft par exemple y voient un levier pour booster leurs assistants vocaux. Le premier a acquis en 2016 la technologie de DRL britannique VocalIQ qu'il a depuis intégrée à Siri. Quant à Microsoft, il a racheté fin 2017 le Canadien Maluuba, autre spécialiste du domaine. Ce dernier a rejoint sa R&D centrée sur l'IA (comptant 5 000 ingénieurs), une activité qui collabore désormais à toutes ses gammes de produits (Windows, Office, Cortana, Bing…).

Les applications possibles ? Chatbot, voiture autonome, optimisation énergétique, IA automatisée…

Autre géant IT américain engagé, Salesforce expérimente le DRL pour automatiser la synthèse de texte. "Grâce à son mécanisme de scoring, le DRL permet à la machine d'estimer la qualité globale d'un résumé en s'extrayant d'une logique de mot à mot", explique l'éditeur de San Francisco. Chez Facebook également des recherches sont en cours. Elles sont menées au sein de son laboratoire parisien spécialisé en IA. "Nous planchons sur un bot expérimental conçu pour jouer à StarCraft via l'apprentissage par renforcement profond. L'idée est de concevoir une technologie capable de développer des stratégies en environnement incertain", confie Antoine Bordes, responsable de l'AI Research Paris Lab de Facebook (le réseau social a d'ailleurs publié en open source le data set du projet).

Aux côtés d'Apple, Microsoft, Salesforce et Facebook, Google n'est pas en reste. Depuis qu'il a acquis DeepMind, Mountain View en a largement déployé la technologie chez lui. Et ce, pour des problématiques variées, par exemple pour optimiser la consommation énergétique de ses data centers ou encore pour motoriser son service cloud d'IA automatisée (AutoML).

Beaucoup d'autres champs d'expérimentation restent à explorer. Et dans des domaines variés, autour de la personnalisation des contenus de formation, l'optimisation de prescriptions médicales... Ou la voiture autonome. Tesla s'intéresse ainsi de près au DRL dans l'optique d'améliorer la capacité de ses voitures autonomes à réagir à tel ou tel événement de circulation. En 2017, l'entreprise d'Elon Musk a recruté Andrej Karpathy, l'un des meilleurs spécialistes mondiaux du domaine.

Et ce n'est que le début. En parallèle, la recherche en matière de DRL avance. Aux Etats-Unis, le MIT et l'Université de Californie, notamment, investissent le sujet. En France, c'est le cas l'INRIA et l'ISIR.

A lire aussi

Annonces Google