Reinforcement learning : définition, algorithme, exemple...

L'apprentissage par renforcement reproduit le mécanisme "naturel" d'acquisition des connaissances. Robot, chatbot, voiture autonome, ses applications sont multiples dans l'intelligence artificielle.

Le reinforcement learning, c'est quoi ?

Le reinforcement learning (ou apprentissage par renforcement) met en œuvre des algorithmes d'apprentissage qui tirent les leçons d'expériences répétées en procédant par essai-erreur. Il reproduit ainsi le mécanisme "naturel" d'acquisition des connaissances.

Pour orienter l'apprentissage dans la direction voulue, les algorithmes d'apprentissage par renforcement valident les décisions prises par la machine via un mécanisme de récompense ou de pénalité. On pourrait comparer la démarche à du dressage.

Quels sont les algorithmes d'apprentissage par renforcement ?

Les deux plus célèbres algorithmes de reinforcement learning sont le TD learning (pour temporal difference learning) et le Q-learning. Des modèles de learning qui s'inspirent du processus humain (et animal) d'acquisition des connaissances par essais-erreurs.

Quel est l'avantage du reinforcement learning ?

Le principal avantage du reinforcement learning : pour programmer un robot par exemple, plus besoin d'un long et fastidieux travail de développement. L'ordinateur apprendra à opérer, à réagir à tel ou tel événement ou requête par lui-même.

Que le robot soit physique ou virtuel, la phase de learning sera exécutée sous forme de simulation numérique. Un mode opératoire qui permet d'optimiser le temps d'apprentissage.

Le deep reinforcement learning, c'est quoi ?

Se classant dans la catégorie du machine learning automatique (ou non-supervisé), le reinforcement learning s'adosse généralement à des réseaux de neurones dans le but d'estimer efficacement la validité d'une stratégie "complexe", avec à la clé un grand nombre de critères de choix à prendre en compte. On parle alors de deep reinforcement learning (DRL). Le principal enjeu étant d'aboutir à un système qui encourage les comportements souhaités, et sans effets secondaires indésirables.

Souvent présenté comme l'IA ultime, le DRL permet de créer des logiciels capables d'atteindre voire de surpasser l'intelligence humaine dans plusieurs domaines. Le système le plus célèbre tirant parti de la méthode n'est autre que DeepMind, la plateforme d'IA de Google (issue du rachat de l'entreprise britannique du même nom en 2014). C'est sur elle que le géant américain s'est basé pour développer AlphaGo, le supercalculateur connu pour avoir battu en 2017 le champion du monde de go, le Chinois Ke Jie.

Quelques exemples de reinforcement learning

L'apprentissage par renforcement profond est utilisé dans de nombreux domaines :

La robotisation des usines et entrepôts de marchandises pour permettre aux automate d'apprendre par eux-mêmes à poser un nouveau modèle de pièce sans programmation préalable.
La calibration et le contrôle qualité des systèmes industriels, qu'ils soient centrés sur la fabrication, la supply chain ou la production d'énergie,
La finance pour optimiser le trading automatisé ou la gestion des risques de marché,
La synthèse de texte pour estimer la qualité globale d'un résumé en s'extrayant d'une logique de mot à mot,
Le jeu et les moteur de recommandation pour développer des stratégies en environnement incertain,
La voiture autonome pour améliorer la capacité du véhicule à réagir à tel ou tel événement de circulation,
...