Comment entraîne-t-on les robots humanoïdes ?
Les robots ont longtemps été programmés pour exécuter chacun de leurs mouvements, codés à l’avance. Cette approche fonctionnait dans des environnements très contrôlés, comme les usines ou les entrepôts logistiques, mais s’avérait trop limitée face à des situations plus imprévisibles.
Les progrès récents de l’intelligence artificielle et l’émergence des modèles de fondation ont changé la donne. Plutôt que de suivre uniquement des règles prédéfinies, les robots humanoïdes sont désormais entraînés à partir de données. En observant des actions humaines, ils peuvent reproduire des gestes, identifier des schémas récurrents et tenter ainsi de généraliser leurs connaissances à de nouvelles situations.
"Nous sommes passés d’une logique où l’on programmait des comportements à une approche où ces comportements sont appris à partir des données. C’est la seule manière possible de passer à l’échelle", résume Deepak Pathak, cofondateur et CEO de Skild AI, start-up américaine qui développe un modèle présenté comme un "cerveau généraliste pour les robots".
Collecter les données du monde réel
Les robots apprennent principalement à partir de trois types de données : les données robotiques (très précises mais difficiles à collecter à grande échelle), la vidéo (abondante mais moins riche en informations sur les interactions physiques, comme les forces ou les contacts entre objets) et les données générées dans des environnements simulés, qui souffrent d’un écart avec le monde réel ("Sim-to-real gap").
Il existe plusieurs méthodes pour récolter ces données. La plus simple est l’apprentissage par observation: le robot observe un humain accomplissant certaines tâches. Grâce à ses caméras et à ses capteurs, il enregistre les mouvements et les gestes, afin de les reproduire par la suite. Les modèles d’IA vont ensuite pouvoir identifier des schémas récurrents. Par exemple, si des centaines de démonstrations montrent comment saisir une tasse à différents endroits, sous différents angles et éclairages, le robot peut généraliser pour apprendre à attraper un objet cylindrique.
Mais la méthode la plus répandue est la télé-opération. Un humain équipé d’une télécommande ou d’un casque VR contrôle les gestes du robot, ce qui lui permet de les mémoriser. Le téléopérateur peut être équipé de gants haptiques et de capteurs de mouvements, afin de récolter davantage de données. Cette méthode permet de capturer des informations détaillées telles que l’angle des articulations ou la force appliquée.
Les principaux constructeurs d’humanoïdes ont recours à ce type d’entraînement. 1X, qui commence à commercialiser le robot domestique NEO, proposera même un service de téléopération à distance. Un employé pourra prendre le contrôle de l’humanoïde afin de lui apprendre à accomplir certaines tâches ménagères au domicile du client.
La collecte de données via la téléopération est devenue une véritable industrie, notamment en Chine où des centres spécialisés emploient des opérateurs chargés d’effectuer des tâches répétitives afin d’alimenter les modèles d’apprentissage destinés aux robots.
Ces approches, si elles s’avèrent plus efficaces que la programmation, présentent toutefois des limites importantes. Elles s’avèrent particulièrement chronophages et gourmandes en force de travail humaine.
Simuler avant d’agir
Pour tenter de contourner ces limitations, de nouvelles méthodes ont émergé. Elles agrègent plusieurs types de données, notamment la vidéo, et ont été pensées pour permettre aux modèles IA de comprendre les lois de la physique.
Les modèles Video-Langage-Action (VLA) se nourrissent par exemple d’images et d’instructions textuelles, avant de produire en sortie une séquence d'actions motrices exécutables par un robot. Plusieurs acteurs majeurs développent leurs propres modèles VLA, à l’image de GR00T N1 chez NVIDIA, Gemini Robotics chez DeepMind ou Helix chez Figure AI.
Skild AI applique pour sa part à la robotique une logique déjà utilisée dans les grands modèles de langage : un pré-entraînement sur d’immenses volumes de données, suivi d’un affinage avec des données plus spécifiques issues du monde réel. "Cette combinaison, avec beaucoup de données générales d’un côté, puis des données spécifiques de qualité de l’autre, est l’un des principes clés de l’IA actuelle", explique Deepak Pathak.
La start-up Rhoda AI a décidé de poursuivre un autre chemin avec son modèle "Direct Video-Action" (DVA). Celui-ci permet aux robots d’apprendre directement à partir d’un modèle vidéo ultra-performant, afin d’améliorer leur capacité à agir dans des environnements réels.
Un autre modèle populaire dans le monde de la robotique est ce que l’on appelle les World Models. Ils permettent aux robots d’acquérir une compréhension de la manière dont fonctionne le monde physique et d’anticiper les conséquences de leurs actions. Couplés à des environnements simulés, ils permettent aux robots d’effectuer des millions d’essais avant une mise en situation réelle.
Si les LLM comme ChatGPT prédisent le prochain mot, les World Models prédisent les conséquences d’une action. Un robot peut par exemple apprendre qu’un verre risque de tomber s’il est poussé trop fort, ou qu’un objet caché derrière un autre existe toujours. Parmi les principaux acteurs du secteur figurent AMI Labs, cofondée par Yann Le Cun, et World Labs, fondée par Fei-Fei Li.
Les méthodes d’apprentissage agrégeant divers types de données, couplées à des entraînements en simulation, apparaissent ainsi comme une solution pour aider les robots à comprendre le monde qui les entoure. Les acteurs du secteur de la robotique humanoïde espèrent que cela permettra de lever l’un des principaux freins au déploiement massif de leurs modèles.