Du bras industriel au majordome intelligent : comment l'IA transforme la robotique mondiale

Du bras industriel au majordome intelligent : comment l'IA transforme la robotique mondiale De nouveaux modèles d'IA générative dotent les robots de capacités cognitives inédites. Par apprentissage et non par programmation, ils exécutent des ordres complexes et s'adaptent à leur environnement.

La vidéo postée en février culmine à plus de 1,3 million de vues. Après avoir reçu leurs consignes d'un humain, deux robots humanoïdes se coordonnent pour ranger méticuleusement les courses dans un placard ou un réfrigérateur en tenant compte de la forme et des conditions de conservation des aliments. Dans d'autres vidéos, tout aussi saisissantes, le même robot Helix, conçu par l'américain Figure AI, remplit le lave-vaisselle ou plie le linge. Optimus, le robot de Tesla, fait, lui, la démonstration de ses talents de danseur ou s'exerce au kung-fu.

Si la véracité et les conditions de réalisation de ces vidéos sont toujours sujettes à caution, ces dernières témoignent d'une avancée majeure dans le monde de la robotique.

Du bras robotisé industriel mono-tâche…

Ce saut disruptif, on le doit une fois encore à l'IA générative. Dérivés des fameux LLM, de nouveaux modèles dits VLM (Vision Language Model) font leur apparition apportant la vision et le langage. Venant compléter les VLM, les modèles VLA (Vision-Langage-Action) traduisent les données visuelles et textuelles en commandes motrices permettant à la machine d'effectuer une série d'actions.

"Il y a une connexion forte entre la robotique et l'IA générative, confirmeJean-Baptiste Mouret, directeur de recherche à Nancy dans l'équipe Hucebot qui travaille sur l'apport de l'IA aux robots centrés sur l'humain. Les LLM permettent de générer et analyser du texte, des images, des vidéos. Une polyvalence que l'on demande à un robot. Ces modèles bénéficient, par ailleurs, du "sens commun" apporté par les LLM. Le robot va avoir une compréhension générale du monde pour appréhender son environnement et son contexte. Il ne sera pas nécessaire de tout lui expliquer."

Doté de capacités cognitives inédites, le robot dopé à l'IA va exécuter des ordres complexes en autonomie ou donnés en langage naturel, adapter son comportement à des environnements changeants et prendre des décisions basées sur des informations sensorielles. Pour reprendre l'exemple du robot domestique de Figure AI, ranger des aliments dans un placard suppose de faire appel, entre autres, à la vision et au toucher pour définir quel est l'objet demandé et comment l'atteindre.

…au robot polyvalent et autonome

On parle d'apprentissage "zero-shot" quand un robot peut effectuer de nouvelles tâches ou interagir avec des objets inconnus sans nécessiter de formation spécifique. Pour gagner en intelligence, l'automate va analyser, grâce aux VLM, les images de ses caméras et les instructions vocales captées par ses microphones embarqués. Pour Aymeric Bethencourt, docteur en robotique et lead architect chez IBM, l'IA générative va en quelque sorte donner "un cerveau" au robot.

Dans un billet de blog, l'expert explique comment un robot "apprend" à faire un café. A partir de la photo d'une machine à café, un modèle d'IA générative comme GPT-4 est capable de générer un jeu d'instructions comme prendre une capsule, ouvrir le levier de la machine, insérer la capsule, appuyer sur le bouton, etc. Ces actions sont ensuite transformées en commandes moteur permettant au poignet gauche – oui, notre robot est gaucher - d'opérer un mouvement de translation rectiligne uniforme et vertical et une rotation selon tel angle. Idem pour l'épaule gauche et ainsi de suite.

"Gourmands en ressources, les modèles VLM, comprenant d'un à cent milliards de paramètres, sont hébergés dans le cloud en raison des contraintes de calcul embarqué, explique Aymeric Bethencourt. Plus petits, entre 100 millions et un milliard de paramètres, les modèles VLA fonctionnent en local, pour répondre à la notion de temps réel et générer des mouvements continus et fluides."

Pas de Wikipédia de la robotique

Ces modèles exigent d'importantes quantités de données d'entraînement afin d'apprendre au robot la multitude des tâches à accomplir mais aussi les lois et les contraintes du monde physique. Problème, "il n'existe pas de Wikipédia de la robotique, déplore Jean-Baptiste Mouret. Le développement des LLM a pu bénéficier des milliards de textes produits depuis le début de l'humanité. L'équivalent n'existe pas dans la robotique."

Comme chez Tesla, l'apprentissage peut être supervisé par un opérateur humain qui, équipé d'un casque de réalité virtuelle et de capteurs, exécute les gestes que le robot devra reproduire. Ce mode d'enseignement étant à la fois long, laborieux et coûteux, le recours à des simulations numériques en environnements virtuels est privilégié.

Les "world models", comme Geni 3 de Google DeepMind, génèrent des mondes 3D interactifs, jouables en temps réel. "Ils permettent de simuler des environnements cohérents et photoréalistes où la persistance des éléments est assurée, complète Aymeric Bethencourt. Cela permet à des robots d'acquérir une compréhension généralisée de la physique du monde, grâce à des centaines de millions de vidéos et d'exemples simulés." Le processus dit de "Sim-to-Real Transfert" consiste ensuite à appliquer les connaissances acquises en simulation dans le monde réel.

Des robots humanoïdes dans les usines BMW et Mercedes

"Certaines limites subsistent, tempère Aymeric Bethencourt. Les modèles utilisés restent sensibles aux situations inédites ou extrêmes, non envisagées durant l'entraînement. Par exemple, si un nouveau type d'obstacle apparaît, le comportement du robot peut devenir imprévisible. Par ailleurs, ces systèmes sont exposés, comme les LLM, au phénomène d'hallucination, pouvant entraîner des actions non conformes ou dangereuses, telles qu'une collision avec un humain." Sans parler des risques de cybersécurité avec une possible prise de contrôle à distance.

Pour l'expert, le développement actuel des VLM et VLA est comparable à celui des premiers LLM, comme GPT-2 et GPT-3. A l'instar du célèbre chatbot d'OpenAI, ces modèles sont néanmoins appelés à faire d'importants progrès dans les prochaines années. En attendant, la quantité de données et les ressources de calcul nécessaires dans la phase d'entraînement les réservent à quelques acteurs du marché.

Des acteurs qui ont les moyens de leurs ambitions. Mi-septembre, Figure AI a levé plus d'un milliard de dollars valorisant la licorne 39 milliards de dollars. Plus tôt dans l'année, Apptronik levait 350 millions de dollars pour déployer son robot en entreprise. Les deux start-up américaines ont conclu des contrats respectivement avec les constructeurs automobiles allemands BMW et Mercedes-Benz. Sur X, Elon Musk, a affirmé qu'environ 80% de la valeur de Tesla proviendra de ses robots humanoïdes Optimus.

Un marché à plus de 62 milliards de dollars en 2029

Selon The Business Research Company, le marché de l'intelligence artificielle dans la robotique devrait passer de 17,89 milliards de dollars en 2024 à 62,85 milliards de dollars en 2029, soit un taux moyen de croissance annuelle de 28,6 %. De nombreux secteurs d'activité sont potentiellement intéressés par ces super robots. On pense spontanément aux industries de l'automobile, l'aérospatiale et la défense ou aux domaines de la santé et des services à la personne.

"Dans un premier temps, la valeur de ce type robot portera sur l'accomplissement de tâches compliquées, répétitives ou pénibles, comme le port de charges lourdes, ou téléopérées dans des environnements dangereux", prévoit Alexandre Embry, head of the Capgemini AI Robotics and Experiences Lab. Sa polyvalence lui permettra d'accomplir différentes missions. "En fonction des besoins, un industriel pourra confier à sa flotte de robots des opérations de contrôle qualité, de nettoyage ou de maintenance".

L'équipe Hucebot de l'Inria travaille, de son côté, sur l'utilisation d'un exosquelette - un robot que l'on porte sur soi -, et sur les robots qui opèrent à distance pour des missions dangereuses comme la décontamination de sites nucléaires. Elle collabore avec les pompiers et l'hôpital de Nancy. "Dans le cas des pompiers, il s'agit de les aider dans les opérations de désincarcération suite à un accident de voiture, explique Jean-Baptiste Mouret. Ils doivent pour cela porter des équipements lourds et encombrants. Au CHU, le nettoyage des draps à la blanchisserie exige beaucoup de manipulations. Au bloc opératoire, les chirurgiens doivent tenir des positions particulières sans trembler."

"Les premiers déploiements concerneront probablement des environnements industriels où les risques liés à une mauvaise action sont limités, comme sur certaines chaînes d'assemblage automobiles où le robot opère seul, estime pour sa part Aymeric Bethencourt. Ce n'est que dans un second temps, à horizon 2035-2040, que de tels robots pourront intégrer les foyers pour assister les particuliers au quotidien." Il faudra encore patienter pour se débarrasser de la corvée de la vaisselle ou du linge.