Andrew Wooten (Rhoda AI) "Rhoda AI a développé le modèle vidéo le plus rapide et le plus précis jamais conçu"

Rhoda AI, l'une des start-ups de la Silicon Valley les plus en vue dans le domaine de l'IA et de la robotique, vient de lever 450 millions de dollars. Son cofondateur, Andrew Wooten, présente son modèle d'intelligence artificielle "Direct Video-to-Action".

JDN. Pouvez-vous présenter Rhoda AI ainsi que le problème spécifique que vous souhaitez résoudre ?

Andrew Wooten est le cofondateur de Rhoda AI. © Rhoda AI

Andrew Wooten. Le monde de la robotique est divisé en deux. D'un côté, les robots industriels traditionnels : ils sont très présents en usine mais restent rigides, préprogrammés pour répéter inlassablement la même chose. De l'autre, les robots dits "intelligents", capables d'apprendre à partir de données pour accomplir des tâches variables dans des environnements inconnus. Le problème, c'est qu'en examinant cette seconde catégorie, nous avons observé que la quasi-totalité d'entre eux restaient bloqués en laboratoire. Aucun n'était déployé en conditions réelles. Le véritable goulot d'étranglement n'est pas le hardware, mais l'absence d'un modèle d'IA suffisamment généraliste. C'est pour libérer ces robots et les amener enfin dans le monde réel que Rhoda AI a été créée.

En quoi votre approche diffère-t-elle des modèles actuels ?

L'industrie s'est enfermée dans une impasse avec les modèles actuels, appelés VLA (Visual Language Action), qui tentent de greffer des données robotiques sur des modèles de langage type ChatGPT. Le problème est simple : le langage n'enseigne pas la physique. Cela a poussé l'industrie dans une course aux données où l'on embauche des milliers de prestataires pour téléopérer des machines afin de créer des jeux de données robotiques. C'est l'erreur fondamentale de la robotique actuelle. Pour que les modèles d'OpenAI deviennent intelligents, on les a entraînés sur des données à l'échelle d'Internet. Si OpenAI s'était contenté de faire rédiger des livres par ses propres ingénieurs, ChatGPT ne serait jamais sorti du laboratoire. Chez Rhoda, nous avons eu une intuition différente : pour apprendre à un robot à bouger, il faut l'entraîner sur ce qu'Internet possède déjà en abondance : la vidéo.

Pourquoi la vidéo est-elle, selon vous, le meilleur professeur pour un robot ?

Parce que la vidéo est le gisement de données le plus riche pour comprendre le mouvement, la dynamique et les lois de la physique. En observant des milliards d'heures de contenu, les modèles de génération vidéo comme Sora ou Luma ont prouvé qu'une IA pouvait simuler une physique cohérente par simple observation. Notre innovation phare consiste à utiliser ce levier pour "résoudre" la physique dans le domaine numérique avant de la traduire dans le domaine mécanique. Nous avons jeté un pont entre ces deux mondes : notre modèle est capable de générer en temps réel la vidéo d'une action puis de la convertir instantanément en commandes motrices. C'est le modèle Direct Video-to-Action (DVA).

Comment cela se traduit-il concrètement ? Pouvez-vous nous donner un exemple ?

Prenons un boîtier d’écouteurs audio. Pour l’ouvrir, un robot traditionnel aurait besoin qu'on lui montre le geste des milliers de fois. Le robot de Rhoda, lui, observe l'objet et génère instantanément une vidéo interne montrant son propre bras en train d'ouvrir le boîtier. Une fois cette vidéo réalisée par l'IA, le système la traduit directement en mouvements physiques. Le problème de la robotique change alors de dimension : on ne cherche plus des données robotiques introuvables, on exploite un stock de données vidéo infini.

Quels obstacles avez-vous dû surmonter pour aboutir au modèle DVA ?

Le concept se heurtait à deux verrous techniques : la lenteur des modèles vidéo classiques et leur manque de précision. Notre équipe, composée de talents passés par NVIDIA, World Labs ou encore OpenAI, a passé 18 mois à développer le modèle vidéo le plus rapide et le plus précis jamais conçu. En prédisant le futur immédiat par l'image et en le convertissant directement en action, nous opérons un changement de paradigme total. Là où l'industrie classique nécessite 1 000 heures de données pour automatiser une tâche en usine, notre modèle peut maîtriser une action complexe en seulement 10 heures, tout en restant capable de s'adapter à un changement d'environnement, sans entraînement.

On parle beaucoup des World Models(modèles de monde) en ce moment. Votre modèle en est-il un ?

Le terme "World Models" est utilisé de manière assez libre ces jours-ci. Je définis un World Model comme un modèle qui prend des actions en entrée et prédit l'état du monde en sortie. C'est un peu comme un simulateur basé sur l'IA générative. Ce que nous faisons est légèrement différent : nous observons un état afin de générer des actions. Il y a des similitudes : les deux sont entraînés sur de la vidéo à l'échelle d'Internet. Mais nous voulions décrire spécifiquement notre approche, le "Direct Video-to-Action", plutôt que de nous insérer dans une catégorie à la mode.

Concernant l'écart potentiel entre l'entraînement et la réalité, l'exécution physique et les mouvements, comment gérez-vous cela ?

Ce que vous décrivez est le fossé "Sim-to-Real"(du simulé au réel), qui explique pourquoi la plupart des politiques entraînées sur des données simulées échouent dans le monde réel. La grande différence, c'est que nous fonctionnons en "boucle fermée" sur le robot. Nous n'utilisons pas de données synthétiques issues d'un simulateur pour entraîner le robot. Le modèle est entraîné sur des vidéos du web et affiné grâce à des données robotiques. En fonctionnement, le robot observe la situation, génère une prédiction vidéo plusieurs centaines de fois par seconde et convertit cette prédiction en action. Si le robot manque son geste ou si un objet tombe, il l'observe immédiatement, et la prédiction vidéo suivante s'ajuste en conséquence. Cela nous permet de gérer des tâches traditionnellement impossibles à simuler, comme manipuler des sacs plastiques, des matériaux déformables ou des t-shirts.

Avez-vous déjà intégré votre modèle dans des environnements de production ?

Nous avons commencé par échanger avec près de 100 grandes entreprises mondiales issues des secteurs de la logistique et de l'industrie manufacturière. Nous avons constaté qu'elles avaient toutes les mêmes exigences : le robot doit être certifié pour la sécurité, il doit être fiable, et doit supporter une charge utile substantielle - environ 22 kg pour répondre aux normes industrielles. Nous avons examiné plus de 120 options matérielles sur le marché. Et aucun des robots humanoïdes actuels ne coche ces cases.

Comment vous adaptez-vous à cette situation ?

Puisque personne ne construit de robot répondant à ces exigences industrielles, nous avons décidé de concevoir notre propre robot avec une équipe interne d'experts des secteurs de l'humanoïde et de l'automobile. Deuxièmement, comme notre modèle d'IA est déjà opérationnel, nous ne voulons pas attendre que notre propre modèle soit prêt. Pour l'instant, nous utilisons des bras industriels à sept degrés de liberté, déjà déployés en usine et bien plus fiables que n'importe quel humanoïde achetable aujourd'hui.

Quel est votre modèle commercial ?

Les clients ne veulent pas forcément acheter un robot ou un modèle d'IA : ils veulent que leurs problèmes soient résolus de manière fiable et à un prix acceptable. C'est pourquoi nous privilégions un modèle de Robot-as-a-Service (RaaS). Ils nous soumettent un ensemble de cas d'usage, nous expédions les robots, nous mettons à jour les modèles et nous gérons l'exécution des tâches. Ils paient une redevance annuelle, et nous les déchargeons de ces missions. Cela leur évite de lourds investissements en capital ou de se soucier de la maintenance.

Vous avez évoqué des déploiements en logistique, mais à quelle distance sommes-nous de robots capables d'agir de manière autonome à domicile?

Nous déploierons nos robots dans des usines cette année. En termes d'impact économique, améliorer la façon dont les choses sont fabriquées et déplacées dans la production et la logistique a un impact bien plus considérable sur la prospérité humaine qu'un robot domestique. Si vous débloquez un gain d'efficacité d'un facteur 10 dans ce secteur, les bénéfices se répercutent sur toute la société. Toutefois, l'avenir appartient aux robots domestiques, et notre modèle pourrait tout à fait être utilisé pour eux. Mais la maison est un environnement bien plus complexe : chaque foyer est différent, chaque tâche est différente. De plus, la maintenance du matériel constitue un obstacle majeur. Dans un entrepôt, vous avez des techniciens sur place, pas à la maison. Et il y a les problèmes liés à la sécurité.

Vous avez récemment levé 450 millions de dollars. Comment cela va-t-il contribuer au développement de l'entreprise ?

Presque tout ce que nous faisons coûte très cher. Pré-entraîner des modèles à partir de zéro nécessite des dizaines de millions de dollars en ressources de calcul, les puces GPU etc. Le deuxième pôle de dépenses est le développement de notre modèle de robot humanoïde. Et le troisième volet consiste à structurer l'entreprise pour passer à l'échelle. Nous ne sommes pas là pour faire de simples démonstrations sur YouTube. Nous voulons voir des dizaines de milliers de robots déployés dans de vraies usines. Cela exige des équipes de déploiement, des équipes de support et une gestion de la chaîne d'approvisionnement. Nous utiliserons donc ce capital pour sécuriser notre puissance de calcul, développer notre robot et attirer les meilleurs talents mondiaux afin de bâtir une entreprise pérenne.