Kari Briski (Nvidia) "Chez Nvidia, nous pensons que les agents physiques sont l'avenir des agents d'IA"

Kari Briski, vice-présidente en charge des logiciels d'IA générative pour l'entreprise chez Nvidia, pilote la stratégie et le développement des solutions d'intelligence artificielle du groupe.

Kari Briski est vice-présidente en charge des logiciels d'IA générative pour l'entreprise chez Nvidia. © NVIDIA

JDN. Dans le débat public, de nombreux éditeurs d'IA ont des définitions différentes des agents IA. Chez Nvidia, qu'entendez-vous par "agent d'IA" ?

Kari Briski. Au cœur d'un agent se trouve un modèle d'IA générative. Les agents existaient déjà, mais c'est la capacité de raisonner qui a véritablement fait exploser ce concept. Lorsque nous définissons un agent, nous parlons d'un système capable de percevoir son environnement, de comprendre les outils disponibles, de raisonner pour répondre à une question, d'établir un plan et de l'exécuter.

Un agent peut suivre un processus itératif de raisonnement et de planification. Ses actions sont autonomes : il peut accomplir des tâches, faire une autoréflexion, développer une chaîne de pensée ou explorer plusieurs options. Par exemple, il peut écrire du code, le compiler pour vérifier son fonctionnement, puis ajuster sa stratégie. Ce sont des programmes basés sur des modèles de langage capables de percevoir, penser, raisonner, agir et réfléchir, le tout en très peu de temps.

Anticipez-vous une adoption des agents aussi rapide et massive que celle qu'a connue l'IA générative suite à l'arrivée de ChatGPT ?

Absolument. Récemment, nous avons eu une discussion au siège qui compare les agents à l'histoire d'Internet. À l'origine, l'ARPANET existait dans les années 60, avant de se développer progressivement entre universités, puis de devenir des intranets d'entreprises, et enfin des extranets pour la communication inter-entreprises. Ce qui a rendu cette évolution possible ? Des protocoles bien documentés comme TCP/IP, HTTP, et les pare-feu. Cette transformation a pris environ 30 ans, du début des années 60 jusqu'aux années 90.

Avec les agents, nous assistons à une explosion bien plus rapide, en seulement un an. Des protocoles émergent déjà, comme les serveurs MCP ou les systèmes de communication d'agent à agent. Je pense que lorsque nous disposerons de protocoles plus universellement définis, les agents se généraliseront véritablement.

Quelles sont, selon vous, les principales limitations des agents actuellement sur le marché ?

Je vois plusieurs limitations importantes. Premièrement, les protocoles restent à définir. Ensuite, l'évaluation des agents s'avère complexe. Lorsque nous aidons nos clients à mesurer leurs performances, nous passons d'une évaluation de modèle unique à l'analyse d'un système complet. Malgré leurs capacités avancées en matière de raisonnement, comme les méthodes de "best-of-n", les chaînes de pensée ou l'autoréflexion, les agents actuels présentent une faiblesse majeure : leur difficulté à collaborer et à demander de l'aide.

"Des protocoles émergent déjà, comme les serveurs MCP ou les systèmes de communication d'agent à agent"

Les recherches récentes soulignent ce point crucial. Le défi consiste à les faire progresser vers une collaboration plus dynamique : comment peuvent-ils reconnaître une impasse, signaler qu'ils sont sur une bonne piste, et transmettre le relais à un autre agent ? C'est un domaine où ils ont clairement un potentiel d'amélioration significatif.

Quelles transformations ou nouveaux usages des agents d'IA anticipez-vous à court terme, notamment d'ici deux à trois ans ?

Je pense que nous verrons d'abord des tâches plus longues pour la recherche approfondie. Actuellement, nous attendons quelques minutes, mais vous pourriez attendre une heure, voire une semaine, grâce à une meilleure gestion de projet des conceptions et des tâches à accomplir. Ensuite, il y aura des tâches plus personnalisées. La personnalisation n'est pas nouvelle, mais pour les agents, il s'agit de vraiment comprendre comment personnaliser une tâche et avoir un coéquipier au travail qui comprend mon contrôle d'accès basé sur les rôles, les tâches que je dois accomplir. Un véritable compagnon de travail qui va au-delà du simple codage. Les compagnons de codage sont formidables, mais il y a bien plus à explorer avec des tâches et des recherches plus longues.

Vous verrez également plus de normes et de protocoles se développer. Et puis nous aurons des modèles et des agents meilleurs pour raisonner non seulement sur le texte, mais aussi sur les images qu'ils voient et l'audio qu'ils entendent, tout simultanément. Ce que nous appelons les VLM ou modèles de langage visuels n'ont pas encore eu leur moment "superhumain". Pour le texte et l'IA, la lecture et les réponses aux questions, nous avons eu ce moment où une IA peut répondre aussi bien, voire mieux qu'un humain. Mais pour des schémas vraiment complexes – identifier une pomme sur une image n'est pas un problème, mais analyser un graphique ou un schéma complexe –, nous n'y sommes pas encore.

Quels sont les principaux défis techniques que posent les agents d'IA en termes d'infrastructure ? Comment peut-on y répondre ?

Les défis techniques sont nombreux et nécessitent une approche globale. Quand on pense à la collaboration entre agents, les enjeux portent notamment sur les contextes plus longs, la mémoire des agents et l'amélioration de leur efficacité. Pour optimiser l'exécution des agents, nous devons les profiler et comprendre comment les faire fonctionner plus efficacement. Cela implique un changement fondamental de l'infrastructure : nous travaillons sur l'ensemble de la pile technologique, avec un calcul, un stockage, un réseau et une interconnexion de GPU plus performants.

Quels sont les premiers résultats de cette démarche chez Nvidia ?

Lors de notre GTC en mars, nous avons lancé Dynamo, notre solution de mise à l'échelle de l'inférence. Il permet ce que nous appelons du routage intelligent : pour une tâche donnée, il détermine s'il faut la router vers un modèle plus petit lorsque vous utilisez moins de tokens, ce qui est plus efficace. Il peut aussi détecter des requêtes nécessitant de très grands contextes ou de très grandes sorties, et diviser ces tâches en les répartissant sur des GPU de différentes tailles. C'est ce que nous appelons un service désagrégé : vous pouvez faire le pré-remplissage du contexte sur un GPU plus petit ou un calcul plus léger, puis effectuer le décodage sur un GPU plus puissant.

Nous travaillons également sur la gestion du cache KV [Key-Value], qui fonctionne comme une mémoire. Plus nous optimisons ce cache, qu'il soit stocké localement ou selon différents niveaux de mémoire sur ces systèmes, mieux nous gérons les ressources. Enfin, au niveau du stockage, du calcul et du réseau, les changements sont fondamentaux. Prenez les serveurs de stockage : quand avez-vous vu pour la dernière fois une innovation vraiment passionnante dans ce domaine ? Eh bien, cela arrive maintenant. Du calcul accéléré est maintenant intégré dans les nœuds des serveurs de stockage. Il y a une compréhension sémantique des fichiers et objets que vous y stockez, permettant de les présenter de manière plus intelligente.

Nvidia parle de plus en plus fréquemment de Physical AI. Est-ce la prochaine étape pour les agents IA ?

Quand vous me demandez ce qu'est un agent, je réponds qu'il perçoit, comprend, raisonne et agit. C'est exactement ainsi que nous définissons la robotique ou les agents physiques : la capacité des robots, véhicules ou appareils intégrés à percevoir, comprendre et agir, mais dans le monde physique, avec autonomie et intelligence. Nos agents virtuels évoluent dans le monde virtuel, tandis que les agents physiques apprennent le monde physique.

"Nous aurons besoin d'agents physiques pour nous assister dans les tâches quotidiennes"

Notre approche suit un modèle similaire avec ce que nous appelons "three computer" : l'entraînement de modèles, la simulation, puis l'edge pour le déploiement. Vous avez également les modèles de fondation du monde. Tout comme au cœur d'un agent virtuel se trouve un modèle d'IA générative, ces modèles de fondation du monde utilisent des modèles multimodaux pré-entraînés, conçus puis ré-entraînés et adaptés pour des tâches physiques. Prenez l'exemple de ramasser une canette : cette action implique des contraintes physiques comme la gravité, les surfaces, les environnements tactiles. L'entraînement de ces modèles de fondation du monde représente notre focus actuel.

Est-ce l'avenir des agents d'IA ? Je pense que oui, notamment face aux pénuries de main-d'œuvre. Nous aurons besoin d'agents physiques pour nous assister dans les tâches quotidiennes.