L'orchestration de modèles, une IA augmentée… réservée aux plus riches
Inaugurée par ChatGPT, l'orchestration de modèles donne naissance à une toute nouvelle catégorie d'intelligence artificielle. Le point sur son fonctionnement.
Combiner des IA en vue d'aboutir à une intelligence artificielle encore plus puissante, telle est l'ambition de l'orchestration de modèles. Une méthode qui permet d'aboutir, de facto, à des résultats qu'une IA unique ne pourrait pas atteindre seule. Cette voie, qui a été inaugurée par ChatGPT fin 2022, commence à sortir plus largement des laboratoires de recherche.
ChatGPT reste la référence en matière d'orchestration de modèles. Il en sollicite au total quatre. En amont, il fait appel à un modèle d'embendding non-supervisé pour vectoriser les mots. Ensuite vient un apprentissage auto-supervisé pour le traitement du langage. A ces deux premières couches s'ajoute un mode d'entrainement supervisé sur la base de grands ensembles de données labélisées. Son objectif ? Gérer des scénarios de plus haut niveau : répondre à une question, converser en mode chatbot, résumer un texte... Dernier étage de la fusée, l'apprentissage par renforcement soumet les réponses fournies par ChatGPT à des experts humains, qui attribuent aux résultats une notation. Une évaluation sur la base de laquelle le bot affine sa pertinence.
Le mélange de modèles
Certes, les data scientists avaient depuis plusieurs années déjà la possibilité de faire appel à différents modèles depuis une même application, mais il ne s'agissait pas à proprement parler d'orchestration. Cette technique s'appelle le blending ou mélange en français. "Il s'agit typiquement de réaliser une prédiction en combinant les résultats de plusieurs modèles de base, par exemple des modèles de classification ou de régression", explique Alexander Mikheev, data science tech lead chez Saegus. L'objectif ? Affiner un résultat en synthétisant diverses méthodes d'apprentissage.
"L'orchestration de modèles est une démarche très différente. Elle consiste à faire appel à plusieurs modèles, chacun spécialisé dans un domaine", explique Stéphane Roder, CEO et fondateur du cabinet français AI Builders. En amont, un large language model (LLM) orchestrateur se charge d'interpréter la demande de l'utilisateur. Puis, il la décompose en tâches. Pour ce faire, il s'adosse à la technique dite de la chain-of-thought. "Elle renvoie à sa capacité à dérouler un raisonnement en ordonnant différentes étapes logiques", explique Alexander Mikheev. Une fois cet ordonnancement réalisé, le LLM orchestrateur va attribuer à chaque tâche le sous-modèle correspondant. Le tout est codé automatiquement. "D'où le qualificatif de programmation inférencielle", résume Stéphane Roder.
"Les LLM spécialisés seront encapsulés dans des outils, ou agents, qui solliciteront chacun une source différente d'informations", détaille Stéphane Roder. "Lors d'une requête à propos d'un client par exemple, un premier outil encapsulant un sous-modèle mettra en forme les données sur ce client provenant d'une application de CRM. Un second outil doté d'une passerelle vers un ERP fera remonter le chiffre d'affaires réalisé avec ce client, et ce en mettant le contenu en question en forme via son propre modèle spécialisé." Et ainsi de suite (voir le schéma ci-dessus).
Une logique multi-agent
De même, le LLM orchestrateur pourra se connecter à un moteur de recherche pour dénicher des connaissances d'actualité. Objectif : se donner les moyens de répondre à une question postérieure à sa base d'entrainement. Typiquement, ChatGPT peut faire appel à Bing pour traiter une requête dont la réponse n'est pas présente dans sa base d'apprentissage historique, qui s'étend jusqu'à septembre 2021. "Si je lui demande quelle est la différence d'âge entre Charles III et son épouse Camilla Parker Bowles, il devra aller glaner la réponse en passant par le moteur de Microsoft, notamment pour savoir qui est Charles III dont le sacre a eu lieu le 6 mai 2023", illustre Stéphane Roder.
Un prompt bien connu, baptisé Reasoning and acting (ou React), est conçu pour décrire le processus d'orchestration des modèles et autres outils tiers. Il permettra de formaliser la question initiale tout en facilitant la déclaration des applications et sous-modèles auxquels le modèle principal aura accès. Reste que le LLM orchestrateur n'est pas à la portée de toutes les bourses. "L'orchestration ne fonctionnera qu'à partir d'un modèle comptant plus de 100 milliards de paramètres, et encore ce n'est pas garanti", prévient Stéphane Roder. "Pour l'heure, GPT est l'un des seuls LLM à pouvoir atteindre sans discussion le niveau de performance requis."
Des frameworks d'orchestration
De nombreuses infrastructures de développement ont vu le jour dans l'optique de gérer l'orchestration des modèles d'apprentissage. C'est notamment le cas d'AutoGen, d'AutoGPT, de BabyAGI, de ChatDev, de LlamaIndex, de MetaGPT ou encore de Transformers Agents (édité par Hugging Face). Ces frameworks mettent en musique une logique multi-agents en vue de faire intervenir plusieurs modèles de concert. En amont, un agent pourra par exemple jouer le rôle d'assistant de programmation générant du code Python. Un deuxième agent aura pour mission de réviser le code généré. Puis un troisième de le déployer. L'humain pouvant interrompre le processus à chaque étape pour le corriger ou l'adapter. En parallèle, on peut imaginer que ces services aient accès à des outils externes, l'équivalent de plugins ChatGPT comme Code Interpreter pour interpréter le code couleur d'une image ou Wolfram Alpha pour réaliser des calculs en langage naturel.
Edité par Microsoft, AutoGen est dessiné pour prendre en charge des scénarios et des architectures potentiellement plus complexes, comme la gestion d'échanges entre agents de LLM ayant chacun des positions hiérarchiques différentes. "Par exemple, un agent de LLM de gestion de discussion de groupe pourrait modérer les conversations entre utilisateurs humains d'une part, et agents de LLM spécialisés d'autre part. Le tout en leur transmettant des messages de modération selon un ensemble de règles prédéfinies", détaille-t-on chez Microsoft. L'orchestration de modèles et les logiques d'IA multi-agent ouvrent décidemment de toutes nouvelles perspectives.