Chain-of-thought : cette technique qui permet au LLM de raisonner par lui même

Chain-of-thought : cette technique qui permet au LLM de raisonner par lui même Cette technique de prompting qui remonte à 2022 s'est largement démocratisée. Elle permet au large language model de développer une logique de pensée.

Le concept de chain-of-thought apparaît pour la première fois dans un article de Google daté de janvier 2022. Schématiquement, cette technique de prompting consiste à indiquer à un modèle d'IA générative comment décomposer un raisonnement. "Il s'agit de décliner la logique cible en forçant le LLM à réfléchir étape par étape", précise Amélie Chatelain, patronne de l'équipe head of applied AI au sein de l'expert français en LLM LightOn.

Initialement, les recherches démontrent qu'en ajoutant simplement à la fin d'un prompt "Let's think step by sept", on parvient déjà à améliorer le résultat final. "L'article de Google va plus loin. Il montre qu'en générant des exemples concrets de raisonnement, on améliore la qualité des réponses", souligne Amélie Chatelain. "Il s'agit d'apprendre au modèle à prompter pour raisonner sur des requêtes dont la réponse n'est pas immédiate. Sachant que cette technique ne concerne pas que les mathématiques, mais peut s'appliquer au sens commun" (Voir tableau ci-dessous extrait de l'article du Google).

Les prompts de chain-of-thought sont surligné. © Capture / JDN

Chez LightOn, on applique notamment la technique du chain-of-thought a des problématiques de classification de texte. "Le fait de demander au modèle comment il référence un texte permet d'améliorer ses performances", explique Amélie Chatelain. Autres domaines d'application évoqués : la synthèse de texte, voire la réécriture de texte en vue de coller à un style donné. Dans ce second cas, on pourra notamment demander au modèle quel mot il choisit pour obtenir ses résultats. Dans la traduction, on pourra par ailleurs lui demander de découper le texte en petit bout avant de fournir l'interprétation finale.

L'auto-chain-of-thought

Poussant plus loin l'exercice, les chercheurs ont introduit la notion d'auto-chain-of-thought (auto-CoT). Comme son nom l'indique, l'idée est d'automatiser la création de prompts de chaîne de pensées. A partir d'un data set de départ, ce process consiste à partitionner des séries de questions en clusters, puis à sélectionner une question représentative de chaque cluster et, enfin, à générer sa chaîne de raisonnement via le zero-shot-CoT à l'aide d'une heuristique simple. Objectif : encourager le modèle à utiliser des démonstrations à la fois concises et précises.

"Tout le travail de recherche aujourd'hui est d'aboutir à un taux de réussite de 80% à 90%"

"Désormais, tous les grands LLM sont équipés d'un tel dispositif qui leur permet de décomposer la question pour aboutir à la réponse la plus aboutie", explique Stéphane Roder, CEO et fondateur du cabinet français AI Builders. Problème, l'auto-CoT est confronté à un plafond de vers. "Quand on évalue les résultats, on atteint une réponse correcte dans 60% à 70% des cas. Tout le travail de recherche aujourd'hui est d'aboutir à un taux de réussite de 80% à 90%", explique Stéphane Roder.

Plusieurs techniques sont venues se greffer au chain-of-thought pour en améliorer les performances. L'auto-consistance vise par exemple à évaluer que les réponses livrées en partant d'une même requête vont dans le même sens. L'objectif étant de mesurer la robustesse du modèle. Découlant du chain-of-thought, le tree-of-thoughts génère quant à lui des arbres logiques. En ligne de mire : explorer différentes possibilités de raisonnement, avec pour objectif d'identifier la plus efficace en fonction du résultat recherché. Le tree-of-thoughts permet d'anticiper ou de revenir en arrière si besoin pour prendre de meilleures décisions. Reste que toutes ces techniques ne permettent pas encore d'atteindre les taux de réussite escomptés.

L'agent entre dans la danse

"Il est désormais possible de demander aux modèles de générer les résultats des prompts de chain-of-thought au format Json, avec une section dédiée aux étapes de raisonnement et une seconde consacrée au résultat. Ce qui permet de traiter l'une indépendamment de l'autre et de ne retenir que la réponse finale si besoin", note Amélie Chatelain.

La chaîne de pensée est aussi intimement liée à la notion d'agent. Les agents doivent en effet pouvoir planifier des actions à mettre en œuvre. Pour ce faire, leur logique doit être alignée sur ces actions. "Par exemple, si je demande à un agent l'évolution d'une métrique sur les dix dernières années, il faudra d'abord aller chercher les records historiques de celle-ci, puis extraire les valeurs avant de générer une courbe d'évolution", précise Amélie Chatelain. D'où l'intervention de la chaîne de pensée pour réaliser le processus. Et c'est là que le ReAct (pour reasoning and action) entre en jeu. Schématiquement, il consiste, à partir d'une requête donnée, à dérouler par raisonnement logique la série de tâches nécessaires pour y répondre.

Le concept de chain of thought s'est-il démocratisé ? La réponse est oui. L'article initial de Google est cité 6 800 fois depuis sa sortie en janvier 2022. La notion est désormais rentrée dans le vocabulaire courant de la plupart des datascientist.