Cette technique de prompting presque trop simple améliore tous les LLM (et Google l'a prouvé)

Trois chercheurs de Google Research ont testé une nouvelle technique de prompting, les résultats montrent des gains de précision dans 67% des cas, sans surcoût ni latence supplémentaire.

Et s'il existait une astuce toute simple, presque trop simple, pour rendre les LLM nettement plus précis ? Et cela sans que cela prenne plus de temps ni ne coûte plus cher ? Ce n'est pas une promesse marketing douteuse mais une nouvelle technique de prompting testée par trois chercheurs de Google Research et développée dans un papier de recherche. Les résultats obtenus sont clairs : répéter deux fois les instructions au sein d'un prompt améliore drastiquement les performances de l'ensemble des LLM testés. Le tout sans que la génération ne prenne plus de temps ni ne change le format de la réponse. Explication.

Le problème des LLM basés sur Transformer

Les modèles comme GPT, Gemini, Claude ou Mistral reposent tous sur l'architecture Transformer. Leur principe ? Lire et générer du texte token par token, de gauche à droite. Pendant la génération de texte, chaque nouveau token produit ne peut s'appuyer que sur les tokens précédents. Même lors du traitement initial du prompt, l'ordre des tokens influence la façon dont le modèle construit ses représentations internes. Concrètement, si vous écrivez un prompt du type "<CONTEXTE> <QUESTION>", le modèle traite d'abord le contexte puis découvre la question. Avec "<QUESTION> <CONTEXTE>", c'est l'inverse. Il lit la question avant d'avoir le contexte complet. Et cet ordre de traitement impacte directement la qualité des prédictions.

Certes, il existe des alternatives. Les modèles de diffusion pour le texte, par exemple, n'ont pas cette contrainte, ils génèrent l'ensemble de la réponse de manière itérative plutôt que séquentielle. Mais ces architectures restent encore largement expérimentales (Gemini Diffusion, par exemple) pour la génération de texte.

Face à ce constat, trois chercheurs de Google Research ont testé une approche d'une simplicité déconcertante : répéter deux fois les instructions dans le prompt. L'idée est qu’en répétant le prompt, le modèle peut établir des connexions entre tous les éléments, quelle que soit leur position initiale. Un élément en début de première occurrence se retrouve aussi en fin de deuxième. Le modèle traite l'information sous plusieurs angles. Simple, mais efficace.

Des résultats tangibles dans les benchmarks

Pour mesurer l’efficacité de cette technique de prompting, les chercheurs l’ont appliquée sur 7 modèles différents : Gemini 2.0 Flash, Gemini 2.0 Flash Lite, GPT-4o mini, GPT-4o, Claude 3 Haiku, Claude 3.7 Sonnet et Deepseek V3, en utilisant l’API des providers pendant deux mois. Les chercheurs ont évalué chaque modèle sur 7 benchmarks différents : ARC, OpenBookQA, GSM8K, MMLU-Pro et MATH et deux benchmarks créés pour l'occasion, NameIndex et MiddleMatch.

Les résultats de chaque modèle avec chaque benchmark. © Capture d’écran / JDN

Sur l'ensemble des tests réalisés, la répétition de prompt surpasse la méthode classique dans 67% des cas. Plus intéressant encore, dans aucun cas présenté, la répétition des instructions n’a détérioré les performances du modèle sur un benchmark. Et certains résultats sont spectaculaires. Gemini 2.0 Flash-Lite bondit de 21,33% à 97,33% de précision sur NameIndex (benchmark où il faut extraire une info précise au milieu d'une longue liste). Tous les modèles progressent. GPT-4o mini, Claude 3.7 Sonnet, Deepseek V3… la technique fonctionne partout.

La seule limite ? Les modèles de raisonnement. Lorsque l’on utilise la chaine of thought (CoT), l’efficacité de la technique se réduit nettement, voire dégrade les performances du modèle dans certains cas. Pour les chercheurs, cela s'explique par le fait que la CoT répète déjà spontanément le prompt dans son raisonnement, rendant la technique redondante. Une observation qui ouvre une piste intéressante : et si cette capacité à répéter le prompt expliquait justement en partie pourquoi la CoT offre des résultats drastiquement supérieurs à l'approche standalone ? Les chercheurs ne font pas ce lien, mais les données le suggèrent.

Répétez vos prompts, sauf avec les modèles de raisonnement

Concrètement, comment appliquer cette technique ? Le template le plus simple consiste à copier-coller votre prompt deux fois. "PROMPT><PROMPT>". Les chercheurs ont aussi testé des variantes plus explicites, comme ajouter "Let me repeat that:" entre les deux occurrences, sans différence notable de performance. En revanche, ils observent qu'une répétition triple donne des résultats nettement supérieurs sur certaines tâches spécifiques, notamment l'extraction d'information dans de longues listes. Mais pour la majorité des cas d'usage, la répétition simple suffit amplement.

La technique a un intérêt majeur, sa simplicité. Pas besoin de revoir son architecture, de fine-tuner un modèle ou de modifier son code. Les gains sont immédiats et mesurables. Les chercheurs de Google ne promettent rien de révolutionnaire, juste une astuce d'ingénierie qui fonctionne. Même en IA, les solutions les plus efficaces sont aussi les plus simples.