Le dynamic speculative planning, la méthode pour réduire le coût des agents IA de 30%
Malgré des campagnes marketing à foison, les agents d'IA peinent à entrer en production dans les entreprises. Les raisons sont multiples mais deux facteurs reviennent régulièrement : le coût et le temps de réponse des modèles génératifs. Les systèmes agentiques nécessitent, en effet, des modèles de raisonnement lourds davantage consommateurs de tokens de par leur conception et plus lents à l'inférence.
Dans une tentative d'optimiser le fonctionnement du modèle cœur d'un workflow agentique, des chercheurs issus de plusieurs universités nord-américaines, de Microsoft et de DeepMind ont développé un cadre pour accélérer le workflow tout en réduisant les coûts d'environ 30%.
L'exécution spéculative au coeur de la méthode
La technique développée par les chercheurs consiste à améliorer l'exécution spéculative (ou ISP, Independent Speculative Planning). Cette dernière, plutôt que d'utiliser un seul modèle et d'attendre qu'il planifie et exécute séquentiellement les prochaines étapes, propose de réaliser la prédiction des n prochaines étapes en parallèle. Plus précisément, deux LLM sont utilisés : un modèle léger (A) pour réaliser la prédiction des n prochaines tâches, et un modèle plus lourd (B) pour vérifier et corriger si besoin les tâches produites par le modèle léger. Le tout est parallélisé pour maximiser la vitesse de réponse.
Concrètement, le modèle A exécute en avance les étapes du workflow agentique (les actions nécessaires à la résolution d'une tâche), tandis que le modèle plus robuste B vérifie ces étapes en parallèle. Si B détecte une erreur, les prédictions invalides sont interrompues et l'exécution reprend à partir de la dernière étape correcte. Le paramètre K définit le nombre maximal d'étapes qu'A peut spéculer avant validation : un petit K limite la part confiée au modèle rapide (favorisant la fiabilité de B), tandis qu'un grand K mise davantage sur A pour accélérer l'exécution, au risque de gaspiller des tokens en cas d'erreur. L'approche ISP consisteà fixer K manuellement selon le compromis recherché entre vitesse et précision. Or, fixer la valeur de K de façon arbitraire était peu optimal.
Le but des chercheurs était d'automatiser intelligemment le choix de K en l'adaptant dynamiquement à chaque tâche et à chaque étape du raisonnement, afin d'obtenir le meilleur compromis entre rapidité d'exécution et précision des résultats. Pour cela, les chercheurs ont développé un système d'apprentissage par renforcement en ligne qui entraîne un petit modèle de prédiction (DistilBERT) de manière continue et asynchrone pendant l'exécution. Le modèle apprend à prédire la valeur optimale de K pour chaque étape, sans nécessiter de phase de pré-entraînement. On parle désormais de Dynamic-Speculative-Planning ou DSP.
Les résultats sont là
Pour évaluer les performances du DSP et mesurer son impact sur les coûts et la précision, les chercheurs ont intégré leur méthode dans des workflows agentiques réalistes. Ils ont comparé trois configurations : l'exécution séquentielle classique, l'ISP avec des valeurs de K fixées manuellement, et le DSP avec ajustement dynamique. A chaque exécution, ils ont mesuré le coût total (nombre de tokens générés), le coût gaspillé (tokens invalidés par le modèle vérificateur), la latence de réponse et la qualité finale des résultats.
Et les résultats sont là. Avec le DSP, les chercheurs ont constaté une baisse du coût de l'ordre de 30% par rapport à une exécution agentique séquentielle (utilisée dans la majorité des cas d'usage sur le marché actuellement). Le tout avec une dégradation nulle de la précision par rapport à l'exécution standardisée. Le DSP permet donc, dans la théorie, de gagner 30% du coût (en moyenne) sur un workflow agentique classique, sans réduire la précision finale.
Comment mettre en place le DSP
La méthode peut être reproduite et adaptée à des cas agentiques d'entreprise. Les chercheurs ont publié le code du projet sur GitHub afin de permettre aux équipes intéressées d'expérimenter le DSP dans leurs propres workflows. Le dépôt contient le framework et les scripts de test utilisés dans leurs expériences (notamment sur les benchmarks de test OpenAGI et TravelPlanner), qu'il faudra adapter aux cas d'usage réels de chaque entreprise.
Pour leurs évaluations, les chercheurs ont utilisé en modèle A un LLM léger, rapide et peu coûteux, comme GPT-4.1-mini ou DeepSeek-chat, chargé de générer les prochaines étapes. Le modèle B, plus lourd, comme GPT-4.1-mini en mode ReAct (raisonnement) ou DeepSeek-reasoner, assurait la vérification et la correction des sorties du premier modèle. Enfin, pour la partie classification, c'est un petit modèle distinct (type DistilBERT) qui a servi de prédicteur afin d'estimer dynamiquement la valeur optimale de K.
Attention, la mise en œuvre nécessite des compétences en apprentissage automatique et une architecture technique assez complexe.