Plus rapides, plus sûrs et plus intelligents : après les LLM, place aux DLLM

Plus rapides, plus sûrs et plus intelligents : après les LLM, place aux DLLM Les diffusion large language model commencent à émerger sérieusement dans le paysage de l'IA générative. Ils promettent notamment des vitesses de génération record et une réduction drastique des hallucinations.

Après les LLM, une nouvelle famille de modèles d'intelligence artificielle générative fait progressivement son apparition. Les DLLM, basés sur une architecture diffusion, offrent dans la pratique des vitesses de génération largement supérieures aux LLM actuels. La qualité globale du texte ou du code généré est également significativement supérieure. Avec Gemini Diffusion, DeepMind a été mi-mai le premier acteur majeur du secteur de l'IA à dévoiler un modèle stable basé sur cette architecture.

DLLM : une architecture inspirée des modèles de génération d'images

L'approche DLLM a été popularisée par 5 chercheurs de Stanford en 2022. Ils cherchaient alors une technique pour mieux contrôler la sortie des LLM. L'architecture des DLLM s'inspire directement des travaux de recherche sur les modèles à diffusion pour la génération de contenus visuels. Comme un modèle d'images par diffusion qui part d'une toile de bruit (des pixels colorés de manière totalement aléatoire) pour sculpter progressivement l'image désirée, un DLLM commence par transformer le texte en bruit aléatoire sans structure, puis un transformer (l'architecture neuronale du modèle) apprend à éliminer le bruit étape par étape.

A chaque itération (cycle de débruitage), le modèle s'appuie sur la version partiellement débruitée et sur les instructions qu'on lui donne. Durant l'entraînement, il observe des paires "texte original / texte bruité" et apprend à prédire la correction optimale pour chaque étape de débruitage. Le résultat final est donc raffiné étape par étape pour arriver à une sortie cohérente sur l'ensemble du texte. Contrairement à un modèle LLM autorégressif (cas de Llama, GPT-4, Gemini…) qui génère le texte token par token, le DLLM génère le texte entier en un coup ou du moins sur de larges segments.

4 avantages majeurs

Les DLLM ont quatre avantages majeurs, à commencer par la vitesse globale de génération. Comme le texte n'est pas généré token par token mais bloc par bloc en parallèle, la réponse à un prompt est générée beaucoup plus rapidement. On atteint ainsi des vitesses de génération dépassant 1 000 tokens par seconde, soit 3 à 10 fois plus rapide que les LLM classiques basés sur des transformers (hors diffusion). Cette réduction significative du temps de génération impacte directement la consommation hardware : puisque le modèle sollicite moins longtemps les ressources comme la VRAM et le GPU, la dépense énergétique diminue d'autant.

La génération par bloc de texte permet également d'obtenir une cohérence globale beaucoup plus stable sur l'ensemble du texte généré. Au lieu d'être uniquement focalisée sur le token précédent avec un LLM standard, l'attention du modèle est entièrement concentrée sur le bloc à produire. L'ensemble du contexte est donc affiné petit à petit au fil du processus de débruitage. Concrètement, le texte ou le code généré est donc de meilleure qualité.

Par ailleurs, la construction du texte étape par étape par débruitage permet de suivre plus attentivement l'ensemble des instructions adressées dans le prompt initial. Chaque itération (débruitage donc) offre une version plus proche de la demande initiale.

Enfin, la diffusion permet également au modèle de mieux généraliser (comprendre et utiliser des relations indépendamment de leur ordre dans un texte), toujours grâce au traitement bloc par bloc. Par exemple, un LLM classique aura du mal à comprendre les relations inversées. (A est égal à B et donc B est aussi égal à A).

Gemini Diffusion : l'état de l'art du DLLM

Voyant certainement les nombreux avantages de l'approche par diffusion, DeepMind a développé une version de Gemini basée sur diffusion : Gemini Diffusion. Le modèle parvient à générer du texte à une vitesse de 1 479 tokens par seconde. Les premières démonstrations en génération de code notamment sont impressionnantes.

Le modèle performe particulièrement bien en développement. Il atteint des résultats proches et parfois supérieurs à Gemini 2.0 Flash-Lite. Avec quelques mois d'entraînement supplémentaires et une optimisation parfaite, comme DeepMind sait le faire, le modèle semble véritablement prometteur pour les développeurs. Pour l'heure, Gemini Diffusion en est encore au stade de la recherche. Il est accessible uniquement sur invitation. Nous avons pu l'essayé en avant-première : le résultat est véritablement bluffant. En quelques secondes, Gemini Diffusion génère des pavés entiers de code ou de texte. Assez surprenant.

D'autres projets commencent à arriver sur le marché, notamment dans l'open source avec, par exemple, MMmaDA (8 milliards de paramètres), un DLLM multimodal à raisonnement capable de comprendre et de générer du texte et des images.

Les DLLM seront certainement amenés à se multiplier dans les prochaines mois, au fil de l'évolution de la recherche. Leur vitesse de génération quasi-instantanée, principal atout, pourrait devenir clé pour la génération de code et dans un second temps pour l'agentique, qui demande une latence réduite pour devenir encore plus efficace. Ainsi potentiellement, un navigateur web contrôlé par un DLLM serait capable d'exécuter des tâches de façon beaucoup plus rapide que la génération actuelle (Operator par exemple).