Modèles de langage : quelles alternatives aux Transformers
Depuis la publication en 2017 de l'article "Attention Is All You Need", les modèles de type Transformer sont devenus l'ossature de l'IA générative moderne. ChatGPT, Claude, Gemini, LLaMA ou encore Mistral en sont tous issus. Grâce à leur mécanisme d'attention, ces architectures sont capables de capturer les relations entre tokens dans des séquences textuelles longues, favorisant des performances exceptionnelles sur les tâches de langage, de vision, de code ou de biologie computationnelle.
Mais à mesure que les modèles grossissent et que les contextes à gérer s'étendent, les limites des Transformers deviennent de plus en plus visibles. Coûts d'entraînement exponentiels, inférence lente, augmentation quadratique de la mémoire consommée en fonction de la longueur des entrées… Ces freins techniques, énergétiques et économiques ont poussé la recherche à explorer de nouvelles approches. Plusieurs alternatives crédibles émergent aujourd'hui. De Mamba à RWKV, en passant par les MoE et les architectures hybrides, tour d'horizon des nouvelles pistes qui pourraient supplanter les Transformers.
Mamba : l'efficacité linéaire des state space models
L'architecture Mamba, publiée en 2023 par une équipe du MIT et de Princeton, est l'une des alternatives les plus prometteuses. Elle appartient à la famille des state Space Models (SSM), des architectures inspirées des systèmes dynamiques utilisés en traitement du signal ou en automatique. Contrairement aux Transformers, dont la complexité mémoire est quadratique par rapport à la longueur de la séquence, Mamba est linéaire. Autrement dit, le temps de calcul augmente proportionnellement au nombre de tokens. Cette propriété est rendue possible par le remplacement du mécanisme d'attention par un système récurrent structuré, qui encode l'évolution de l'état interne du modèle au fil des entrées, sans avoir besoin de comparer tous les tokens entre eux.
Mamba repose sur une innovation clé : un système récurrent sélectif, capable d"'oublier" les informations inutiles et de se focaliser sur les signaux pertinents à chaque étape. Grâce à cela, les modèles Mamba peuvent traiter des séquences très longues (jusqu'à 1 million de tokens) tout en maintenant une performance compétitive. Sur des tâches variées (prédiction de code, modélisation de texte, données audio ou génomiques), Mamba-3B surpasse des Transformers de taille équivalente, et rivalise même avec des modèles deux fois plus grands, avec une vitesse d'inférence jusqu'à cinq fois supérieure.
Plusieurs entreprises ont commencé à exploiter ce paradigme. Mistral AI, la startup française à l'origine de Mixtral et Mistral-7B, a publié Codestral-Mamba, un modèle de génération de code reposant sur la deuxième version de Mamba. Ce modèle offre une gestion plus fluide des séquences longues et une efficacité d'inférence bien meilleure que les Transformers classiques. AI21 Labs, de son côté, a dévoilé Jamba, un modèle hybride mêlant blocs Mamba, Transformers avec la technologie Mixture-of-Experts (MoE).
Mixture-of-Experts : spécialisation dynamique pour réduire les coûts
Le principe des architectures Mixture-of-Experts est simple en apparence : au lieu d'activer tous les paramètres du modèle à chaque token, un système de sélection active uniquement une petite partie du réseau, soit les "experts" les plus pertinents. Cela permet de construire des modèles très puissants avec des milliards de paramètres, tout en réduisant considérablement le coût d'inférence. Lorsqu'un modèle MoE de 40 milliards de paramètres n'en active que 10% à chaque étape, la performance de l'inférence se rapproche de celle d'un modèle classique de 4 milliards de paramètres, mais avec une qualité bien supérieure.
Mistral a été l'un des premiers acteurs à démontrer la viabilité industrielle de cette approche. Son modèle Mixtral 8×7B repose sur huit experts de 7 milliards de paramètres, dont deux sont activés pour chaque token. Il rivalise avec des modèles bien plus massifs comme GPT-3.5 ou Claude 1, tout en offrant des latences et une efficacité mémoire bien plus intéressantes. AI21 Labs utilise également MoE dans son modèle Jamba, renforçant son adaptabilité sans alourdir l'inférence. Les Mixture-of-Experts sont particulièrement prometteurs dans les contextes industriels où la charge varie selon la tâche ou le type d'utilisateur.
RWKV : le retour des RNNs, modernisés
A l'opposé des technologie type Transformer et Mamba, l'architecture RWKV propose une voie originale : celle de la réinvention des RNNs. L'acronyme signifie Receptance Weighted Key Value, et évoque son inspiration mi-recurrente, mi-attentionnelle. RWKV fonctionne comme un Transformer pendant l'entraînement – en parallélisant le calcul GPU – mais comme un RNN lors de l'inférence. Cette propriété permet une génération séquentielle avec un état mémoire unique, sans avoir besoin de recharger ou recalculer l'historique à chaque étape. Cela rend RWKV extrêmement rapide à l'inférence, même sur des machines modestes.
RWKV est un projet communautaire open source, qui a connu une croissance rapide grâce à sa légèreté. Les versions récentes, comme RWKV-5 World, peuvent tourner sur des CPU avec moins de 3 Go de RAM, et sont utilisées dans des projets de chatbots embarqués, d'IA hors-ligne ou d'applications locales. Certaines applications éducatives ou médicales dans des zones à faible connectivité y ont recours également. Contrairement aux autres approches, RWKV vise explicitement l'accessibilité et la sobriété énergétique, tout en restant compétitif sur les tâches standards de génération de texte.
Bien qu'aucune entreprise majeure n'ait encore misé publiquement sur RWKV à grande échelle, des projets comme LM Studio, Ollama, ou LocalAI l'intègrent aux côtés de LLaMA ou Mistral. Cela témoigne d'un intérêt croissant pour cette architecture alternative, notamment dans les environnements où la latence, la consommation ou la confidentialité sont critiques.
Et demain ? Vers des architectures hybrides et modulaires
Si Mamba, MoE et RWKV incarnent chacun une réponse aux limites du Transformer, leur convergence semble aujourd'hui inévitable. Le modèle Jamba d'AI21 Labs en est un bon exemple : il combine sélectivement des blocs Transformer, Mamba et MoE, afin d'exploiter le meilleur de chaque monde. Certains chercheurs évoquent même l'idée d'un "Transformer 2.0" qui intégrerait des mécanismes inspirés de Mamba (linéarité), de RWKV (inférence streamable), et des MoE (adaptation dynamique). L'intelligence artificielle de demain pourrait être composite, en fonction des besoins : Transformer pour les séquences courtes, Mamba pour les textes longs, RWKV pour l'embarqué, MoE pour adapter dynamiquement la puissance.
Alors que les modèles de langage sont appelés à s'intégrer dans des milliards d'objets, de services et d'environnements hétérogènes, cette diversité architecturale apparaît comme une nécessité plus que comme une mode. Le monopole du Transformer touche probablement à sa fin, non pas parce qu'il est dépassé, mais parce que les défis contemporains de l'IA exigent plus de sobriété, de modularité et de scalabilité. Dans cette nouvelle ère, Mamba, RWKV et les modèles MoE ne sont pas des exceptions : ils annoncent une nouvelle norme.