Mamba, cette alternative aux transformers qui a fait ses preuves

Contrairement à la technologie utilisée par ChatGPT, Claude ou Mistral, Mamba est capable de prendre en compte des contextes jusqu'à 1 million de tokens. Contre 150 000 pour les transformers les plus puissants.

Historiquement, les grands modèles de langue s'adossent à la technologie des transformers. Comme un réseau de neurones récurrents (RNN), un transformer est taillé pour ingérer des données séquentielles. Schématiquement, il permet à la machine d'apprendre des séquences informatiques de manière automatique, sans avoir été programmée spécifiquement à cet effet. Le transformer est par conséquent bien adapté au traitement de suites de mots, et donc des langues. A la différence d'un RNN, un transformer n'implique pas cependant de traiter les informations sous forme de flux continu, en respectant par exemple l'ordre des mots dans une phrase. Partant de là, il peut paralléliser les calculs de sa phase d'entraînement. Ce qui lui permet d'ingérer des volumes massifs de données d'apprentissage en un temps réduit. Mamba reprend ce principe des transformers tout en en simplifiant le mode de calcul pour rendre l'exécution des résultats plus efficiente.

"Mamba est une architecture quasiment équivalente aux transformers hormis qu'elle ajoute une couche d'abstraction en plus", résume Didier Gaultier, patron de l'IA au sein d'Orange Business Digital Services. "Les transformers s'adossent à un produit scalaire de matrice pour mettre en œuvre leur mécanisme d'attention qui permet de prendre en compte le contexte d'un mot pour en saisir le sens. Grâce à ce dispositif, ils sont capables par exemple d'identifier que le terme avocat renvoie à un fruit plutôt qu'à un professionnel du droit dans un contexte donné. Du coup, il n'y aura pas de contresens possible." Ce processus de vectorisation implique une puissance de calcul colossale. De son côté, Mamba simplifie le mécanisme d'attention. Il introduit une astuce algorithmique qui réduit les dimensions de la matrice du modèle sans perte d'informations. "Il condense l'information de la matrice d'attention dans un espace moins étendu, ce qui aboutit à une rétro propagation du gradient qui est plus sélective", ajoute Didier Gaultier.

Gérer des fenêtres de contexte longues

"La grande force de Mamba est de pouvoir gérer des fenêtres de contexte longues ", insiste Yannick Léo, associé et directeur de la data science au sein du cabinet de conseil Emerton Data. "Mamba tout comme sa déclinaison Samba développée par Microsoft parvient à maintenir la performance des résultats tout en augmentant massivement le nombre de token en entrée du modèle jusqu'à 1 million." Dans le cas des transfomers, un nouveau token en entrée du modèle va être recompilé systématiquement avec l'ensemble des tokens de l'historique via une relation au carré. De leur côté, Mamba repose sur une croissance linéaire de l'inférence de la séquence, évitant l'explosion combinatoire du calcul d'attention des transformers. "A chaque nouveau token, le modèle se contente d'actualiser l'état couvrant l'historique des tokens utilisés via un mécanisme d'état qui permet de limiter le poids de l'algorithme", décrypte Yannick Léo. Résultats : une performance dégradée sur la mémoire courte, dans la mesure où un poids plus important est dédié à la mémoire longue, mais de facto une efficacité optimisée sur la mémoire longue.

Qu'en est-il en termes de performance d'exécution ? L'algorithme de Mamba étant linéaire, il enregistre mécaniquement une efficacité accrue en termes d'inférence.

"Samba reprend Mamba en l'ajustant avec une pincée d'attention au carré pour améliorer ses performances à court terme"

Quant à Samba, il prend le meilleur des deux technologies. Il a recours aux dispositifs de Mamba pour gérer la mémoire longue, et à des techniques d'attention proches des transformers pour la mémoire courte. "Il reprend Mamba en l'ajustant avec une pincée d'attention au carré pour améliorer ses performances à court terme", résume Yannick Léo.

Une initiative qui dynamise le marché

"Mamba et Samba ne sont pas des révolutions. La révolution interviendra à partir du moment où on sera capable d'encoder et de décoder des contenus multimodaux, texte, image, son et vidéo, au sein d'un même espace vectoriel. Ce qui permettra par exemple à un chatbot audio d'aller glaner des informations dans une base de texte en mode RAG sans latence. Aujourd'hui, cette gestion multimodale s'effectue via des passages successifs au sein de modèles différents", analyse Didier Gaultier. Et Yannick Léo d'insister : "Mamba et Samba permettent néanmoins de bénéficier d'une diversité d'approches concurrentes qui a son intérêt car elle permet de dynamiser le marché.

Reste à savoir pourquoi ces technologies ne se sont pas démocratisées à la hauteur des transformers ? "L'architecture du modèle importe moins que la qualité des données utilisées et que sa capacité à passer à l'échelle sur des volumes massifs de données. Ce que permettent de faire les transformers. Leur principal avantage réside dans la capacité à agglomérer des couches ainsi qu'à multiplier le nombre de paramètres" Les transformers ont par ailleurs fait l'objet d'avancées significatives dans la gestion des longs contextes. "On compte notamment la technologie RoPE (pour rotary position embedding, ndlr) qui, à travers les transformers, prend en compte les positions de long terme dans les contextes", reconnaît Yannick Léo.

Le directeur de la data science d'Emerton Data a également testé Jamba, le modèle hybride combinant les technologies Mamba et transformers mis au point par AI21 Labs. "Il est plug and play pour faire du fine tuning", reconnaît Yannick Léo. Ce modèle confirme la faisabilité de l'entraînement de Mamba à très grande échelle et les gains de performance de l'architecture sur des contextes longs, jusqu'à 256 000 tokens, soit environ 200 000 mots.