Que vaut Mixtral-8x7B, le challenger open source qui talonne les mastodontes de l'IA ?

Dotée d'une nouvelle brique technologique, Mixtral-8x7B offre des performances similaires à GPT-3.5 et Llama 2 70B. Son inférence ne nécessite que peu de ressources matérielles.

8 mois seulement après sa fondation, Mistral AI chamboule l'IA générative open source. Après avoir déployé Mistral-7B début octobre, la pépite européenne de l'IA a dévoilé Mixtral 8x7B, un LLM particulièrement novateur. Annoncé le 11 décembre, il rebat les cartes d'un point de vue technologique. Grâce à une architecture SMoE (Sparse Mixture of Experts), le modèle offre des performances supérieures à Llama 2 70B et GPT-3.5 d'OpenAI sur une multitude de tâches. Les chercheurs de Mistral AI ont misé sur l'optimisation du compute. Résultat, à performance égale, Mixtral 8x7B demande beaucoup moins de ressources matérielles.

SMoE, l'architecture qui change tout

Les performances de Mixtral-8x7B s'expliquent en grande partie par le choix de l'architecture SMoE. Contrairement à l'architecture Transformer classique, Sparse Mixture of Experts permet un découpage stratégique des performances. Lorsqu'un utilisateur soumet une requête (prompt) à Mixtral 8x7B, le modèle enclenche un processus plus ciblé et efficace. Le modèle dispose de 8 groupes d'experts distincts, chacun étant spécialisé dans différents aspects du traitement du langage. Pour chaque token du prompt, un réseau de routage sophistiqué sélectionne les deux groupes d'experts les plus pertinents pour le traiter, et combine leurs sorties de façon additive. Cette méthode permet au modèle de se concentrer sur les aspects les plus critiques de la requête, optimisant ainsi la qualité de la réponse tout en réduisant les coûts de calcul.

La véritable innovation de Mixtral réside dans sa capacité à gérer un grand nombre de paramètres (85 milliards au total) tout en maintenant une efficacité comparable à un modèle de 14 milliards lors de l'inférence. Cette efficacité est due au fait que pour chaque token, seule une fraction des paramètres totaux sont utilisés, un avantage clé par rapport aux modèles comme Llama 2 qui mobilisent l'ensemble de leurs paramètres pour chaque traitement. Côté données, l'IA de Mistral a été entraînée via un vaste dataset de données du web "ouvert". Cet entraînement exhaustif prépare en principe le modèle à exceller dans des tâches variées, comme la génération de code, la compréhension de texte multilingue, et le suivi d'instructions complexes, le tout en plusieurs langues (l'anglais, le français, l'italien, l'allemand et l'espagnol).

Le savoir-faire de Mistral AI combiné à l'architecture SMoE en font un véritable modèle de référence dans l'open source. Selon les benchmarks menés par les équipes de la start-up parisienne, Mixtral performe mieux que Llama 2 70B et GPT-3.5 sur une multitude de tâches. Sur le benchmark MMLU de questions à choix multiples couvrant 57 sujets, Mixtral 8x7B affiche un taux de réussite de 70,6%, légèrement supérieur aux 69,9% de LLaMA 2 70B et presque équivalent aux 70% de GPT-3.5. Mixtral se distingue aussi en programmation avec 60,7% de réussite sur MBPP contre 49,8% pour LLaMA 2 70B, et en mathématiques avec 28,4% de score contre 13,8% pour LLaMA 2 70B.

Mixtral est aussi bon que GPT-3.5 pour une grande variété de tâches. © Mistral AI

Mixtral, un texte plus humain que Llama

Pour expérimenter les performances du modèle, nous avons mené plusieurs tests en situation réelle. Pour ce faire, nous utilisons l'outil de playground de Vercel, qui permet de tester un prompt avec plusieurs modèles en même temps. L'outil utilise la version de Mixtral-8x7b déployée par Fireworks.ai avec un contexte de 4 096 tokens. Afin d'obtenir des résultats équivalents, nous réglons les modèles sur une température (degré de créativité) de 0.5 degré, et une réponse maximale de 1000 tokens.

Nous commençons par comparer le modèle avec Llama 2 70B de Meta. Nous demandons dans un premier temps aux deux modèles de produire un rapide résumé et un bref commentaire de texte d'un auteur de la littérature allemande : Freud. Première constatation, Mixtral génère beaucoup plus rapidement sa réponse que LLama 2. Sur le fond, le résumé et le commentaire de Mixtral sont également plus pertinents que ceux de Llama. Sur la forme, le texte produit par Mixtral est beaucoup plus riche. Le vocabulaire et le champ lexical sont variés. En bref, le résultat final est beaucoup plus humain.

Mixtral offre un texte plus humain que Llama 2. © Capture d'écran

Pour le second test, nous demandons aux modèles de générer un système d'authentification sécurisé en PHP. Les deux versions proposées sont valables et sont toutes deux fonctionnelles. Toutefois, le code de Mixtral semble plus complet et offre une sécurité plus poussée (vérification du mot de passe, utilisation de la fonction password_hash(), mesures de sécurité SQL...). La version de Llama est assez minimaliste et ne gère pas plusieurs cas d'exception. Le code généré est donc de meilleure facture avec le modèle de Mistral AI.

Llama 2 propose un code fonctionnel mais moins abouti que celui de Mixtral. © Mistral AI

Mixtral plus structuré que GPT-3.5

Nous comparons ensuite Mixtral à GPT-3.5 Turbo. Le but est ici d'évaluer la qualité du français et la structure textuelle des deux modèles lors de la génération d'un article complexe, en l'occurrence ici sur l'IA forte ou AGI. Les deux textes proposés sont de bonne qualité, GPT-3.5 est, en revanche, plus rapide. Mixtral a tendance à structurer son texte, quand GPT-3.5 propose une version plus libre. La version produite par l'IA d'OpenAI semble légèrement inférieure en termes de richesse de la langue. Comme à l'accoutumée, le modèle a tendance à ajouter de nombreux connecteurs logiques inutiles qui alourdissent le texte. Mixtral propose une écriture plus directe. Toutefois, sans raison apparente, le modèle français switche en fin d'article en anglais. Le dataset d'entraînement du modèle n'est-il pas assez diversifié en français ? La question reste ouverte.

Mixtral est plus structuré que GPT-3.5. © Capture d'écran

Mixtral-8x7B se montre à la hauteur des mastodontes que sont LLaMA 2 et GPT-3.5, tout en optimisant grandement les ressources nécessaires à l'inférence. Les tests menés révèlent des résultats prometteurs, avec la génération de textes globalement plus riches, structurés et pertinents. Si Mixtral pèche encore par quelques petites imprécisions, nul doute que les prochaines itérations corrigeront ces défauts. Et qui sait, l'année 2024 verra peut-être un modèle open source dépasser les performances de GPT-4.