Comparatif des LLM open source : Llama 2 et Mistral font la course en tête

Comparatif des LLM open source : Llama 2 et Mistral font la course en tête Alpaca, Bloom, Falcon... Tour d'horizon des grands modèles de langue les plus populaires. Le point sur leurs principales qualités, notamment comparés aux modèles propriétaires.

Aux côtés des large language model (LLM) propriétaires tels GPT ou Claude, tout un écosystème de grands modèles de langue a vu le jour dans l'open source. Dans ce domaine, Llama est le projet le plus populaire. Un LLM signé Meta qui, depuis sa version 2 sortie en juillet 2023, est disponible sous licence Apache 2. Son principal avantage ? Cette licence donne la possibilité de de l'exploiter au sein d'une application commerciale.

Comme on va le voir, Llama 2 et Mistral 7B se démarquent en termes de performance. A leurs côtés, trois autres LLM open source se détachent : Alpaca, Bloom et Falcon.

Comparatif des LLM open source
  Alpaca Bloom Falcon Llama 2 Mistral 7B
Organisme à l'origine du projet Université de Stanford (Etats-Unis) Hugging Face (société franco-américaine) Technology Innovation Institute (Émirats Arabes Unis) Meta (Etats-Unis) Mistral (France)
Licence open source MIT License BigScience RAIL License Apache 2.0 Apache 2.0 Apache 2.0
Nombre de langues Anglais 46 Anglais, Allemand, Espagnol, Français 200 Anglais et français
Licence commerciale X X X X X
LLM source Llama 7B        
Nombre de paramètres 7 milliards 176 milliards 1,3, 7,5, 40, 180 milliards 7, 13, 34, 70 milliards 7 milliards
Sécurité       X  
Latence     X X X

"En termes de performance, les LLM open source arrivent très loin derrière les grands modèles de langue propriétaires", constate Stéphane Roder, CEO et fondateur du cabinet français AI Builders. Le plus massif des LLM open source, Falcon, se limite à 180 milliards de paramètres là où GPT-4 en compte, lui, pas moins de 1,76 trillion. "Partant de là, les LLM open source ne peuvent prétendre atteindre des niveaux de raisonnement aussi avancés comparé à GPT. Ils ne jouent pas dans la même catégorie", reconnaît Stéphane Roder. En témoigne le comparatif Flask, un benchmark qui fait référence sur le marché :

Comparatif Flask des LLM. © Capture/ JDN

Les résultats sont là. D'après le benchmark Flask, les LLM propriétaires les plus populaires, que sont GPT-4, GPT-3.5, Claude ou Bard, supplantent de très loin Llama 2 ou Alpaca. Le cadre d'évaluation prend en compte plusieurs critères :

  • La pensée logique, ce qui inclut la robustesse, la correction et l'efficacité logique,
  • Les connaissances préalables, c'est-à-dire les connaissances factuelles et la compréhension du sens commun,
  • La gestion des problèmes, qui renvoie à la compréhension, la pertinence, l'exhaustivité et la métacognition,
  • L'alignement avec l'utilisateur, entendez par-là la lisibilité, la concision et l'inoffensivité.

Certes, Flask ne prend pas en compte Falcon, Bloom ni Mistral 7B. "Mais si l'on prend GPT-4, compte tenu du nombre massif de paramètres du modèle d'OpenAI, ils ne peuvent pas rivaliser avec lui", tranche Stéphane Roder. "En revanche, des modèles open source pourraient très bien voir le jour dans des domaines spécialisés", ajoute le consultant, qui prend l'exemple de Phi-1.5. "Il s'agit d'un LLM open source de 1,5 milliard de paramètres développé par Microsoft dans la génération de code applicatif, et qui a été entrainé en 4 jours seulement", détaille Stéphane Roder. "Dans son domaine, Phi-1.5 atteint des performances équivalentes à celles de GPT-3.5. Ce qui est une prouesse."

Vers l'émergence de modèles spécialisés

Pour Stéphane Roder, on pourrait très bien voir émerger à l'avenir des communautés open source mutualisant de la puissance de calcul pour entrainer des modèles spécialisés en quelques jours. "C'est un scénario qui est tout à fait réaliste compte tenu de la tendance du monde open source à se fédérer autour de communauté de pratiques", ajoute l'intéressé.

Reste à comparer les LLM open source entre eux. Au match des architectures, c'est Falcon qui tient la corde avec ses 180 milliards de paramètres, contre 176 milliards pour Bloom. "Falcon est réputé très bon en termes de temps de latence", note Lionel Regis-Constant, consultant senior IA & transformation digital chez Smile. Autre avantage, le modèle du Technology Innovation Institute d'Abou Dabi a été conçu dès le départ pour fonctionner sur des environnements de production. "Il est notamment équipée d'une architecture REST qui facilite son intégration à des API. Il inclut également un dispositif de test unitaires", égraine Lionel Regis-Constant.

"Le modèle de Meta se limite à 70 milliards de paramètres. Ce qui lui confère des performances qui tiennent la route et des latences acceptables en production"

Se hissant en tête du benchmark Flask, Llama 2 tire son épingle du jeu. "Le modèle de Meta se limite à 70 milliards de paramètres. Ce qui lui confère des performances qui tiennent la route et des temps de latence acceptables en production", estime Guillaume Gérard, responsable de la GenAI pour l'Europe centrale et du sud chez Capgemini. Autre critère, le modèle open source de Meta est directement intégré aux clouds de Microsoft et d'Amazon. Ce qui lui donne un avantage en termes de déploiement opérationnel.

"Avec Llama, Meta a mis l'emphase sur la sécurité", ajoute Lionel Regis-Constant. "Le modèle est doté d'un mécanisme de récompense optimisant les réponses en vue de limiter leur degré de dangerosité pour l'utilisateur. Cela passe par l'apprentissage par renforcement mais aussi une architecture ad hoc." Harcèlement, vol, meurtre, terrorisme… Toutes les questions faisant référence à des actes répréhensibles seront bloquées par le modèle.

Mistral face à Llama 2

Qu'en est-il du LLM de Mistral ? "Ses performances en termes de pertinence sont identiques aux modèles d'entrée de gamme de LLama 2, et ce malgré un nombre de paramètres globalement nettement moindre. Il est du même coup potentiellement plus efficient comparé à ces modèles", résume Lionel Regis-Constant. Et Stéphane Roder de renchérir : "Avec 7 milliards de paramètres, Mistral promet des temps de réponse rapides. En même temps, il a été entrainé sur une durée de trois mois, ce qui prouve l'importance et la richesse de son corpus d'apprentissage."

Dans le détail, Mistral 7B fait mieux que Llama 2 13B, selon l'ensemble des benchmarks présentés par la start-up. Il performe également aussi bien que Llama 34B, alors que ce dernier a été entraîné avec 27 milliards de paramètres en plus (lire l'article Que vaut Mistral 7B, le premier modèle du concurrent français d'OpenAI ?). Mais Mistral ne va pas jusqu'à comparer son modèle avec la version la plus puissante de Llama qui, rappelons-le, compte 70 milliards de paramètres. Reste que la société parisienne pourra mettre en avant son origine française. Un élément crucial pour les entreprises tricolores en quête de plateformes de LLM souveraines et en phase avec leur culture.