Dangerosité, hallucination, biais... Voici les pires modèles d'IA

Dangerosité, hallucination, biais... Voici les pires modèles d'IA La start-up française Giskard vient de dévoiler un benchmark mesurant les principaux défauts des modèles de langage les plus utilisés.

Quels sont les LLM qui présentent le moins de risque à l'usage ? La jeune pousse française Giskard s'est posée la question et présente Phare, un benchmark complet pour tenter d'y répondre. Publié en avril, ce dernier teste de façon relativement fiable le risque d'hallucinations, de génération de contenus toxiques ou encore de biais dans les réponses produites.

Les modèles d'IA aux pires défauts (plus le taux est bas, plus la note est mauvaise
Modèle Moyenne générale Hallucination Dangerosité (harmfull) Biais et stéréotypes Editeur du modèle
GPT-4o mini 63.93% 74.50% 77.29% 40.00% OpenAI
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

17 modèles ont été testés. Giskard a testé uniquement les principaux modèles du marché en donnant la priorité aux plus utilisés. "Nous préférons évaluer les modèles stables, largement utilisés, plutôt que de critiquer des versions non finalisées", justifie Alex Combessie le cofondateur et CEO de Giskard. Exit donc les dernières versions de Gemini ou la dernière mouture de GPT-4o (retirée par OpenAI d'ailleurs). Exit également les modèles de raisonnement qui, en plus d'être souvent expérimentaux, constituent une cible peu pertinente pour le benchmark.

Les pires modèles toutes catégories

Le premier classement de Phare donne des résultats relativement attendus et conformes aux différents retours de la communauté. Dans le top 5 des "pires" modèles testés (sur 17, donc), on retrouve GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B et enfin Llama 3.3 70B. A l'inverse, dans le classement des meilleurs modèles, on retrouve Gemini 1.5 Pro, Claude 3.5 Haiku et Llama 3.1 405B.

Les pires modèles en hallucinations

En considérant uniquement la métrique hallucination, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B et Llama 4 Maverick obtiennent les pires scores. A l'opposé, Anthropic fait fort avec 3 des modèles qui hallucinent le moins dans le top 5 : Claude 3.5 Sonnet, Claude 3.7 Sonnet, Gemini 1.5 Pro, Claude 3.5 Haiku et enfin GPT-4o (d'OpenAI).

Les modèles les plus dangereux

Côté génération de contenus dangereux (reconnaissance de contenus problématiques en input et réponse appropriée), c'est encore GPT-4o mini qui s'en sort le moins bien, suivi de Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 et Llama 4 Maverick. A l'inverse, Gemini 1.5 Pro reste le meilleur modèle suivi de près par les 3 modèles d'Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet, Claude 3.5 Haiku) et enfin de Gemini 2.0 Flash en cinquième position.

Les modèles les plus biaisés

C'est certainement la catégorie où la marge de progression est la plus importante. Les biais et stéréotypes des LLM sont encore très marqués selon les résultats communiqués par Phare. Grok 2 obtient la pire note, suivi de Mistral Large, de Mistral Small 3.1 24B, de GPT-4o mini et enfin de Claude 3.5 Sonnet. A l'opposé, Gemini 1.5 Pro obtient les meilleurs scores suivi de Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B et Llama 4 Maverick en dernière position.

Bien que le taille puisse impacter la génération de contenus toxiques (plus les modèles sont petits, plus ils ont tendance à générer des propos "harmfull"), le nombre de paramètres n'explique pas tout. "Nos analyses démontrent que la sensibilité à la formulation de l'utilisateur varie considérablement selon les fournisseurs. Par exemple, les modèles d'Anthropic semblent moins influencés par la formulation des questions que leurs concurrents, peu importe leur taille. La façon de poser la question (en demandant une réponse brève ou détaillée) a aussi des effets variables. Cela nous amène à penser que les méthodes d'entraînement spécifiques, comme l'apprentissage par renforcement basé sur les retours humains (RLHF), comptent davantage que la taille", nous explique Matteo Dora, CTO de Giskard.

Une méthodologie robuste

Phare teste les modèles en utilisant un jeu de données privé d'environ 6 000 conversations, avec seulement un sous-ensemble d'environ 1 600 échantillons rendus publics sur Hugging Face pour garantir la transparence tout en empêchant une potentielle manipulation de l'entraînement des modèles. Les chercheurs ont collecté des données dans plusieurs langues (français, anglais, espagnol) et créé des tests qui reflètent des situations réelles.

Pour la métrique hallucination, quatre sous-tâches sont testées :

  • la capacité du modèle à générer des réponses factuelles sur question de culture générale (Factuality)
  • la propension du modèle à  fournir des informations exactes lorsqu'il répond à des prompts avec des éléments initialement faux
  • la capacité du modèle à traiter des affirmations douteuses (pseudosciences, théories du complot)
  • la capacité du modèle à utiliser des outils sans halluciner (très utile pour l'usage du MCP par exemple)

Pour la métrique dangerosité ou vigilance (harmfulness), les chercheurs ont évalué la capacité du modèle à reconnaître les situations potentiellement dangereuses et à fournir des avertissements appropriés. 

Enfin pour la métrique biais et stéréotypes (bias & fairness), le benchmark se concentre sur la propension du modèle à identifier de lui-même les biais et stéréotypes générées dans ses propres sorties.

Une collaboration avec Mistral AI et DeepMind

Phare est d'autant plus pertinent qu'il s'attaque directement à des métriques essentielles pour les entreprises qui souhaitent utiliser des LLM. Sur son site les résultats précis de chaque modèle sont exposés publiquement en incluant également les sous-tâches. Il est même possible de comparer les résultats de deux modèles entre eux. Le benchmark a été soutenu financièrement par la BPI et la Commission européenne. Giskard s'est également allié avec Mistral AI et DeepMind sur la partie technique. Le framework LMEval pour l'utilisation a ainsi été développé en collaboration directe avec l'équipe chargée de Gemma chez DeepMind (ans aucun accès au données d'entraînement privée, évidemment).

Par la suite, l'équipe prévoit d'ajouter deux fonctionnalités clés à Phare : "Probablement d'ici juin, nous allons 'ajouter un module pour évaluer la résistance aux jailbreaks et à la prompt injection", nous confie Matteo Dora. Enfin, les chercheurs continueront d'alimenter le leaderboard avec les derniers modèles stables publiés. Prochains sur la liste : Grok 3, Qwen 3, et certainement GPT-4.1.