MMLU, MMMU, MATH… Quel benchmark d'IA générative pour quel cas d'usage ?

Voici les principaux benchmarks à analyser pour s'assurer de la précision d'un modèle d'IA générative sur votre cas d'usage.

Avec des centaines de modèles d'IA inondant le marché et de nouveaux arrivants quotidiens, les benchmarks de modèles d'IA générative sont devenus essentiels pour comparer les performances des uns et des autres sur une tâche spécifique. Encore faut-il savoir quel benchmark regarder ! Pour vous aider, nous avons compilé pour vous les principaux benchmarks à analyser pour garantir l'accuracy du modèle sur votre cas d'usage précis.

Les benchmarks à analyser selon votre cas d'usage
Cas d'usage	MMLU	MMMU	MATH	MathVista	ARC-AGI	VQAv2/GQA	VideoQA	RealToxicityPrompts
Assistant conversationnel classique	X		X					X
Assistant conversationnel multimodal	X	X	X					X
Agent autonome	X		X		X
Agent autonome avec modalité visuelle	X		X	X	X
OCR et analyse de documents		X		X		X
Modération de contenus visuels	X	X				X		X
Modération de contenus textuels	X							X
Analyse vidéo						X	X
Analyse de données visuelles		X		X		X
Analyse de rapports		X		X
Analyse de sentiments (multimodal)		X				X	X

MMLU (Massive Multitask Language Understanding) évalue les compétences linguistiques générales, MATH teste précisément les capacités de raisonnement mathématique, MathVista mesure la compréhension visuelle et la résolution de problèmes mathématiques, ARC-AGI analyse les capacités de raisonnement cognitif, VQA v2/GQA (Visual Question Answering) teste la capacité à comprendre et répondre à des questions basées sur des images, VideoQA évalue la compréhension de contenus vidéo, et RealToxicityPrompts permet de mesurer la propension du modèle à générer un contenu potentiellement toxique ou inapproprié.

Pour les assistants conversationnels classiques, MMLU reste le benchmark de référence, notamment pour les compétences linguistiques et la culture générale. MATH permet d'évaluer le raisonnement mathématique, essentiel pour juger la profondeur analytique et la capacité de résolution de problèmes du modèle. Pour les assistants conversationnels multimodaux, MMMU reste également incontournable, avec une évaluation complète des capacités multimodales.

Pour les agents autonomes, le raisonnement est roi : MATH et ARC-AGI sont incontournables. ARC-AGI cible spécifiquement les tâches de raisonnement cognitif avancé, en évaluant la capacité d'un modèle à s'adapter intelligemment à des problèmes nouveaux, à partir de très peu d'exemples. Pour les autres cas d'usage spécifiques, qu'il s'agisse d'OCR, d'analyse de vidéos ou d'autres domaines techniques, il suffit de se référer aux benchmarks correspondants : VideoQA pour la compréhension vidéo, MMMU pour les tâches multimodales, ou des benchmarks visuels spécifiques selon les besoins précis.