MMLU, MMMU, MATH… Quel benchmark d'IA générative pour quel cas d'usage ?
Avec des centaines de modèles d'IA inondant le marché et de nouveaux arrivants quotidiens, les benchmarks de modèles d'IA générative sont devenus essentiels pour comparer les performances des uns et des autres sur une tâche spécifique. Encore faut-il savoir quel benchmark regarder ! Pour vous aider, nous avons compilé pour vous les principaux benchmarks à analyser pour garantir l'accuracy du modèle sur votre cas d'usage précis.
Cas d'usage | MMLU | MMMU | MATH | MathVista | ARC-AGI | VQAv2/GQA | VideoQA | RealToxicityPrompts |
---|---|---|---|---|---|---|---|---|
Assistant conversationnel classique | X | X | X | |||||
Assistant conversationnel multimodal | X | X | X | X | ||||
Agent autonome | X | X | X | |||||
Agent autonome avec modalité visuelle | X | X | X | X | ||||
OCR et analyse de documents | X | X | X | |||||
Modération de contenus visuels | X | X | X | X | ||||
Modération de contenus textuels | X | X | ||||||
Analyse vidéo | X | X | ||||||
Analyse de données visuelles | X | X | X | |||||
Analyse de rapports | X | X | ||||||
Analyse de sentiments (multimodal) | X | X | X |
Pour les assistants conversationnels classiques, MMLU reste le benchmark de référence, notamment pour les compétences linguistiques et la culture générale. MATH permet d'évaluer le raisonnement mathématique, essentiel pour juger la profondeur analytique et la capacité de résolution de problèmes du modèle. Pour les assistants conversationnels multimodaux, MMMU reste également incontournable, avec une évaluation complète des capacités multimodales.
Pour les agents autonomes, le raisonnement est roi : MATH et ARC-AGI sont incontournables. ARC-AGI cible spécifiquement les tâches de raisonnement cognitif avancé, en évaluant la capacité d'un modèle à s'adapter intelligemment à des problèmes nouveaux, à partir de très peu d'exemples. Pour les autres cas d'usage spécifiques, qu'il s'agisse d'OCR, d'analyse de vidéos ou d'autres domaines techniques, il suffit de se référer aux benchmarks correspondants : VideoQA pour la compréhension vidéo, MMMU pour les tâches multimodales, ou des benchmarks visuels spécifiques selon les besoins précis.