Quelles sont les IA les plus compatibles avec l'AI Act ? Voici un premier classement

Quelles sont les IA les plus compatibles avec l'AI Act ? Voici un premier classement Les principaux modèles d'intelligence artificielle du marché répondent-ils aux exigences de l'AI Act ? Un framework open source, développé dans le cadre d'un partenariat public-privé, donne de premières clés de lecture.

Mon IA générative actuellement en production sera-t-elle conforme à l'AI Act ? C'est la question que se posent de nombreux responsables de l'IA à moins d'un an de l'application stricte du cadre réglementaire européen. En effet, en plus des contraintes de gouvernance, l'AI Act intime aux entreprises l'utilisation de modèles robustes, fiables, éthiques et transparents avec des critères souvent flous.

Pour tenter d'y voir plus clair, l'Ecole polytechnique de Zurich (ETH Zurich), l'INSAIT (institut pour l'informatique, l'IA et la technologie) et la start-up LatticeFlow AI (issue de de l'ETH Zurich) ont développé COMPL-AI, un framework open source. Ce dernier propose une interprétation technique des principes juridiques de l'AI Act au travers de critères axés autour de 6 thématiques principales : la transparence, le bien-être social et environnemental, la diversité, la non-discrimination et l'équité, la confidentialité et la gouvernance des donnée, la robustesse technique et la sureté et enfin le bénéfice humain.

Une première initiative non-officielle déjà saluée par les instances de l'UE. Thomas Regnier, porte-parole de la Commission européenne, évoque notamment un outil qui constitue "une première étape dans la traduction de la loi européenne sur l'IA en exigences techniques, aidant ainsi les fournisseurs de modèles d'IA à mettre en œuvre la loi sur l'IA."

Comment fonctionne COMPL-AI ?

COMPL-AI aborde le manque d'interprétation technique claire de l'AI Act en traduisant les exigences réglementaires générales en exigences techniques spécifiques, mesurables et applicables aux LLM. 18 exigences techniques clés ont été développées. Par exemple, l'exigence de robustesse est décomposée en benchmarks qui évaluent la résistance des modèles face à des perturbations d'entrée, à des données contradictoires ou biaisées. COMPL-AI relie ensuite ces exigences techniques à une suite de 27 benchmarks de pointe, permettant une évaluation quantitative des LLM dans le contexte de l'AI Act. Les résultats de chaque benchmark sont convertis en une valeur numérique comprise entre 0 et 1, où 1 représente la meilleure performance possible.

Une image contenant texte, ligne, Police, capture d’écranDescription générée automatiquement
Principe de fonctionnement de COMPL-AI. © Capture d'écran / JDN

Après avoir testé un modèle d'IA générative via sa suite de benchmarks, COMPL-AI ne se contente pas de fournir une note globale. Le framework va plus loin en générant un rapport détaillé des résultats pour chaque modèle évalué. Ce rapport est ensuite mis à la disposition du public sur le site web de COMPL-AI.

De premiers résultats surprenants

Pour l'heure les chercheurs ont déjà testé 11 des plus gros modèles du marché, notamment d'Anthropic, OpenAI, Meta, Google, 01.ai, Mistral, ou encore Qwen. Les résultats de chaque modèle sur les métriques techniques de l'AI Act ont été rassemblés sur un space Hugging Face sous la forme d'un Leaderboard. Pour l'heure, ce dernier se contente d'afficher les résultats des modèles sur les 18 critères techniques de l'AI Act. Plus intéressant, les chercheurs ont calculé et publié dans leur papier de recherche une moyenne des 18 indicateurs permettant, cette fois-ci, de classer les modèles par degrés de compliance à l'AI Act. Une moyenne calculée sans appliquer de coefficient, l'AI Act ne hiérarchisant pas explicitement les exigences.

Avec grande surprise, les modèles propriétaires américains font figure de bons élèves quand Mistral AI reste bien en retrait. Ainsi, GPT-4 Turbo se démarque avec le meilleur score global (0.81), excellent en robustesse (0.90) ainsi qu'en limitation de toxicité (0.98). Claude 3 Opus obtient la deuxième place avec une très bonne robustesse (0.81) et la meilleure interprétabilité (1.00). Il est légèrement en retrait sur la résilience aux cyberattaques (0.80). Llama 3 70B Instruct se classe troisième, montrant un bon équilibre général mais sans exceller particulièrement dans un domaine spécifique.

Enfin, les modèles de Mistral AI (Mistral-8-7B Instruct, Mistral-7B Instruct) se positionnent au milieu du classement. Bien que compétitifs, ils ne dominent dans aucune catégorie spécifique. De manière surprenante, bien qu'il s'agisse d'un modèle souverain européen, les résultats ne le positionnent pas comme le plus adapté pour répondre aux exigences de l'AI Act. Attention toutefois, tous les modèles Mistral n'ont pas été testés pour le moment.

Capture d'écran / JDN © Résultats finaux classés par moyenne générale.

Comment utiliser COMPL-AI ?

Pour utiliser COMPL-AI, les professionnels disposent de plusieurs options. Le framework open source est disponible sur GitHub, permettant une installation locale pour effectuer des tests personnalisés. L'un des principaux avantages de l'approche open source est la flexibilité qu'elle offre. Les utilisateurs peuvent modifier le framework pour l'adapter à leurs besoins spécifiques, par exemple en ajustant l'importance relative des différents critères d'évaluation.

Enfin il est possible de se fier aux résultats du leaderboard pour choisir d'adapter ou non son modèle d'IA générative avant le 1er aout 2025. Les chercheurs derrière COMPL-AI prévoient d'enrichir continuellement la base de données avec de nouveaux modèles. Pour l'heure les premiers résultats suggèrent que les modèles les plus performants en termes de conformité sont généralement ceux développés par les grands laboratoires d'IA. Un constat qui, espérons-le, n'est pas une fatalité.