Trois benchmarks pour évaluer la puissance des systèmes d'IA

Trois benchmarks pour évaluer la puissance des systèmes d'IA Quels sont les configurations les plus performantes pour gérer l'apprentissage des modèles, puis leur exécution ? Quid des moteurs de NLP les plus efficaces ? Des classements permettent d'y voir plus clair.

Au fur et à mesure de l'émergence de l'intelligence artificielle ces dernières années, les benchmarks se sont multipliés pour évaluer ses performances. Trois classements font désormais figure de référence sur le marché, chacun renvoyant à une étape du cycle de l'IA. Centré sur la phase de développement, MLPerf estime la capacité des infrastructures informatique à entrainer les réseaux de neurones. Très complémentaire, Xtreme mesure la vélocité intrinsèque des réseaux de neurones artificiels pour apprendre rapidement. Il cible plus particulièrement le traitement automatique du langage (NLP), l'un des domaines de l'IA les plus complexes. En aval, AI-Benchmark jauge quant à lui la qualité de service rendue en bout de course par les objets connectés et smartphones aux clients finaux.

Benchmark MLPerf (1er décembre 2021) 

La vocation du classement MLPerf ? Proposer un indice des architectures de calcul les mieux optimisées pour entrainer les réseaux de neurones. Il est porté par le consortium ML Commons qui regroupe aussi bien des acteurs de l'IA (Facebook, Google, Microsoft) que des constructeurs de matériel optimisé pour le machine learning (AMD, IBM, Intel, Nvidia).

Couvrant les librairies de deep learning les plus populaires (MxNet, PyTorch et TensorFlow), MLPerf s'articule autour de huit tests couvrant à la fois la vision par ordinateur, la reconnaissance vocale, le NLP et le reinforcement learning. Pour chacun, un modèle de référence a été retenu (cf. colonne de droite dans le tableau ci-dessous).

Les 9 tests de l’indice MLPerf
Domaine Benchmark Data set Modèle de référence
Vision Classification d'images ImageNet ResNet-50 v1.5
Vision Segmentation d'image médicale KiTS19 3D U-Net
Vision Reconnaissance d'image (poids léger) COCO SSD
Vision Reconnaissance d'image (poids lourd) COCO Mask R-CNN
Langue Reconnaissance vocale LibriSpeech RNN-T
Langue Traitement automatique du langage Wikipedia  BERT-large
Commerce Recommandation 1TB de Clics de logs DLRM
Recherche Reinforcement learning Go Mini Go 

Le classement MLPerf se décline en classements secondaires. Des palmarès centrés par exemple sur la performance des supercalculateurs (HPC) en matière d'apprentissage machine (étape de développement). Ou encore sur la vitesse d'exécution des modèles après leur déploiement, qu'il soit mis en œuvre sur des configurations HPC ou, à l'inverse, sur des nano-ordinateurs monocartes type Raspberry Pi. Certains acteurs, au premier rang desquels Nvidia, n'hésitent pas à brandir l'indice MLPerf comme argument commercial. Difficile de leur donner tort tant ce benchmark fait désormais référence dans le landernau de la data science.

Benchmark orienté NLP

Classement Xtreme
  Modèle de deep learning Editeur Moyenne Classification de texte  Saisie automatique  Gestion multilingue Identification de phrases
1 CoFe iFLYTEK 84.1 90.1 81.4 75.0 94.2
2 Turing ULR v5 Microsoft 83.7 90.0 81.4 74.3 93.7
3 InfoXLM-XFT Huawei 82.2 89.3 75.5 75.2 92.4
4 VECO + HICTL Alibaba 82.0 89.0 76.7 73.4 93.3
5 Polyglot ByteDance 81.7 88.3 80.6 71.9 90.8
6 Unicoder + ZCode Microsoft 81.6 88.4 76.2 72.5 93.7
7 ERNIE-M Baidu 80.9 87.9 75.6 72.3 91.9
8 HiCTL Alibaba 80.8 89.0 74.4 71.9 92.6
9 T-ULRv2 + StableTune Microsoft 80.7 88.8 75.4 72.9 89.3
10 Anonymous3 Anonymous3 79.9 88.2 74.6 71.7 89.0

Face à l'émergence de technos de NLP conçues pour gérer simultanément des dizaines de langues, Google a mis au point un benchmark  pour évaluer cette nouvelle génération de modèles. Baptisé Cross-lingual TRansfer Evaluation of Multilingual Encoders (Xtreme), il estime leurs capacités de traitement en couvrant 40 langues. Pour évaluer leur pertinence, il déroule neuf tests ciblant quatre grandes problématiques : la classification de textes, la saisie automatique, l'identification de phrases et, enfin, la réponse à des questions multilingues.

Ce qui intéresse les concepteurs de Xtreme, ce n'est pas la puissance de calcul ni la vitesse de traitement, mais bien la précision des résultats finaux comparé à ce qui est attendu. Pour être recevables, les tests doivent porter sur des modèles entrainés sur un processeur GPU unique, et s'étaler sur une journée maximum. "L'objectif est de rendre le benchmark abordable le plus largement possible dans la communauté, y compris à des équipes ne disposant pas de ressources de calcul importantes", indique le document de référence du projet.

Benchmark de l'IA des smartphones

Classement du machine learning des téléphones mobiles Android
  Modèle de smartphone Android Processeur Mémoire vive Indice de performance
1. Google Pixel 6 Pro Google Tensor 12GB RAM 303.6
2. Google Pixel 6 Google Tensor 8GB RAM 293.4
3. Huawei P50 Pro Kirin 9000 8GB RAM 234.6
4. Oppo Find X3 Pro Snapdragon 888 12GB RAM 205.4
5. Sony Xperia 1 III Snapdragon 888 12GB RAM 202.6
6. Samsung Galaxy S21 Ultra Exynos 2100 12GB RAM 202.1
7. Realme GT Neo2T MediaTek Dimensity 1200AI 12GB RAM 173.8
8. OnePlus Nord 2 5G MediaTek Dimensity 1200AI 8GB RAM 172.7
9. Huawei Mate 40 Kirin 9000E 8GB RAM 170.2
10. Realme GT Neo MediaTek Dimensity 1200 12GB RAM 155.8

Lui-aussi reconnu sur le segment de l'IA, le classement d'Ai-Benchmark passe au crible plusieurs centaines de smartphones Android. Seuls les 10 premiers sont publiés ici (cf. tableau ci-dessus). Pour dresser son indice, AI-Benchmark met les téléphones portables à l'épreuve de 46 tests, principalement centrés sur la vision par ordinateur : classification ou reconnaissance d'objets, reconnaissance faciale, reconnaissance optique de caractères, modernisation d'ancienne photo, défloutage, amélioration de la résolution d'images...

Pour chaque test, plusieurs indicateurs sont évalués par AI-Benchmark : temps d'initialisation, rapidité d'exécution, précision des résultats (cf. détails sur son site). Les principaux cas d'usage de l'IA sur smartphone concernant jusqu'ici la caméra, il n'est pas surprenant qu'AI-Benchmark ait choisi de se concentrer sur ce volet. Mais ses tests intègrent d'autres fonctionnalités à base d'IA, également prisées dans ce domaine, l'auto-complétion de texte par exemple. Aux côtés des smartphones, Ai-Benchmark applique également sa méthodologie aux processeurs dessinés pour l'IoT ou encore aux Socs (Systèmes sur une puce).

Bientôt le quantique

Chaque génération de système informatique aura vu émerger ses benchmarks. L'IA n'échappe pas à la règle. Qu'en sera-t-il de la prochaine génération de classements dans le secteur numérique ? Elle pourrait bien concerner l'informatique quantique dont l'avènement ne serait plus qu'une question d'années à en croire les chercheurs. Les premières ébauches de méthodes comparatives appliquées aux supercalculateurs quantiques ont d'ailleurs déjà vu le jour. Parmi les acteurs investis sur la question figurent IBM (ce n'est pas une surprise) mais aussi plusieurs start-up, dont Quantum Circuits et IonQ, qui viennent de publier conjointement un article sur le sujet.