Trois benchmarks pour évaluer la puissance des systèmes d'IA
Au fur et à mesure de l'émergence de l'intelligence artificielle ces dernières années, les benchmarks se sont multipliés pour évaluer ses performances. Trois classements font désormais figure de référence sur le marché, chacun renvoyant à une étape du cycle de l'IA. Centré sur la phase de développement, MLPerf estime la capacité des infrastructures informatique à entrainer les réseaux de neurones. Très complémentaire, Xtreme mesure la vélocité intrinsèque des réseaux de neurones artificiels pour apprendre rapidement. Il cible plus particulièrement le traitement automatique du langage (NLP), l'un des domaines de l'IA les plus complexes. En aval, AI-Benchmark jauge quant à lui la qualité de service rendue en bout de course par les objets connectés et smartphones aux clients finaux.
Benchmark MLPerf (1er décembre 2021)
La vocation du classement MLPerf ? Proposer un indice des architectures de calcul les mieux optimisées pour entrainer les réseaux de neurones. Il est porté par le consortium ML Commons qui regroupe aussi bien des acteurs de l'IA (Facebook, Google, Microsoft) que des constructeurs de matériel optimisé pour le machine learning (AMD, IBM, Intel, Nvidia).
Couvrant les librairies de deep learning les plus populaires (MxNet, PyTorch et TensorFlow), MLPerf s'articule autour de huit tests couvrant à la fois la vision par ordinateur, la reconnaissance vocale, le NLP et le reinforcement learning. Pour chacun, un modèle de référence a été retenu (cf. colonne de droite dans le tableau ci-dessous).
Domaine | Benchmark | Data set | Modèle de référence |
---|---|---|---|
Vision | Classification d'images | ImageNet | ResNet-50 v1.5 |
Vision | Segmentation d'image médicale | KiTS19 | 3D U-Net |
Vision | Reconnaissance d'image (poids léger) | COCO | SSD |
Vision | Reconnaissance d'image (poids lourd) | COCO | Mask R-CNN |
Langue | Reconnaissance vocale | LibriSpeech | RNN-T |
Langue | Traitement automatique du langage | Wikipedia | BERT-large |
Commerce | Recommandation | 1TB de Clics de logs | DLRM |
Recherche | Reinforcement learning | Go | Mini Go |
Le classement MLPerf se décline en classements secondaires. Des palmarès centrés par exemple sur la performance des supercalculateurs (HPC) en matière d'apprentissage machine (étape de développement). Ou encore sur la vitesse d'exécution des modèles après leur déploiement, qu'il soit mis en œuvre sur des configurations HPC ou, à l'inverse, sur des nano-ordinateurs monocartes type Raspberry Pi. Certains acteurs, au premier rang desquels Nvidia, n'hésitent pas à brandir l'indice MLPerf comme argument commercial. Difficile de leur donner tort tant ce benchmark fait désormais référence dans le landernau de la data science.
Benchmark orienté NLP
Modèle de deep learning | Editeur | Moyenne | Classification de texte | Saisie automatique | Gestion multilingue | Identification de phrases | |
---|---|---|---|---|---|---|---|
1 | CoFe | iFLYTEK | 84.1 | 90.1 | 81.4 | 75.0 | 94.2 |
2 | Turing ULR v5 | Microsoft | 83.7 | 90.0 | 81.4 | 74.3 | 93.7 |
3 | InfoXLM-XFT | Huawei | 82.2 | 89.3 | 75.5 | 75.2 | 92.4 |
4 | VECO + HICTL | Alibaba | 82.0 | 89.0 | 76.7 | 73.4 | 93.3 |
5 | Polyglot | ByteDance | 81.7 | 88.3 | 80.6 | 71.9 | 90.8 |
6 | Unicoder + ZCode | Microsoft | 81.6 | 88.4 | 76.2 | 72.5 | 93.7 |
7 | ERNIE-M | Baidu | 80.9 | 87.9 | 75.6 | 72.3 | 91.9 |
8 | HiCTL | Alibaba | 80.8 | 89.0 | 74.4 | 71.9 | 92.6 |
9 | T-ULRv2 + StableTune | Microsoft | 80.7 | 88.8 | 75.4 | 72.9 | 89.3 |
10 | Anonymous3 | Anonymous3 | 79.9 | 88.2 | 74.6 | 71.7 | 89.0 |
Face à l'émergence de technos de NLP conçues pour gérer simultanément des dizaines de langues, Google a mis au point un benchmark pour évaluer cette nouvelle génération de modèles. Baptisé Cross-lingual TRansfer Evaluation of Multilingual Encoders (Xtreme), il estime leurs capacités de traitement en couvrant 40 langues. Pour évaluer leur pertinence, il déroule neuf tests ciblant quatre grandes problématiques : la classification de textes, la saisie automatique, l'identification de phrases et, enfin, la réponse à des questions multilingues.
Ce qui intéresse les concepteurs de Xtreme, ce n'est pas la puissance de calcul ni la vitesse de traitement, mais bien la précision des résultats finaux comparé à ce qui est attendu. Pour être recevables, les tests doivent porter sur des modèles entrainés sur un processeur GPU unique, et s'étaler sur une journée maximum. "L'objectif est de rendre le benchmark abordable le plus largement possible dans la communauté, y compris à des équipes ne disposant pas de ressources de calcul importantes", indique le document de référence du projet.
Benchmark de l'IA des smartphones
Modèle de smartphone Android | Processeur | Mémoire vive | Indice de performance | |
---|---|---|---|---|
1. | Google Pixel 6 Pro | Google Tensor | 12GB RAM | 303.6 |
2. | Google Pixel 6 | Google Tensor | 8GB RAM | 293.4 |
3. | Huawei P50 Pro | Kirin 9000 | 8GB RAM | 234.6 |
4. | Oppo Find X3 Pro | Snapdragon 888 | 12GB RAM | 205.4 |
5. | Sony Xperia 1 III | Snapdragon 888 | 12GB RAM | 202.6 |
6. | Samsung Galaxy S21 Ultra | Exynos 2100 | 12GB RAM | 202.1 |
7. | Realme GT Neo2T | MediaTek Dimensity 1200AI | 12GB RAM | 173.8 |
8. | OnePlus Nord 2 5G | MediaTek Dimensity 1200AI | 8GB RAM | 172.7 |
9. | Huawei Mate 40 | Kirin 9000E | 8GB RAM | 170.2 |
10. | Realme GT Neo | MediaTek Dimensity 1200 | 12GB RAM | 155.8 |
Lui-aussi reconnu sur le segment de l'IA, le classement d'Ai-Benchmark passe au crible plusieurs centaines de smartphones Android. Seuls les 10 premiers sont publiés ici (cf. tableau ci-dessus). Pour dresser son indice, AI-Benchmark met les téléphones portables à l'épreuve de 46 tests, principalement centrés sur la vision par ordinateur : classification ou reconnaissance d'objets, reconnaissance faciale, reconnaissance optique de caractères, modernisation d'ancienne photo, défloutage, amélioration de la résolution d'images...
Pour chaque test, plusieurs indicateurs sont évalués par AI-Benchmark : temps d'initialisation, rapidité d'exécution, précision des résultats (cf. détails sur son site). Les principaux cas d'usage de l'IA sur smartphone concernant jusqu'ici la caméra, il n'est pas surprenant qu'AI-Benchmark ait choisi de se concentrer sur ce volet. Mais ses tests intègrent d'autres fonctionnalités à base d'IA, également prisées dans ce domaine, l'auto-complétion de texte par exemple. Aux côtés des smartphones, Ai-Benchmark applique également sa méthodologie aux processeurs dessinés pour l'IoT ou encore aux Socs (Systèmes sur une puce).
Bientôt le quantique
Chaque génération de système informatique aura vu émerger ses benchmarks. L'IA n'échappe pas à la règle. Qu'en sera-t-il de la prochaine génération de classements dans le secteur numérique ? Elle pourrait bien concerner l'informatique quantique dont l'avènement ne serait plus qu'une question d'années à en croire les chercheurs. Les premières ébauches de méthodes comparatives appliquées aux supercalculateurs quantiques ont d'ailleurs déjà vu le jour. Parmi les acteurs investis sur la question figurent IBM (ce n'est pas une surprise) mais aussi plusieurs start-up, dont Quantum Circuits et IonQ, qui viennent de publier conjointement un article sur le sujet.