3 raisons de se passer des GPUs pour traiter les workloads d'inférence IA

La plupart des modèles d'IA étant entraînés et déployés, les GPUs sont-ils encore au goût du jour pour faire face à la prochaine évolution de l'intelligence artificielle: l'inférence.

Il ne fait aucun doute que l’intelligence artificielle redéfinit les workloads aujourd’hui. D’après le cabinet de conseil Next Move Strategy(1), le marché des technologies d’IA atteignait 200 milliards de dollars (soit 188 milliards d’euros) en 2023 et il devrait atteindre la barre des 1,8 billion de dollars (soit 1,7 billion d’euros) d’ici 2028. 

Depuis au moins un an, une grande partie du marché était centrée sur l’entrainement de l’IA, ce qui nécessitait des GPUs de haute performance pour développer des modèles prêts à l’emploi. La plupart de ces modèles étant entraînés et déployés, le marché est désormais mature pour la prochaine évolution de l’intelligence artificielle, à savoir la phase d’inférence

Ce tournant a en réalité déjà démarré. Une projection de D2D advisory estime que l’inférence IA représente 85% du marché de l’intelligence artificielle, alors que l’entraînement de l’IA n’en représente plus que 15%.  

L’essor de l’inférence IA requière de redéfinir fondamentalement la puissance de calcul nécessaire à ces nouvelles charges de travail. Même si les GPUs restent essentiels pour l’entraînement de l’IA, les utiliser pour l’inférence de l’IA n’est pas le meilleur choix.  

Le passage aux CPUs (et donc l’absence de GPU) pour traiter l’inférence a 3 avantages : obtenir de meilleures performances, être une solution accessible et rentable à longs terme, consommer moins d’énergie et ainsi contribuer à réduire la demande en énergie des centres de données. 

Les réseaux d’énergie actuels ne peuvent pas répondre durablement à la demande d’inférence IA basée sur les GPUs  

D’après l’Agence Internationale de l’énergie(2), en 2022 les centres de données représentaient environ 2% de la consommation mondiale d’énergie. D'ici 2026 cette part pourrait plus que doubler et atteindre 4,6 % de la consommation mondiale d’énergie. 

Alors que le besoin d'énergie augmente, l'accès à l'électricité se réduit considérablement, particulièrement en Europe où le prix de l’électricité a récemment atteint des sommets historiques. Nous avons d’ailleurs vu des moratoires sur les nouvelles constructions de datacenters en Ireland et en Angleterre, car la demande dépasse l’énergie disponible sur le réseau.  

Dans cet environnement complexe, l'utilisation de GPUs énergivores pour les workloads d'inférence de l'IA ne fera qu'aggraver les enjeux de durabilité auxquels nous sommes confrontés. Les CPUs —en particulier les CPUs Cloud Native conçus spécifiquement pour les workloads d’inférence – permettront d’obtenir plus de puissance de calcul dans les datacenters existants, et par conséquent limiter les nouvelles constructions et la consommation d'énergie supplémentaire. 

Les GPU sont trop gourmands en calcul pour l'inférence en IA 

En plus de nécessiter plus de puissance, les GPUs sont très gourmands en calcul lors du traitement de l’inférence de l’IA. Les applications d’inférence étant des charges de travail moins exigeantes et ne nécessitant pas la puissance de traitement d’un GPU, l’utilisation d’un GPU à cette fin est similaire à l’achat d’une voiture de sport pour votre trajet du matin. Lorsque l’inférence est traitée sur un GPU, seulement une toute petite partie de sa capacité est utilisée. Comme les GPUs consomment plus d'énergie et sont plus chers, remplacer un GPU par un CPU permet d'économiser de l'énergie, de l'espace et de l'argent. 

Dans une récente comparaison, un modèle Whisper d'OpenAI exécuté sur le CPU cloud native d’un fournisseur offrait des performances jusqu'à 2,9 fois supérieures à celles d'un certain nombre de solutions basées sur GPUs. 

Un rapport coût/revenu à prendre en considération pour le déploiement à grande échelle les modèles d’inférence IA  

Les GPUs existent en quantité limitée sur le marché, cela les rend d'autant plus onéreux. D’après le Wall Street Journal, 50 milliards de dollars (soit 47 milliards d’euros) ont été dépensés dans les GPUs l’année dernière pour entrainer des modèles d’IA avancés, mais ces investissements n’ont généré que 3 milliards de dollars en revenus (soit 2,82 milliards d’euros). L'inférence de l'IA représentant jusqu'à 85 % des charges de travail de l’IA, cet écart entre les dépenses et les revenus deviendra rapidement insoutenable pour la plupart des entreprises si elles utilisent des GPU pour alimenter les workloads. 

Contrairement aux GPUs, les CPUs sont aujourd’hui plus facilement accessibles sur le marché pour répondre aux besoins des entreprises. Ils peuvent être achetés auprès de fabricants d'équipement d'origine (OEM) ou de fournisseurs cloud. Ils sont aussi nettement plus abordables. 

CPU : un choix évident pour traiter l’inférence IA 

S’il n’existe pas de meilleure alternative aux GPUs pour l’apprentissage de l’IA, quand il s’agit de la phase d’inférence, l’industrie doit repenser toutes ses solutions de calcul pour déployer l’inférence à grande échelle et entrer dans la deuxième phase de l’évolution de l’IA.  

Proposer de meilleures performances pour les workloads d’IA, tout en consommant moins d’énergie et en nécessitant moins d’investissement, les CPU sont le choix évident pour alimenter la prochaine phase de l'ère de l'IA. 

(1) Next Move Strategy, Report Artificial Intelligence Market, 01.2023 : https://www.nextmsc.com/report/artificial-intelligence-market 

(2) International Energy Agency, Electricity 2024 – Analysis and forecast to 2026, 01.2024 : https://iea.blob.core.windows.net/assets/6b2fd954-2017-408e-bf08-952fdd62118a/Electricity2024-Analysisandforecastto2026.pdf