Groq, Rivos, Cerebras… Devez-vous passer aux nouvelles puces dédiées à l'IA ?

Groq, Rivos, Cerebras… Devez-vous passer aux nouvelles puces dédiées à l'IA ? De nouvelles puces optimisées pour l'IA générative commencent à arriver sur le marché. Faut-il pour autant les adopter dès maintenant ? On fait le point.

Après celle des modèles d'IA, c'est une toute nouvelle course qui s'ouvre depuis quelques mois : l'optimisation des ressources. Pour réduire celles allouées à l'entraînement ou à l'inférence, les entreprises disposent de deux leviers principaux : réduire la taille des modèles en conservant de bonnes performances (via la quantization principalement) et agir au niveau hardware en optimisant l'architecture des puces. De Google à AWS en passant par IBM jusqu'au start-up les plus innovantes du secteur (Groq, Cerebras…), tous cherchent la puce qui pourra remplacer le GPU. De premiers modèles arrivent sur le marché : les entreprises ont-elles intérêt à les adopter dès aujourd'hui ?

L'intérêt des nouvelles puces 100% conçues pour l'IA

Alors que les GPU étaient initialement conçus pour le traitement graphique, ils ont ensuite été adaptés pour les calculs d'IA pour leur capacité à effectuer de nombreux calculs en parallèle. Contrairement aux GPU qui sont polyvalents, les puces IA sont conçues spécialement pour les modèles d'intelligence artificielle (des séries d'opérations matricielles). Par exemple, la puce de Groq, le LPU, se "distingue par une mémoire intégrée directement sur le silicium, quand le H100 de Nvidia opte pour une mémoire externe sur une puce séparée. Résultat, Nvidia offre plus de capacité mais au prix d'une consommation énergétique accrue", explique Nicolas Gaudemet, chief AI officer chez Onepoint.

De manière générale, les puces spécialement optimisées pour l'IA offrent une latence réduite et une consommation d'énergie minime. Des gains très concrets : à l'inférence sur les dernières puces Groq, Llama 3.1 70B est capable de générer du texte à une vitesse record de 450 tokens par seconde soit une latence vingt fois plus faible que sur un GPU classique Nvidia.

Un point limitant majeur

La spécialisation constitue à la fois le plus grand atout et la principale faiblesse d'une puce d'intelligence artificielle. Quand les GPU peuvent être utilisés autant pour l'entraînement que pour l'inférence, les puces spécialisées ne seront performantes qu'à l'inférence. Leur architecture hautement spécialisée les rend peu adaptées à la phase d'entraînement, qui nécessite une flexibilité importante notamment en matière de gestion de la mémoire. De son côté, le fine-tuning est envisageable mais reste complexe et sera souvent moins efficace (énergétiquement parlant) que sur un GPU traditionnel.

Pour autant tout n'est pas perdu. La recherche avance vite, de premières puces également optimisées pour l'entraînement pourraient voir le jour dans quelques années. "Nous travaillons actuellement chez IBM sur la prochaine génération de puces North Pole qui permettra un entraînement plus efficace des modèles. Dans les processeurs IA actuels, les données sont constamment transférées entre la mémoire et les unités de calcul, ce qui prend du temps et consomme de l'énergie. Avec NorthPole, l'idée est de stocker les données directement dans des matrices mémoire où les calculs pourront être effectués sur place, sans déplacement de données", illustre Laurent Vanel, cognitive systems technical leader au sein d'IBM.

Quand opter pour des puces IA ?

Les nouvelles puces d'IA doivent être utilisées pour des cas où la latence est centrale. "Les cas d'utilisation les plus pertinents sont généralement ceux impliquant des systèmes complexes similaires à celui utilisé pour les chatbots, où vous avez besoin de différents agents pour effectuer des tâches variées comme la recherche sur Internet, la création de diapositives, et d'autres tâches diverses", tranche Nicolas Gaudemet. La réduction de la latence permettra d'afficher plus rapidement la sortie finale du modèle à l'utilisateur.

Enfin, il est bon de considérer l'utilisation de puces d'IA dédiées si vous comptez mettre une ou plusieurs IA génératives à disposition à grande échelle. Outre la réduction de la latence, l'utilisation de puces optimisées permettra des gains concrets en matière de coûts d'acquisition et de possession (réduction de la puissance électrique nécessaire à l'alimentation). La production des puces d'IA est plus simple, avec un impact direct sur le prix de vente / de location. "En termes de conception, la grande majorité des transistors seront dédiés aux opérations d'IA, ce qui n'est pas le cas sur un GPU classique. Cela se traduit par des puces de conception plus simple et plus efficace. Sur une même surface, on peut en intégrer beaucoup plus, ce qui améliore également les performances", précise Laurent Vanel.

L'intégration dans un datacenter n'en sera également que plus économique. "Quand les B100, la prochaine gamme de GPU Nvidia, nécessitent un refroidissement à eau, les puces spécialisées IA peuvent être refroidies à l'air. Donc, si nous sommes capables de proposer des puces qui peuvent être refroidies plus simplement, cela contribuera également à réduire les coûts d'infrastructure et de fonctionnement", juge le spécialiste d'IBM.

Un marché encore en transition

Si les GPU restent incontournables pour l'entraînement des modèles, les puces dédiées gagnent donc du terrain dans l'inférence. Pour anticiper les prochaines évolutions, les entreprises doivent adopter une approche pragmatique et évaluer précisément leur besoin en fonction de leur cas d'usage tout en considérant le volume d'utilisation.

Pour l'entraînement de modèles d'IA à grande échelle, les GPU restent la meilleure option. En revanche, pour le déploiement de modèles en production, en particulier pour l'inférence à grande échelle, les nouvelles puces IA spécialisées offrent des avantages significatifs. Les entreprises qui ont besoin d'une latence minimale pour des applications en temps réel, comme les chatbots ou les systèmes de recommandation, devraient sérieusement envisager ces puces dédiées ou utiliser des services de token-as-a-service (comme l'API de Groq). Pour les organisations qui effectuent à la fois de l'entraînement et de l'inférence, les GPU restent encore en 2024 l'option la plus polyvalente.

Caractéristiques

GPU

Puces IA dédiées

Forces

- Polyvalent

- Puissant pour l'entraînement

- Largement adopté

- Efficace énergétiquement

- Rapide pour l'inférence

- Optimisé pour l'IA

Faiblesses

- Energivore

- Coûteux

- Moins bon en inférence

- Moins performant pour l'entraînement

- Écosystème limité

- Moins flexible

Idéal pour

- Entraînement de modèles

- Recherche en IA

- Inférence à grande échelle

- Applications en temps réel

On le rappelle toutefois, la situation n'est pas figée et ces conseils pourraient évoluer rapidement. L'année 2025 devrait notamment apporter son lot de bouleversements, notamment du côté des hyperscalers.