Groq : vitesse, tarif, technologie… Tout savoir sur le potentiel tueur de Nvidia

Groq : vitesse, tarif, technologie… Tout savoir sur le potentiel tueur de Nvidia Grâce à des puces LPU, Groq accélère l'inférence des grands modèles de langage jusqu'à 18 fois. Une petite révolution.

Nvidia va-t-il se faire dépasser par un acteur disruptif sur le marché des puces dédiées à l'IA ? Fondé en 2016 par Jonathan Ross, l'américain Groq a développé des puces électroniques spécialement conçues pour l'inférence de modèles d'intelligence artificielle. Or, à l'heure actuelle, Nvidia détient un quasi-monopole sur le marché des GPU utilisés pour l'inférence des grands modèles de langage. La plupart des entreprises qui déploient ces modèles s'appuient majoritairement sur des infrastructures Nvidia. Pour réduire leur dépendance à la firme de Santa Clara, de nombreux acteurs, comme OpenAI, Google ou encore Microsoft investissent des milliards pour développer des puces spécialisées en IA. L'enjeu est important pour le leader des GPU, car l'inférence des modèles de langage représente une part croissante de son activité. Au point où l'action Nvidia s'est envolée de 225 % en un an (au 22 février 2024), parallèlement à l'explosion de l'IA générative. 

Si les géants de la tech misent sur le développement de leur propres puces, des startups se positionnent également sur ce créneau porteur. C'est présentement le cas de Groq. Et Jonathan Ross n'arrive pas de nulle part : il a participé chez Google au développement interne des TPU. Pour rappel, les Tensor Processing Unit ont été conçus par Google et utilisés en interne depuis 2015 avant d'être rendus publics en 2018. Ils sont conçus pour exécuter des calculs de machine learning de manière efficace et rapide.

Après avoir quitté Google, Jonathan Ross s'est lancé dans l'aventure des LPU. A contrario des TPU qui sont adaptés pour les tâches d'entraînement et d'inférence des réseaux de neurones, les LPU ont été spécialement conçus pour l'inférence de modèles d'intelligence artificielle à plusieurs milliards de paramètres et spécifiquement pour les LLMs. Ces puces de nouvelle génération ont pour but d'accélérer au maximum le temps de génération des modèles tout en maximisant l'efficacité les ressources nécessaires à l'exécution.

Jusqu'à 300 tokens par seconde avec Llama 2 70B

En 2024, le résultat est bien là : Groq offre des performances en inférence avec un LLM jusqu'à 18 fois plus rapide que la majorité des solutions proposées par les meilleurs cloud providers, selon le LLMPerf Leaderboard d'Anyscale. Avec Llama-2 70B, Groq atteint un débit moyen impressionnant de 184 tokens par seconde. Côté latence, Groq se hisse également parmi les premiers, affichant un temps moyen avant le premier token allant de 0,22 à 0,23 seconde. La start-up se targue même d'un record à 300 tokens par seconde depuis novembre 2023.

Avec les LLMs, Groq offre la vitesse la plus rapide en inférence. © Groq

Grâce à l'utilisation des LPU, Groq parvient à réduire drastiquement le temps de génération par mot processé. La génération globale d'un texte prend beaucoup moins de temps qu'avec un modèle qui serait inféré sur des GPU. Grâce à sa mémoire distribuée localement sur chaque puce, l'architecture LPU permet d'accéder aux énormes quantités de données requises pour l'inférence des grands modèles de langage, tout en étant plus efficace que des GPU.

Trois services commerciaux proposés

Groq ne se contente pas d'exposer les résultats exceptionnels de sa technologie. La start-up propose trois types de services :

  • GroqCloud, une offre permettant de requêter plusieurs LLMs via une API.
  • Groq Compiler, pour compiler ses propres applications en utilisant les LPU
  • La vente directe de puces pour des installations on premises

Groq supporte l'inférence de modèle via PyTorch, TensorFlow ou encore ONNX. Toutefois pour optimiser au mieux l'inférence grâce à un contrôle plus fin du LPU, l'entreprise conseille d'utiliser sa suite logicielle GroqWare.

Pour l'heure, la solution la plus intéressante pour expérimenter la vitesse d'inférence de Groq dans ses projets d'IA générative reste l'API, encore en version Alpha. Seuls les membres approuvés préalablement peuvent y accéder. Pour demander l'accès, un formulaire est disponible en ligne à l'adresse https://wow.groq.com/ L'API propose, au 20 février 2024, Llama 2 en version 70 et 7 milliards de paramètres avec un contexte de 4 096 tokens. Mixtral 8x7B est également disponible sur demande. Groq prévoit d'ajouter prochainement de nouveaux modèles et d'implémenter la possibilité d'utiliser une version fine-tunée de Llama 2, avec ou sans RAG.

Côté prix, le modèle Llama 2 70B, avec une longueur de contexte de 4096, est tarifé à 0,70 dollar en input et 0,80 dollar en output pour 1 million de tokens. Llama 2 7B, avec une longueur de contexte de 2 048, s'affiche à 0,10 dollar pour 1 million de tokens (input et output). Enfin, Mixtral, avec un modèle 8x7B SMoE et une longueur de contexte de 32K, est facturé 0,27 dollar pour 1 million de tokens (input et output).

Modèle

Vitesse

Prix pour 1M de tokens (input/output)

Llama 2 70B (Contexte de 4 096 tokens)

~300 tokens/s

0,70 $ / 0,80 $

Llama 2 7B (Contexte de 2 048 tokens )

~750 tokens/s

0,10 $ / 0,10 $

Mixtral, 8x7B SMoE (Contexte de 32 000 tokens)

~480 tokens/s

0,27 $ / 0,27 $

En comparaison, Llama 2 70B via le service Bedrock d'Amazon s'affiche à 1,95 dollar le million de tokens en input et 2,56 dollars en output. Soit une différence de 64% de moins chez Groq en input et 69% de moins en output.

Une interface de démonstration ouverte au public

Pour démontrer les performances exceptionnelles de ses puces LPU, Groq met à disposition du public une interface permettant de tester la rapidité d'exécution de Llama 2 70B 4k, de Mixtral 8x7B 32k et de Mistral 7B 8k (le modèle est hors ligne pour une mise à jour depuis plusieurs jours). L'interface est sobre et permet d'expérimenter assez fidèlement la rapidité de l'inférence offerte par le service. L'interface permet de configurer un prompt system et certaines variables d'exécution des modèles (nombre maximum de tokens en input / output, temperature, top P, top K…).

Une image contenant texte, capture d’écran, Police, documentDescription générée automatiquement
Groq affiche des vitesses de génération impressionnantes avec Mixtral et LLama 2. © Capture d'écran

D'après nos différentes expérimentations sur des tâches de génération de texte, Llama 2 70B 4k affiche une vitesse de 280 tokens par seconde quand Mixtral 8x7B tourne autour des 522 tokens par seconde. Une vitesse relativement stable dans le temps, malgré la forte demande des derniers jours.