Le deal Amazon-Cerebras, illustration de la nouvelle bataille du cloud : l'inférence de l'IA

Les géants américains de la tech pivotent de l'entraînement de l'IA vers l'inférence pour accélérer la démocratisation et la rentabilité de l'IA. Dernier exemple en date avec AWS.

Des puces Cerebras dans les centres de données d’Amazon : c’est le futur que dessine le partenariat signé mi-mars entre le géant du cloud et du commerce en ligne et la jeune pousse spécialisée dans les puces dédiées à l’inférence, c’est-à-dire le fonctionnement de l’IA au quotidien, par opposition à l’entraînement des grands modèles de langage.

Le Wafer Scale Engine 3, la puce phare de Cerebras, va permettre à Amazon de répondre plus rapidement et efficacement aux demandes des utilisateurs.

De Nvidia à Amazon, cap sur l’inférence

L’accord illustre un mouvement tectonique actuellement à l’œuvre dans le monde de l’IA : face à la puissance des grands modèles, et alors que les géants de la tech cherchent à rentabiliser leurs investissements massifs dans les centres de données, la priorité va de plus en plus à la démocratisation de la technologie auprès du public et en entreprise, ce qui implique de mettre le cap sur l’inférence pour abaisser les coûts d’utilisation de l’IA. "La baisse du coût du token au service de l’inférence est la prochaine bataille à mener dans l’IA", a confirmé Jensen Huang, patron de Nvidia, lors de sa keynote à l’événement GTC le 16 mars dernier.

Pour le dirigeant, l’avenir est à des centres de données transformés en "usines d’IA", dont le rôle principal n’est plus de stocker des données mais de générer des tokens le plus rapidement possible, au coût le plus bas possible. C’est dans cette optique que Nvidia a réalisé une acquisition déguisée sur la jeune pousse Groq, spécialiste de l’inférence, ce qui lui a permis de sortir sa première puce dédiée à celle-ci. Un cap hautement stratégique pour l’entreprise alors que certains de ses plus gros clients, dont OpenAI, ont récemment exprimé leur insatisfaction quant aux performances des puces Nvidia sur l’inférence.

Un choix logique pour Amazon

Pour Mike Demler, un expert indépendant des semi-conducteurs, Cerebras est un choix logique pour Amazon, qui vient avantageusement compléter ses puces maisons Trainium, focalisées comme leur nom l’indique sur l’entraînement des modèles. "Bien qu'AWS ait également annoncé récemment le déploiement de plateformes Nvidia et AMD, l'intégration de Cerebras lui permet d'ajouter un moteur d'inférence à sa propre plateforme Trainium. Les alternatives pour cette partie de la charge de travail agentique étaient Groq, qui s'est tourné vers Nvidia, SambaNova, qui est en partenariat avec Intel, ou l'un des autres acteurs émergents, comme d-Matrix. Mais Cerebras propose un système établi à l'échelle du rack, accompagné de son propre logiciel, ce qui en fait à ce stade la seule autre option vraiment crédible."

Les puces Cerebras comptent parmi les meilleures du marché dans ce domaine. Sur le grand modèle Llama 4 Maverick (400 milliards de paramètres), le cabinet indépendant Artificial Analysis a mesuré 2 522 tokens par seconde pour le CS-3, contre 1 038 pour le Blackwell B200 de Nvidia, et 794 et 549 respectivement pour SambaNova et Groq. La jeune pousse travaille par ailleurs avec des ténors de l’IA comme Mistral et OpenAI.

Amazon accélère sur l’IA pour rester dominant

Longtemps leader incontesté du marché du cloud, Amazon est actuellement en perte de vitesse face à ces deux principaux concurrents, Microsoft (qui a bénéficié de la technologie d’OpenAI grâce à ses investissements dans la jeune pousse) et Google, qui sont tous deux en avance sur l’IA par rapport au géant du commerce en ligne.

Si Amazon demeure leader avec une confortable part de marché de 29%, contre 20% pour Microsoft Azure et 13% pour Google Cloud, celle-ci a baissé depuis 2022 (34%) et son taux de croissance sur l’année écoulée (20%) est nettement inférieur à celui de ses rivaux (40% pour Azure et 34% pour Google). En effet, le cloud n’est plus seulement un moyen d’accéder à de la ressource informatique et logicielle à distance, mais aussi de déployer l’IA en entreprise. Un retard dans ce domaine est donc une faiblesse qu’Amazon ne peut pas se permettre.

C’est ce qui explique en partie le cap mis par l’entreprise sur l’IA, marqué par des investissements massifs dans les infrastructures et des licenciements stratégiques (30 000 postes supprimés entre octobre 2025 et janvier 2026). Un retard que le partenariat avec Cerebras va également contribuer à combler, selon Mike Demler. "Amazon ne dominera pas le marché en pleine expansion de l'inférence dans le cloud, mais le partenariat avec Cerebras lui offre une alternative compétitive", estime l’expert.

Offensive sur l’inférence désagrégée

Le partenariat entre Amazon et Cerebras constitue aussi une offensive sur l’inférence désagrégée, une architecture qui sépare les deux phases fondamentales de l'inférence (le prefill, qui traite l'intégralité du prompt en entrée et constitue une phase très intensive en calcul, et le decode, qui génère les tokens de réponse un à un) en les exécutant sur des ressources matérielles distinctes.

"L’architecture dataflow qu’emploie Cerebras permet d’exécuter la phase de decode de manière beaucoup plus efficace, en réduisant fortement la latence et en maximisant le débit de tokens. Ce gain de vitesse permet notamment d’augmenter le nombre de passes de raisonnement à l’inférence (test-time compute), et donc d’améliorer la qualité des réponses", explique Antoine Chkaiban, consultant chez New Street Research, un cabinet d'intelligence de marché. "Les principaux cas d’usage se situent dans le développement logiciel et la recherche scientifique, où la capacité à multiplier les passes de raisonnement à l’inférence améliore directement la qualité des résultats."

Séparer les deux phases permet en outre de les optimiser indépendamment, et donc de rendre l’IA plus efficace et moins coûteuse. Red Hat (IBM) intègre également la désagrégation dans OpenShift via llm-d.

"L’inférence désagrégée est le terme du moment. Lors de sa dernière keynote, Jensen Huang a montré comment Nvidia prévoit d'intégrer le LPU de Groq dans ses systèmes. C'est exactement la même logique pour AWS avec Cerebras, et d-Matrix a fait une annonce similaire la semaine dernière avec la startup neocloud Gimlet Labs. Il s'agit dans tous les cas de disposer d'un moteur à faible latence pour livrer des tokens dans une application d'IA agentique", détaille Mike Demler.