Comment AWS adapte son infrastructure aux besoins en IA générative

Le cloud américain a choisi de développer ses propres cartes graphiques pour supporter les traitements d'IA générative. En parallèle, il commercialise néanmoins des instances Nvidia.

Si OVH construit ses propres serveurs, Amazon Web Services (AWS) va jusqu'à assembler et commercialiser ses propres GPU taillés pour l'IA générative. Dès 2020, AWS a choisi de proposer des cartes graphiques faites maison pour supporter les modèles d'IA. Il s'agit de Trainium pour l'entrainement et d'Inferentia pour l'inférence. Objectif affiché : proposer une voie à la fois plus performante et moins chère que le marché. Désormais, les deux cartes en sont à leur deuxième génération avec plus que jamais en ligne de mire l'IA générative.

Parmi les principales références d'AWS, son partenaire historique Anthropic (dans lequel Amazon a investi 4 milliards de dollars) a entraîné son modèle Claude 3 Haiku sur une infrastructure Trainium2. Résultat, la société de San Francisco aboutit à des temps de traitement de 60% plus rapides comparé aux GPU du marché. "Avec le modèle Llama, nous enregistrons avec Trainium2 des performances trois fois plus rapide que les autres cloud providers", ajoute Stephan Hadinger, director, head of technology chez Amazon Web Services.

Du côté des prix, Anthropic annonce un coût de 30% à 40% inférieur comparé à son infrastructure précédente. "Quant à la start-up d'IA générative parisienne Poolside, qui utilise elle aussi des Trainium2, elle enregistre des dépenses 30% inférieures. Idem pour Datadog avec jusqu'à 50% de baisse de coût", observe Stephan Hadinger, avant de prévenir : "Le résultat n'est pas immédiat. Il est nécessaire de recourir à des frameworks compatibles. Il y a également un travail de portage à réaliser."

Des cartes graphiques maison

Avec Inferentia et Trainium, l'objectif d'AWS est de proposer des alternatives aux cartes graphiques de Nvidia. Sachant que le provider ne se prive pas de commercialiser en parallèle des Nvidia H100, H200 ou A200. "L'idée n'est pas de s'opposer à Nvidia, mais de proposer un maximum de choix aux clients", soutient Stephan Hadinger. La stratégie est comparable à celle menée autour du processeur Graviton sur le terrain d'ARM. "Cette puce maison ne nous empêche pas d'être toujours partenaire d'Intel et d'AMD. Reste que Graviton est mieux optimisé en termes de consommation électrique. C'est aussi une alternative plus économique", assure Stephan Hadinger.

Autre point fort de l'offre d'infrastructure d'AWS dans l'IA générative, le groupe américain met en œuvre des clusters de GPU. Ces derniers peuvent regrouper jusqu'à 16 000 cartes H200 sur une grappe unique. En parallèle, AWS a développé la notion d'hyperpod pour gérer des infrastructures à grande échelle, qu'elles soient basées sur une souche Nvidia ou Trainium. La technologie sous-jacente permet de piloter le remplacement de GPU à la volée en cas de défaillance. Elle met également en œuvre des points de contrôle réguliers pendant le temps de calcul. "Si un GPU tombe en panne, le traitement sera relancé à partir du check point précédent. Ce qui minimise les traitements perdus suite à une panne de GPU", commente Stephan Hadinger.

"Si vous doublez ou quadruplez la capacité de calcul de chaque nœud, vous réduisez d'un facteur assez énorme le temps nécessaire à l'entraînement des modèles"

Le système de tolérance de panne en question est notamment mis en œuvre au sein de l'offre UltraClusters d'AWS. Compatible aussi bien avec les puces Nvidia que Trainium, cette architecture peut atteindre des dizaines de milliers de GPU. Elle permet par ailleurs de monter très haut en termes de mémoire et de bande passante par carte graphique, ce qui est particulièrement important pour l'entrainement. "Si vous doublez ou quadruplez la capacité de calcul et la bande passante de chaque nœud GPU, vous réduisez d'un facteur assez énorme le temps nécessaire à ce type de workload", souligne Stephan Hadinger.

Concernant l'accès aux datas, AWS commercialise S3 Express One Zone, une déclinaison de son service de stockage S3 offrant un accès aux données jusqu'à 10 fois plus rapide et à des coûts par requête jusqu'à 50% inférieurs. Résultat, la vitesse d'accès passe de quelques millisecondes à quelques microsecondes. L'objectif est d'optimiser le temps de chargement et de déchargement des données sur les nœuds des clusters d'entraînement. Au-dessus de son offre de GPU, AWS place son service SageMaker qui est taillé pour piloter ces derniers.

En parallèle, Amazon met en œuvre Neuron, un outil dessiné pour exécuter des traitements de deep learning et d'IA générative sur des instances Amazon Elastic Compute Cloud (Amazon EC2) alimentées par AWS Inferentia et Trainium. Il comprend un compilateur, des bibliothèques d'exécution, d'entraînement et d'inférence (notamment PyTorch, JAX et NxD Inference), ainsi que des outils de développement pour la surveillance, le profilage et le débogage. De quoi prendre en charge le cycle de développement du machine learning de bout en bout.

Priorité à la sécurité

L'offre d'instances réservées d'AWS est également disponible pour les GPU, "ce qui permet d'assurer aux clients qu'il sera bien livré et ainsi d'éviter les mauvaises surprises. Cette solution contribue dans le même temps à réduire les dépenses", pointe Stephan Hadinger.

Quid des priorités d'AWS en matière de GPU ? "Avant le pricing, c'est d'abord la sécurité, et de très loin. C'est ensuite la disponibilité, ce qui ne nous empêche pas d'afficher des prix compétitifs. C'est une politique que nous pouvons tenir grâce aux économies d'échelle. Nous avons aussi l'obsession de réduire la facture de nos clients. Des équipes entières travaillent sur ce point, y compris en France. Elles analysent les structures de coûts de chaque compte pour proposer des options tarifaires optimisées. Tout l'enjeu est de gagner la confiance des clients sur le long terme", argue Stephan Hadinger. Du coup, AWS pousse ses utilisateurs à adopter Trainium. "Ce qui se traduit par une baisse des coûts de 40% (comme évoqué plus haut, ndlr)", affirme Stephan Hadinger.

Du côté d'Amazon Bedrock, le service phare d'AWS dans l'IA générative, la tarification est calculée en fonction du nombre de tokens utilisés et non via une tarification à l'heure comme c'est le cas du service EC2 et de ses instances GPU. Ici, la logique est donc clairement orientée vers le serverless. Sachant que cette solution n'a pas la même finalité que SageMaker. Là où SageMaker et EC2 sont conçus pour entraîner les IA, Bedrock est taillé pour les utiliser en les adaptant si besoin. En matière d'IA générative, il propose les modèles d'AI21 Labs, Anthropic, Cohere, DeepSeek, Luma, Meta, Mistral AI ou encore Stability AI. Côté RAG, c'est là encore Bedrock qui est mis en avant par Amazon. Dans cette optique, le groupe propose plusieurs outils de base de données vectorielles. On comprend mieux l'articulation et le positionnement respectif de SageMaker et Bedrock.