A re:Invent, AWS met l'IA au service du cloud... et inversement
AWS le clame haut et fort : l'IA est le principal vecteur d'innovation du cloud. A l'occasion de sa conférence annuelle re:Invent à Las Vegas, le géant américain du cloud a dévoilé une série d'innovations dans ses services principalement axées autour de l'intelligence artificielle générative. Nouvelle puce pour l'IA, distillation de modèle, agents de code... Le JDN, présent sur place, vous donne les clés des principales nouveautés.
Répondre à la demande matérielle de l'IA générative
C'est un constat partagé par tous : les modèles d'intelligence artificielle générative occupent une place croissante dans la consommation des ressources cloud. Pour répondre à la demande toujours plus forte AWS est contraint d'adapter ses datacenters en proposant de nouvelles capacités pour l'inférence et l'entrainement des modèles d'IA. La première annonce majeure concerne le calcul avec l'arrivée des instances EC2 P6 équipées des derniers GPU Nvidia Blackwell. Ces instances, qui sont l'équivalent virtuel d'un serveur physique configurable à la demande, promettent des performances 2,5 fois supérieures par GPU par rapport aux P5. Elles seront disponibles début 2025.
En parallèle, AWS annonce l'arrivée de Trainium 2, sa puce maison pour l'entraînement des modèles d'IA, via les instances TRN2. Ces instances offrent 30% de puissance de calcul supplémentaire et plus de mémoire à bande passante élevée, le tout à un prix inférieur aux instances EC2 les plus puissantes. Chaque instance TRN2 intègre 16 puces Trainium 2 et délivre plus de 20 pétaflops de capacité de calcul. Plus impressionnant encore, AWS lance les serveurs Trainium 2 Ultra qui permettront d'obtenir les meilleures performances d'entraînement et d'inférence sur AWS pour les plus grands modèles. Ces serveurs offriront plus de 83 pétaflops dans un seul nœud de calcul. Le premier cluster utilisant cette technologie est actuellement en construction avec Anthropic et permettra une multiplication par cinq de la puissance de calcul par rapport à leur infrastructure actuelle. Enfin, AWS travaille sur l'arrivée de Trainium 3 (une nouvelle génération de puces dédiées à l'IA) en début 2025.
Distillation de modèle et système multi-agents
Côté software, Amazon Bedrock fait également le plein de nouveautés. Le service, qui permet de construire et déployer des applications d'IA générative, s'enrichit de trois fonctionnalités. La première est la distillation de modèle, une technique permettant de transférer les connaissances spécifiques d'un grand modèle vers un plus petit, rendant son exécution plus rapide et moins coûteuse. La deuxième innovation concerne la collaboration multi-agents : Bedrock peut désormais coordonner des centaines voire des milliers d'agents spécialisés travaillant en parallèle, supervisés par un "agent cerveau" qui orchestre l'ensemble des tâches. Assez prometteur sur le papier, cette fonctionnalité a notamment permis à Moody's de réduire de une semaine à une heure le temps nécessaire pour générer des rapports complexes d'analyse des risques financiers.
Enfin, AWS introduit le "raisonnement automatisé" dans Bedrock pour lutter contre les hallucinations des modèles. Cette technique permet de vérifier mathématiquement l'exactitude des réponses générées par les modèles. Si une inexactitude est détectée, le raisonnement automatisé peut corriger la réponse avant qu'elle ne soit transmise.
Amazon Q Developer fait le plein d'agents
Q Developer, la suite d'IA générative dédiée aux programmeurs fait, elle aussi, le plein de nouveautés. Un nouvel agent permet désormais d'automatiser l'ensemble du processus de génération et d'application des tests unitaires (test d'une partie du code seulement), une tâche particulièrement chronophage pour les développeurs. L'assistant peut également générer et maintenir la documentation technique du code, y compris pour les applications dont la documentation actuelle est assez pauvre. Les revues de code sont également optimisées grâce à l'IA qui peut désormais identifier automatiquement les vulnérabilités de sécurité, repérer les motifs de code suspects et évaluer les risques liés au déploiement.
AWS étend également les capacités de transformation de code de Q Developer. L'IA de Q Developer propose désormais un agent de transformation pour moderniser les applications écrite en .NET vers .NET pour Linux. Une automatisation qui serait jusqu'à 4 fois plus rapide tout en réduisant les coûts de licence jusqu'à 40%. L'assistant facilite également la modernisation des environnements VMware vers des instances AWS EC2 et la migration des mainframes. Enfin, Q Developer s'attaque à la résolution des incidents avec une nouvelle capacité d'analyse des données. L'assistant peut désormais enquêter sur les problèmes en temps réel, identifier les causes potentielles et suggérer des solutions.
Amazon Sagemaker se tourne vers l'analytique
Amazon Sagemaker, connu initialement comme un outil pour gérer des modèles de ML, devient une plateforme complète pour analyser les données. Le changement principal ? Un nouveau studio unifié qui permet d'accéder à toutes les données de l'entreprise depuis un seul endroit, qu'elles soient dans des bases de données AWS ou des applications tierces comme Salesforce et SAP.
AWS simplifie aussi la connexion aux données avec le zéro ETL : plus besoin de créer des systèmes complexes pour déplacer et transformer les données, tout se fait automatiquement. Un nouveau système de lake house permet également d'accéder facilement aux données stockées dans différents endroits du cloud AWS. L'objectif est simple : permettre aux équipes d'analyser leurs données et de créer des modèles d'IA depuis un seul outil, sans avoir à jongler entre différentes interfaces.