Entrer dans l'ère de l'IA avec le bon réseau

Les charges de travail liées à l'IA imposent des exigences élevées à l'infrastructure réseau - en termes de performances, de capacité ou de latence - et demandent des solutions efficaces de calcul.

Depuis plusieurs mois, l'IA générative connaît un essor sans précédent. De nombreuses entreprises travaillent désormais avec cette technologie, ainsi qu’avec le machine learning. Les datacenters constituent la base du bon fonctionnement de l’IA et leurs réseaux  jouent donc un rôle essentiel dans la connexion des serveurs GPU coûteux qui effectuent le traitement informatique intensif nécessaire pour l’entrainement de l’IA.

Cette phase d’entrainement est la partie du processus la plus difficile sur le plan technologique, en particulier pour les modèles de deep learning complexes qui nécessitent d’importants volumes de données et un traitement distribué par les GPU pour obtenir des performances optimales. L'entraînement d'un modèle de reconnaissance d'images de pointe peut par exemple nécessiter des millions d'images étiquetées. Si le réseau s’avère être un goulot d'étranglement, le temps de traitement coûteux est alors allongé et gaspillé. Pour accélérer cette phase, les GPU doivent être interconnectés dans une structure haute performance. Celle-ci est connue sous le nom de "back-end fabric" et prend en charge à la fois les clusters d'entraînement des GPU et les réseaux de stockage. Elle fournit ainsi un réseau haute performance à faible latence pour chaque service. Une fois le modèle entraîné, il est transféré à la phase d'inférence de l'IA, où il travaille dans un environnement réel pour faire des prédictions ou prendre des décisions sur la base de nouvelles données inconnues. Les clusters d'inférence d'IA restent connectés à des réseaux frontaux qui assurent la connectivité avec le monde extérieur, par exemple pour traiter les demandes des utilisateurs ou des appareils IoT.

Alors que les entreprises accélèrent leur mise en pratique de l’IA, la première question qu'elles devraient se poser reste donc de construire un tel réseau de datacenters pour gérer les charges de travail d'IA et de ML d'une manière performante et rentable - les GPU et InfiniBand devant être considérés comme des éléments de coût et de limitation.

Les GPU comme facteurs de coûts

Les clusters actuels d'IA et de ML sont constitués de centaines, voire de milliers, de GPU - nécessaires pour fournir la puissance de calcul massive et entraîner les modèles modernes.

Sachant que les GPU doivent travailler en grappes pour être efficaces, leur mise à l’échelle améliore bien-sûr l'efficacité du modèle d'IA mais augmente également les coûts. La réduction du temps d'exécution des tâches (JCT) et la minimisation ou l'élimination de la latence de queue sont donc essentielles pour réduire les coûts et augmenter la vitesse. Le JCT correspond au temps pour entraîner le modèle d'IA, et la latence de queue correspond à celui nécessaire au système pour attendre que le dernier GPU ait terminé ses calculs avant le début de l'entraînement suivant.

Une indépendance vis-à-vis des fournisseurs grâce à l'Ethernet ?

Compte tenu de la nécessité d'optimiser les performances des GPU, Ethernet s’impose comme une alternative de réseau ouvert de plus en plus importante pour les datcenters d'IA. Par le passé, InfiniBand, une technologie propriétaire de réseau à grande vitesse et à faible latence, était souvent le premier choix pour une communication rapide et efficace entre les serveurs et les systèmes de stockage. Cependant, Ethernet est de plus en plus utilisé en raison de ses avantages opérationnels et financiers. Contrairement à un réseau InfiniBand propriétaire, de nombreux professionnels sont en effet en mesure de mettre en place et d'exploiter un réseau Ethernet.

Cela s’avère donc être une solution idéale pour répondre aux exigences spécifiques des applications d'IA, en particulier grâce à son débit élevé et à sa faible latence. Les technologies réseaux sont en constante évolution, avec des innovations récentes telles que le 800 GbE et le Data Centre Bridging (DCB) qui augmentent la vitesse, la fiabilité et l'évolutivité. Les améliorations portent également sur la gestion de la congestion, l'équilibrage de la charge, la minimisation de la latence pour l'optimisation du JCT et la simplification de la gestion et de l'automatisation. Les tissus Ethernet sont donc des architectures idéales pour le trafic critique de l'intelligence artificielle.

La structure d'un réseau de haute performance

Différentes conceptions peuvent être utilisées pour mettre en réseau les datacenters d'IA. Pour optimiser la phase d’entraînement, il demeure recommandé d'utiliser une structure non bloquante "any-to-any". Elle est construite avec une vitesse de réseau constante de 400Gbps à 800Gbps depuis le NIC jusqu'aux couches leaf et spine. En fonction de la taille du modèle et de l'échelle du GPU, il est alors possible d'utiliser une structure non bloquante à deux couches et trois niveaux ou une structure non bloquante à trois couches et cinq niveaux.

En outre, d'autres concepts de conception augmentent la fiabilité et l'efficacité de l'ensemble de la structure. Il s'agit notamment d'interconnexions de tissu correctement dimensionnées avec un nombre optimal de liens et la capacité de détecter et de corriger les déséquilibres dans le flux de données afin d'éviter la congestion et la perte de paquets. La notification explicite de la congestion (ECN) avec la notification quantifiée de la congestion du centre de données (DCQCN) et le contrôle du flux de données basé sur la priorité garantissent un transfert sans perte.

L'équilibrage dynamique et adaptatif de la charge est utilisé au niveau du commutateur pour réduire les surcharges. L’approche dynamique redistribue en effet les flux de données localement au niveau du commutateur afin de les répartir uniformément. L'équilibrage adaptatif de la charge surveille le transfert des flux de données et les tables de sauts suivants pour identifier les goulets d'étranglement et rediriger le trafic hors des chemins surchargés.

Si une surcharge ne peut être évitée, les applications en sont informées par l'ECN à un stade précoce. Les commutateurs Leaf et Spine mettent alors à jour les paquets compatibles ECN pour informer les expéditeurs afin qu'ils puissent ralentir le transfert et éviter la perte de paquets. Si les points d'extrémité ne répondent pas à temps, le contrôle de flux basé sur la priorité permet aux récepteurs Ethernet de signaler la disponibilité de la mémoire tampon aux expéditeurs. Enfin, les commutateurs leaf et spine peuvent également mettre en pause ou réduire le trafic sur des connexions spécifiques pendant les périodes de surcharge afin de réduire la congestion et d'éliminer la perte de paquets, ce qui permet des transferts garantis sans perte pour certains types de trafic.

L'automatisation est l'élément final d'une solution d'IA efficace pour les datacenters. Elle est en effet utilisée dans la conception, le déploiement et la gestion de celui-ci. Elle peut alors automatiser le cycle de vie du jour 0 au jour 2+. En résulte par la suite des conceptions et des déploiements de datacenters d’IA reproductibles et validés en continu qui non seulement éliminent l'erreur humaine, mais utilisent également les informations de télémétrie et de flux de données pour optimiser les performances, faciliter le dépannage proactif et prévenir les temps d'arrêt.

L'IA se généralise, mais les entreprises et la société n'en sont encore qu'au début de l’exploitation de son potentiel. Quoi qu'il en soit, les réseaux de datacenters continueront à jouer un rôle important dans les décennies à venir, à mesure que les frontières de l'IA continueront à être explorées. Les solutions d'infrastructure d'IA qui offrent des performances élevées pour optimiser l'efficacité du GPU sont donc essentielles. Les tissus Ethernet dotés de technologies de réseau innovantes qui accélèrent le transfert de données et permettent des transferts sans perte s’imposent alors comme des facilitateurs clés - et peuvent véritablement contribuer à la révolution de l'IA.