L'IA rebat les cartes de l'infrastructure IT

Mirantis

Alors que le monde s'empresse de déployer des modèles d'IA toujours plus performants, l'infrastructure technologique en place atteint à l'évidence ses limites.

Les clouds publics et les sites de colocation actuels n’ont pas été conçus pour des modèles intégrant 40 milliards de paramètres, nécessitant des densités de 100 kW par rack ou générant des inférences en temps réel au profit de plusieurs milliards d’utilisateurs.

Des architectures de calcul haute performance (high-performance computing, ou HPC) spécialisées pour l’IA, parfois appelées néoclouds, se font jour. En attendant, les entreprises adaptent à grands frais les datacenters existants, dont elles prolongent ainsi la durée de vie de conception prévue.

L’infrastructure en place n’est plus adaptée aux charges de travail de l’IA

La plupart des installations de colocation, de même que les plateformes cloud de première génération, ont été pensées pour les besoins d’une informatique d’entreprise généraliste : sites web, charges de travail monoserveur et applications client/serveur, imposant des solutions d’hyperconvergence pour le calcul, le stockage sur disques SSD et les interconnexions à 25 Gbit/s ou 40 Gbit/s. Or, dans les datacenters traditionnels, la densité de puissance des racks est généralement plafonnée à 5–10 kW — la distribution d’énergie, le refroidissement et les installations de secours étant modulés en conséquence. Si ces limites étaient gérables avec des charges de travail classiques, elles ne sont absolument pas viables avec l’IA.

L’IA rebat les cartes

Les charges de travail IA (notamment l’entraînement de modèles et l’inférence en temps réel) remanient fondamentalement la conception des  datacenters. Ce changement se traduit concrètement par trois grandes évolutions:

De gigantesques besoins en densité de puissance – Un système DGX H100 peut aisément consommer plusieurs kilowatts, soit plus de 25 kW en rack de quatre. Cette densité correspond à la consommation totale d’électricité de certains petits datacenters.

De nouvelles techniques de distribution d’énergie, de sauvegarde et de refroidissement – Des densités de cet ordre exigent d’autres unités de distribution d’énergie (PDU), systèmes de sauvegarde et solutions de refroidissement. Les opérateurs font état de mises à niveau majeures, dépassant largement la fourchette des 5 à 10 kW caractéristique de la conception des systèmes classiques. Le refroidissement par air se révélant bien souvent inefficace, les techniques liquide ou hybride sont envisagées de plus en plus sérieusement.

De nouvelles contraintes de bande passante et de mise en réseau – Les charges de travail IA exigent des interconnexions à 100–400 Gbit/s, de type InfiniBand ou RoCEv2 avec accès direct à la mémoire à distance (RDMA) sur les réseaux Ethernet, contournant les processeurs pour opérer des transferts directs de GPU à GPU (itsabout.ai). Cela suppose de repenser le câblage et les matrices de commutation et de planifier rigoureusement la topologie.

L’infrastructure doit être calibrée de bout en bout : circuits aérauliques, espacement des racks, routage des câbles, sans oublier la capacité de charge du plancher aux fins d’éviter les pannes occasionnées par les vibrations des GPU.

La gravité des données met fin au modèle cloud

Le modèle cloud traditionnel reposait sur le transfert des données pour les besoins des calculs. Avec l’IA, c’est tout l’inverse.

L’entraînement des modèles fondateurs requiert plusieurs péta-octets de données propriétaires : interactions avec la clientèle, journaux des capteurs, documents internes, archives R&D. Transférer autant de données est une opération interminable, onéreuse et risquée. Les calculs doivent être effectués là où résident les données — en colocation sur les référentiels de l’entreprise ou en périphérie. De plus en plus, cela revient à intégrer des capacités centralisées à des nœuds distribués à proximité des sources de données.

La nouvelle économie du processeur graphique

L’offre de processeurs graphiques (GPU), lesquels jouent un rôle central dans les calculs pour l’IA, est restreinte : NVIDIA réserve ces circuits électroniques intégrés à la clientèle qui s’engage à acheter de gros volumes, dans le cadre de contrats pluriannuels. Les petites entreprises, elles, les acquièrent souvent à des tarifs élevés auprès de distributeurs.

Les néoclouds regroupent la demande, centralisent l’accès et fractionnent les GPU, favorisant ainsi une participation élargie. L’avantage est désormais dans le camp des fournisseurs, qui s’assurent ainsi de solides débouchés conjugués à une diffusion efficace de leurs produits.

Entraînement ou inférence : le prochain retournement

L’essentiel de l’infrastructure reste optimisé pour l’entraînement — à savoir des tâches de longue haleine où le rendement au watt importe davantage que la réactivité. Mais ce rapport de force évolue.

Les analystes font observer que si l’entraînement continue à occuper une place prépondérante, les charges de travail d’inférence progressent rapidement et risquent de distancer prochainement l’entraînement.

Or, l’infrastructure doit prendre en charge ces deux aspects. Les systèmes exclusivement destinés à l’entraînement resteront à la traîne. L’informatique en périphérie (edge computing) positionne les ressources au plus près des utilisateurs et des données, améliorant ainsi la latence, la résilience et l’expérience client.

La marche à suivre par les entreprises à l’heure actuelle

Comment les prestataires de services cloud et les entreprises peuvent-ils relever ces défis ?

Traiter l’offre d’infrastructure IA dans sa globalité: Les entreprises doivent concilier au mieux l’entraînement (création de nouveaux modèles), l’ajustement (adaptation de modèles open source) et l’inférence (applications générant des résultats). Dans nombre d’entre elles, l’inférence primera, jouissant de l’appui de bases de données vectorielles et de la génération augmentée par récupération (RAG) pour l’expertise de domaine.

Définir des objectifs de niveau de service (SLO): Pour chaque scénario d’utilisation d’une offre (entraînement, ajustement, inférence), fixez des règles de latence, de débit, de disponibilité et de résidence des données. Servez-vous en pour séquencer vos investissements et sélectionner les placements rentables.

Établir des modèles comparatifs Coût total de possession/Retour sur investissement: Évaluez les réaménagements, les achats auprès de fournisseurs de colocation ou de prestataires néocloud, ou la location horaire d’instances GPU dans le cloud. Modélisez les dépenses d’investissement (coûts de mise en place et de mise à niveau) par rapport aux dépenses d’exploitation (électricité, refroidissement, assistance). Intégrez une analyse de sensibilité (test d’hypothèses) et le risque de capacités non amorties (infrastructure sous-utilisée). Ces modèles aident les directions financières et les conseils d’administration à mettre en balance les décisions d’investissement en fonction des résultats financiers.

Sécuriser très tôt l’approvisionnement en énergie: Scellez des contrats d’achat d’électricité sur le long terme garantissant une alimentation en continu, comme pour les hyperscalers. De récents contrats, à hauteur de plusieurs milliards de dollars, font ressortir l’avantage compétitif que représente l’alimentation en énergie.

Organiser la transition en matière de techniques de refroidissement: La plupart des opérateurs utilisent toujours le refroidissement par air, mais l’élévation des densités rend le refroidissement liquide inévitable, même si son adoption demeure progressive. Faites un essai avec des systèmes de refroidissement liquide là où la densité est la plus élevée, et vérifiez leur modularité.

Penser à grande échelle: Harmonisez les clusters en misant sur des topologies modulaires et des interconnexions gérant les accès RDMA à 100–400 Gbit/s. Gardez les données fréquemment consultées à proximité des ressources de calcul et prévoyez un chargement à haut débit pour le réentraînement.

Choisir une implantation en gardant à l’esprit la gouvernance: La souveraineté des données et l’électricité disponible sont des critères de choix. Privilégiez d’emblée la mise en conformité avec des frameworks tels que le AI RMF (Risk Management Framework) du NIST (National Institute of Standards and Technology) et avec les dispositions du Règlement de l’UE sur la résilience opérationnelle numérique.

Sécuriser les achats de GPU: Bloquez, dans la mesure du possible, des réservations sur plusieurs années et diversifiez vos achats avec un accès fractionné ou des services managés. Vous réduisez ainsi les capacités inutilisées et l’exposition à des chocs s’exerçant du côté de l’offre.

Adopter un déploiement hybride: Conservez un entraînement à grande échelle, là où la sobriété énergétique et l’efficacité du refroidissement sont optimales, mais déplacez l’inférence au plus près des utilisateurs. Les nœuds en périphérie permettent d’atteindre les objectifs de temps de réponse tout en maîtrisant les coûts.

Mesurer la performance au regard des résultats pour l’entreprise, pas uniquement en FLOPS: Le nombre d’opérations en virgule flottante par seconde (FLOPS) reste un repère utile, mais il doit être complété par des indicateurs réellement opérationnels: coût par token, rapidité de déploiement, taux de défaillance et émissions. En les suivant en parallèle des KPI produit, vous rattachez directement vos choix d’infrastructure à leur impact concret sur la performance.

Importance de l’infrastructure

L’IA n’est pas simplement une course aux logiciels. C’est aussi une course aux infrastructures.

D’après les prévisions des analystes, les dépenses d’infrastructures liées à l’IA pourraient dépasser 200 milliards de dollars d’ici à 2028 pour atteindre les mille milliards de dollars à l’horizon 2030.

Ces infrastructures ne seront pas de simples supports techniques : elles constitueront l’épine dorsale de l’économie numérique et fabriqueront l’intelligence de demain.