Comment les containers Kubernetes séduisent le monde de l'IA

Le moteur d'orchestration s'est imposé dans l'univers de l'intelligence artificielle comme la couche d'infrastructure idéale depuis les preuves de concept jusqu'aux déploiements à grande échelle.

Kubernetes s'est fait un nom sur le front de l'IA dans le monde des start-up comme des grands groupes. Il faut dire que l'orchestrateur est particulièrement bien adapté à ce cas d'usage. Son architecture en containers lui confère une grande agilité pour démarrer un projet. Quant à sa scalabilité, elle lui permet de faire aisément passer une application à l'échelle, potentiellement sur des volumes massifs de trafic. "Et ce, sachant qu'il peut gérer à la fois l'entraînement et l'inférence des modèles", note Guillaume Renaud, directeur associé cloud transformation chez Capgemini Invent. Et Noham Medyouni, enterprise architect chez Dell, d'enfoncer le clou : "Kubernetes est également adapté aux multiples itérations des phases d'entraînement des IA tout en faisant preuve de résilience."

Au sein des grands groupes, Kubernetes permettra d'industrialiser les process des IA factory. Il pourra gérer l'entrainement des modèles en activant les clusters de calcul nécessaires. C'est également un moyen d'assurer la portabilité des applications d'IA, des environnements de développement aux serveurs d'apprentissage puis de production, mais aussi d'un cloud à l'autre. "Nous observons beaucoup de projets d'IA qui commencent par des PoC sur un cloud public, notamment pour bénéficier de ressources temporaires. Une fois éprouvées, ces applications sont mises en production sur un cloud privé ou sur un cloud spécialisé dans l'IA. Compte-tenu de ses capacités de portabilité, Kubernetes est la solution parfaite pour réaliser ces transitions", reconnaît Noham Medyouni.

Au sein de l'écosystème Kubernetes, toute une série d'outils est disponibles pour développer et déployer des modèles. En amont, Kubeflow Trainer permet d'entraîner et de fine-tuner les IA en répartissant l'exécution du process au sein d'un cluster de containers. Ce module est compatible avec plusieurs bibliothèques de deep larning, parmi lesquelles PyTorch, Tensorflow ou XGBoost. Il intègre également de nombreux modèles de langage tels ceux disponibles sur la plateforme d'Hugging Face.

De l'entraînement à l'inférence

"Ensuite, KServe entrera en action pour déployer les applications d'IA et les servir aux utilisateurs par le biais d'API", ajoute Guillaume Renaud. En toile de fond, l'outil Model Registry se chargera de référencer les modèles et leurs différentes versions. Il comble le fossé entre les phases d'expérimentation et de déploiement en offrant une interface centralisée permettant à tous les acteurs du cycle de vie du machine learning de collaborer.

"Des outils de l'écosystème Kubernetes pourront être utilisés pour des besoins spécifiques tels que Ray Serve pour piloter l'inférence"

Pour optimiser les paramètres des modèles, Katib entre dans la danse. Quant à Kubeflow Pipelines et Feast, ils sont conçus respectivement pour bâtir des workflows de learning (toujours basés sur Kubernetes) et pour référencer les caractéristiques des modèles afférents. "Enfin, Keda prendra en charge l'autoscaling des phases d'entrainement et d'inférence au sein de l'orchestrateur", indique Laurent Biagiotti, responsable des partenariats éditeurs au sein de l'école supérieure en informatique Sup de Vinci.

"Des outils de l'écosystème Kubernetes pourront être utilisés pour des besoins spécifiques, par exemple Ray Serve pour piloter l'inférence", complète Guillaume Renaud. Et Régis Josso, CEO de la société de services informatiques DRI d'ajouter : "Il est recommandé de recourir en parallèle à des solutions de plus haut niveau telles que Kubespray pour déployer les clusters ou encore Argo CD pour gérer la livraison continue des nouvelles versions."

Aux côtés de cette approche modulaire orienté communautaire, il sera possible de faire appel à des solutions propriétaires taillées pour Kubernetes. C'est le cas de la plateforme NIMs commercialisée par Nvidia. "Cette technologie fait le pont entre Kubernetes et les infrastructures de calcul graphique", explique Luc Germain, manager & CTO innovative tech au sein de l'ESN Devoteam. "Elle est dessinée pour gérer l'adressage des cartes GPU nécessaires à chaque traitement d'IA. Ces capacités dont le dimensionnement sera ajustable au fil de l'eau pourront être affectées à chaque container en temps réel de manière automatisée."

En aval, NIMs propose des containers pré-packagés en fonction du workload d'IA souhaité. Les modèles ouverts de Google, Meta, Mistral AI, Stability AI et Hugging Face sont compatibles avec la solution, de même que des outils propriétaires d'A121, Cohere et Getty Images.

Pour accéder aux ressources matériels, Kubernetes fait appel à un plugin open source. Mais là encore, Nvidia propose sa propre solution propriétaire. Objectif : simplifier le paramétrage de l'orchestrateur dans la gestion des couches basses. Baptisé GPU Nvidia Operator, le module en question utilise le framework des opérateurs Kubernetes pour automatiser la gestion des composants logiciels de Nvidia nécessaires à l'activation des GPU. Il inclut des pilotes pour activer la technologie Cuda, un plugin de périphérique Kubernetes pour GPU ainsi que le Nvidia Container Toolkit, entre autres. "GPU Nvidia Operator va assurer l'optimisation de la consommation de GPU en partageant finement les ressources disponibles entre les différents traitements, y compris sur la même carte graphique", commente Noham Medyouni chez Dell.

OpenAI s'adosse à Kubernetes

Parmi les principaux acteurs recourant à Kubernetes dans l'IA figure OpenAI. La société de San Francisco a déployé ses différents modèles sur une infrastructure Kubernetes comptant des milliers de nœuds. L'orchestrateur optimise la consommation de la plateforme en ressource de calcul. "Les container Kubernetes sont bien plus légers que les machines virtuelles", rappelle sur ce point Luc Germain chez Devoteam. En parallèle, Kubernetes permet à OpenAI d'encaisser une audience massive. En mai 2025, ChatGPT comptait près de 800 millions d'utilisateurs actifs hebdomadaires et environ 122,58 millions d'utilisateurs quotidiens.

"Compte tenu du prix des cartes graphiques (une carte Nvidia H100 taillée pour l'IA générative affiche un prix public de plus de 71 000 dollars, ndlr), il est important de monitorer l'utilisation de cette ressource et son affectation", insiste pour finir Régis Josso chez DRI. "Pour superviser les capacités machine utilisées via Kubernetes, nous conseillons de recourir à des outils Prometheus, Alertmanager, Grafana, Loki et Fluent-bit."