Comment créer son cloud privé pour entrainer des LLM ?

Comment créer son cloud privé pour entrainer des LLM ? Pour des raisons de confidentialité, une entreprise pourra être tentée par la piste d'un environnement d'entrainement reposant sur une infrastructure privée. Un projet délicats et coûteux.

Les entreprises de cybersécurité comme du secteur de la Défense au sens large sont, comme les autres, dans la course à l'IA générative. Une technologie qui leur permet de mettre au point des chatbots de support essentiel à leur personnel de terrain, notamment en vue d'accompagner les décision à la fois techniques et stratégiques. Or, ces organisations ne peuvent se permettre d'entrainer leurs large language models (LLM) sur des clouds publics. Pour des raisons évidentes de confidentialité, elles devront recourir à des infrastructures de calcul isolées et sécurisées. Bref, elles n'ont d'autres choix que de se tourner vers des clouds privés.

"Pour construire un cloud privé taillé pour entrainer des LLM, il est conseillé d'opter pour un acteur de l'écosystème cloud qui a l'habitude de travailler avec ses clients en mode projet", prévient Martin Alteirac, responsable AI chez Saegus. Ce cabinet de conseil français expert en digital est l'un des rares à accompagner de tels chantiers dans l'Hexagone. "C'est un domaine où les missions et donc les compétences sont très peu nombreuses", prévient le consultant. En Europe, les français OVHCloud et Scaleway font partie des rares clouds qui planchent sur le sujet. "Ce sont deux fournisseurs techniquement comparables dans ce domaine", commente Martin Alteirac.

Bien choisir son provider

Scaleway a lancé une offre d'instance Nvidia H100 en bêta privée. Une technologie qui est précisément conçue pour entrainer des LLM. Selon nos informations, cette offre sera officialisée courant novembre. De son côté, OVHCloud proposera très prochainement des instances GPU Nvidia A100 (à 80 Go de Ram), puis des GPU Nvidia H100, L4 et L40. Les deux fournisseurs sont donc au coude à coude dans la course à l'IA générative. "Aux instances Nvidia, il faudra ajouter Cuda qui est la couche logicielle conçue par le constructeur pour gérer le calcul matriciel distribué", complète Stéphane Roder, président et fondateur d'AI Builders, une autre ESN française spécialisée en intelligence artificielle.

"La question du stockage est également très délicate", prévient Martin Alteirac. Entraîner un LLM implique d'abord de stocker et de supporter en mémoire un modèle pouvant compter des milliards de paramètres. Sans compter les données d'entraînement qui pourront atteindre des volumes atteignant des téraoctets voire des pétaoctets, notamment s'il s'agit d'ingérer des fichiers vidéos. Au sein du cloud privé, il faudra aussi mettre en œuvre un réseau très haut débit correctement dimensionné pour supporter les traitements. De même, l'alimentation électrique devra être à la hauteur pour prendre en charge le tout.

"Compte tenu de la confidentialité du projet, une confiance totale devra être instaurée entre les différents fournisseurs"

Au final, un tel projet impliquera de nouer un partenariat fort avec le provider de cloud, mais aussi avec les fournisseurs des différents composants, depuis le GPU (avec Nvidia) jusqu'au système de stockage en passant par le réseau. "Compte tenu du niveau de confidentialité requis, une confiance totale devra être instaurée entre les différents fournisseurs", insiste Martin Alteirac.

Un projet de plusieurs millions d'euros

Qu'en est-il du coût ? Bloomberg est l'un des rares acteurs à s'être engagé dans une telle démarche et à avoir communiqué sur les dépenses associées. Le groupe financier américain a entraîné un large language model sur 15 ans d'archives. Résultat : un LLM de 50 milliards de paramètres baptisé BloombergGPT. Entendez par là l'équivalent d'un ChatGPT spécialisé dans le domaine de la finance. Pour entrainer cet édifice, Bloomberg a fait tourner une infrastructure de calcul graphique de type NVidia A100 pendant l'équivalent de 1,3 million d'heures. L'apprentissage a été réalisé sur des clusters de 64 GPU, équipés chacun de 8 processeurs Nvidia A100 (à 40 Go de Ram l'unité). Le tout sur le cloud d'AWS.

Les clusters de GPU en question étaient interconnectés via les passerelles NVSwitch propriétaires de Nvidia, dont la capacité de transfert atteint 600 Gbits/s. Le bus GPUDirect de Nvidia faisait le lien entre les nœuds de calcul et AWS Elastic Fabric Adapter, via une connexion de 400 Gbits/s. En bout de course, Bloomberg capitalisait sur le système de fichiers Lustre d'Amazon, une brique très utilisée dans le calcul intensif. Objectif : bénéficier d'un accès haute performance aux bases de documents. Le système de fichiers prenait en charge jusqu'à 1 000 Mo/s de débit de lecture et d'écriture par térabits de stockage. Au total, Bloomberg a communiqué sur une dépense de plusieurs millions de dollars, alors même que le projet a été mené sur un cloud public. "Mettre en œuvre l'équivalent sur un cloud privé, même managé, aurait nécessairement coûté substantiellement plus cher", conclut de concert les consultants que nous avons interrogés.