Est-il possible de déployer un ChatGPT français sur un cloud souverain ?
Dans le cadre du déploiement de son modèle langue open source Lucie, Linagora est en discussion avec Exaion, Outscale, OVH et Scaleway pour mettre en place une infrastructure adaptée.
Pour un acteur souhaitant diffuser son assistant d'IA générative à grande échelle, les offres cloud des Gafam représentent une solution toute trouvée. Les hyperscalers proposent en effet des ressources machine adaptées, avec à la clé une capacité presque illimitée en vue d'encaisser de très fortes volumétries. L'enjeu sous-jacent : être en capacité de gérer une charge de trafic colossale sur des traitements relativement lourds.
"Nous travaillons en ce moment avec Exaion (filiale cloud d'EDF, ndlr), Outscale, OVH et Scaleway dans l'optique de déployer à grande échelle notre modèle de langue open source Lucie qui compte 7 milliards de paramètres", confie Michel-Marie Maudet, directeur général de la société de services en logiciel libre (SS2L) Linagora. Un modèle que le CEO qualifie de SLM pour small language model. Objectif affiché par l'entreprise d'Issy-les-Moulineaux : prouver à l'occasion du Paris Open Source AI Summit que l'acteur organise le 22 janvier prochain qu'il est possible de proposer un équivalent open source à ChatGPT basé sur une infrastructure de cloud souveraine.
Face à ce défi, le PDG de Linagora reste lucide. "Aucun cloud français n'a encore réalisé une telle opération. Nous allons par conséquent essuyer les plâtres", lâche-t-il sans détour. "Le plus avancé d'entre eux reste de notre point de vue Scaleway (avec plus de 1000 GPU de type Nvidia H100 déjà déployés, ndlr). Il tend vers une expérience assez similaire à celle d'Amazon Bedrock (le service d'AWS dédié à l'IA générative, ndlr)."
La voie du multicloud est-elle incontournable ?...
Pour définir ses besoins en termes d'infrastructure, Linagora a commencé par évaluer des scénarios de trafic, en estimant notamment le nombre de requêtes ainsi que le volume de token en entrée et en sortie par utilisateur. Partant de là, la SS2L a évalué plusieurs cartes Nvidia : les RTX A4000, les L4, les L40S et les H100. Dans chaque cas, un benchmark étalon a été dressé. L'enjeu pour Linagora est d'aboutir à une architecture avec des frontaux web supportant l'interface de chat, et en coulisse un répartiteur de charge basé sur la brique open source LiteLLM chargé d'aiguiller les traitements vers les points d'inférence GPU du cloud souverain le plus adapté. Par exemple si l'utilisateur souhaite conserver ses données sur un cloud de confiance, le flux sera routé vers Outscale et pris en charge par les GPU labellisés SecNumCloud de ce dernier.
"Nous tendons actuellement vers une architecture multicloud dans la mesure où nous estimons qu'un cloud souverain unique ne pourra pas couvrir tous nos cas d'usage et ne sera pas non plus capable de provisionner à lui seul la puissance nécessaire à un lancement grand public", souligne Michel-Marie Maudet. "Partant de là, tout l'enjeu est de démontrer notre capacité à inférer notre modèle chez plusieurs opérateurs de cloud français."
…."Non", répondent les clouds souverains
Du côté de Scaleway, on maintient être en capacité d'encaisser, y compris sur un LLM (pour large language model) de plus de 100 milliards de paramètres, des montées en charge de plusieurs centaines voire plusieurs milliers d'utilisateurs simultanés. "Nous avons assuré le lancement mondial du chat vocal Moshi de la fondation Kyutai, qui représente une montée en charge conséquente", rappelle Frédéric Bardolle, lead product manager AI chez Scaleway. En coulisses, Moshi s'adosse à un modèle baptisé Helium qui se révèle assez proche de Lucie puisqu'il compte comme ce dernier 7 milliards de paramètres.
"Nous avons la possibilité d'encaisser jusqu'à plusieurs centaines de milliers de requêtes par seconde"
Qu'en est-il d'OVHcloud ? Le cloud de Roubaix propose AI Endpoints. Un service, actuellement en bêta, taillé pour délivrer des modèles d'IA générative via une facturation aux tokens. Sous le capot, le fournisseur en commercialise déjà une quarantaine dont Llama-3.1-70B-Instruct ou Mixtral-8x22b-Instruct. "Cette offre est pleinement adaptée à Lucie", maintient Gilles Closset, global AI ecosystem leader chez OVHcloud. "Nous prenons entièrement en charge la couche d'infrastructure sous-jacente. Sachant que nous avons la possibilité d'encaisser jusqu'à plusieurs centaines de milliers de requêtes par seconde sans problème."
En matière de carte graphique, OVHcloud met œuvre des ressources adaptées en fonction du modèle. "Nous proposons des cartes graphiques L4 pour les modèles de petite taille, des L40S pour les modèles de taille intermédiaire, et des H100 pour les modèles de grande taille", explique Gilles Closset. Dans les tous prochains mois, OVHcloud prévoit par ailleurs de mettre à disposition, en plus, des AMD MI325X, des Nvidia Blackwell, sans oublier des Nvidia H200.
Chez Outscale (groupe Dassault Systèmes), on se veut également confiant. "Depuis septembre 2024, nous avons commencé à proposer les modèles de langue premium de Mistral au sein d'une offre de LLM as a Service qui a pour vocation d'accueillir d'autres IA génératives à l'avenir", indique David Chassan, directeur de la stratégie d'Outscale. Orientée inférence, l'offre en question intègre Codestral Mistral AI, Mistral Small, Ministral 8B 24.10 et Mistral Large. Pour chaque modèle, le fournisseur met en œuvre une infrastructure machine ad hoc. La stack intègre par exemple deux cartes graphiques L40 pour Mistral Small, et quatre GPU H200 pour Mistral Large. Des configurations taillées pour une utilisation en entreprise, mais loin de convenir à un usage et une volumétrie d'audience de niveau grand public.
A la question de savoir si Outscale est capable de tenir la charge à une échelle plus large, David Chassan se veut rassurant. "Dassault Systèmes compte plus de 350 000 clients à travers le monde (et 24% de CA réalisé dans le cloud, ndlr). Ce qui nous donne une force de frappe importante en matière de puissance machine", souligne-t-il. "Pour autant, notre principale valeur ajoutée dans l'IA comme dans le cloud en général consiste à provisionner pour chaque client une stack dédiée. De ce point de vue, Outscale demeure le seul cloud équipé de GPU certifiés SecNumCloud", résume David Chassan. "Nous avons avant tout pour vocation à servir des organisations et institutions qui souhaitent protéger leurs données et leur propriété intellectuelle." Un message qui a le mérite d'être clair.