Comment Linagora compte optimiser les coûts de son ChatGPT français ?
Dans l'optique du Paris Open Source AI Summit que Linagora organise le 22 janvier prochain, la société de services en logiciel libre (SS2L) du même nom prépare le lancement d'un équivalent open source français à ChatGPT. Un assistant qui reposera sur une infrastructure de cloud souveraine. Baptisé Lucie, le modèle de langue sous-jacent compte 7 milliards de paramètres. Objectif affiché par Linagora : tendre vers un SLM (pour small language model) qui puisse être comparé à plusieurs références du marché de taille équivalente, parmi lesquelles Llama 3.1-8B, Mistral 7B ou encore Falccon 7B. Côté mise en œuvre, ce type d'IA présente un avantage de taille. "On est capable de les exécuter sans trop les quantizer sur des cartes graphiques affichant une capacité de 12 à 24 Gb de NVRAM", note Michel-Marie Maudet, PDG de Linagora. Partant de là, la société s'est d'abord tournée vers Exaion. Le cloud d'EDF embarque des cartes RTX A4000 affichant 16 Gb de NVRAM. Des GPU issus d'un des supercalculateurs du fournisseur d'électricité historique. "Ce n'est pas des cartes Nvidia de dernière génération. Mais pour notre cas d'usage, leur rapport performance/coût est excellent", se félicite Michel-Marie Maudet.
Les cartes Nvidia A4000 se démarquent en effet en termes de tarifs. Elles affichent un prix d'achat à l'unité de 1 500 dollars, contre un minimum de 25 000 dollars pour la mythique Nvidia H100 et ses 80 Gb de NVRAM. Des montants que répercutent évidemment les clouds sur leur politique de pricing à l'usage (une carte H100 sera par exemple tarifée 2200 euros par mois chez OVHcloud). Autre avantage : une emprunte environnementale relativement faible. "Une carte A4000 affiche une enveloppe thermique de 140 watts, contre 350 watts pour une H100", précise Michel-Marie Maudet. Plus récemment, Linagora s'est également penché sur les Nvidia L4. Des GPU qui comptent 24 Gb de NVRAM, mais pour un TDP de seulement 72 watts. Ces cartes sont notamment proposées par OVHcloud, mais également par Scaleway, le cloud public d'Iliad.
"Exaion ne dispose pas d'un nombre suffisamment important de cartes A4000 pour répondre à nos besoins"
Résultat des courses : la Nvidia L4 semble à première vue relativement performante. Mais pour l'heure, c'est toujours la A4000 qui occupe la première place des comparatifs menés par Linagora. "Côté L4, nos benchmarks sont encore en cours", précise Michel-Marie Maudet. Qu'en est-il en termes de coûts ? Cette carte graphique se négocie, elle, au tarif de 2 500 euros. Conclusion : son rapport performance/prix se révèle des plus correctes.
En vue d'inférer Lucie, Linagora compte opter pour une architecture multicloud. Et ce à la fois pour des questions de volumétrie et de souveraineté. "Exaion ne dispose pas d'un nombre suffisamment important de cartes A4000 pour répondre à nos besoins. D'après nos tests, ce type de carte peut répondre à environ 10 prompts par seconde. Ce qui est très faible compte tenu de nos ambitions en termes de volumétrie (comme OpenAI avec ChatGPT, Linagora compte cibler le grand public, ndlr). Nous devrons donc faire appel à plusieurs clouds souverains", reconnaît Michel-Marie Maudet, évoquant OVHcloud aux côtés de Scaleway. "Si l'utilisateur souhaite opérer ses données sur un cloud de confiance, nous pourrons aussi solliciter les cartes H100 propulsées par le cloud d'Outscale, qui présente pour avantage d'être labellisé SecnumCloud (il est par conséquent isolé des réglementations extraterritoriales tel que le Cloud Act américain, ndlr)."
Sur 2025, Linagora compte s'orienter vers les modèles de type Mamba à l'instar de Mistral. Une alternative à la technologie des transformers sur laquelle repose historiquement ChatGPT ou Llama. Contrairement aux transformeurs, Mamba est sélectif. Il filtre les données les moins pertinentes. Résultat : il permet d'intégrer plus efficacement un grand nombre de data en entrée tout en générant plus rapidement de nouvelles informations en sortie. À la différence des transformeurs, le temps d'inférence de Mamba croît linéairement en fonction du nombre de mots à traiter. Il n'y a pas d'explosion combinatoire comme avec le dispositif d'attention propre aux transformers, où chaque mot affecte potentiellement l'ensemble des autres mots du texte ingéré. "Les architectures comme Mamba s'appuient sur des espaces d'état structurés qui évitent de recourir aux GPU lors de l'exécution du modèle. C'est là l'un de leurs principaux points forts", insiste Michel-Marie Maudet. En migrant vers cette technologie, Linagora pourrait donc potentiellement passer outre l'épineux débat sur le choix des cartes graphiques.