On premise vs cloud : quelle solution pour l'inférence d'un LLM open source ?

On pourrait penser que l'exécution de modèles de langue open source soit préférable sur une infrastructure internalisée. Ce n'est pas forcément le cas.

Avec des solutions comme Llama ou Mistral, l'offre de large language model (LLM) open source est désormais suffisamment mûre pour prétendre à un déploiement en production. Reste à savoir quelle piste retenir en vue d'inférer un tel LLM. Doit-on partir sur un déploiement en mode cloud ou plutôt sur site. Une mise en œuvre en interne (on premise) peut paraître la solution idéale, notamment si l'on souhaite garder pleinement la maîtrise de sa solution d'IA, du logiciel au matériel... en passant évidemment par les données.

"Le premier argument justifiant l'inférence d'un LLM open source sur une infrastructure interne renvoie à la confidentialité des données manipulées", estime Stéphane Roder. Mais encore faut-il que le LLM en question ne soit pas trop volumineux. "S'il s'agit d'un SML (small model language, ndlr), inférieur à 2 milliards de paramètres, on pourra aisément le faire tourner on premise. S'il est plus volumineux, ce sera une autre paire de manches", prévient le CEO d'AI Builders.

L'infrastructure à mettre en place pour inférer en interne un LLM open source digne de ce nom est volumineuse. "Il sera nécessaire de déployer des serveurs à large bande, de type HPE Cray. Ils sont équipés de l'ensemble de la couche matérielle pour accueillir les cartes GPU nécessaires pour parvenir à des performances correctes en production", note Didier Gaultier, head of AI chez Orange Business Digital Services France.

Deux cartes H100 a minima

Ensuite, il faudra déployer au moins deux cartes graphiques puissantes, de type Nvidia H100, ces GPU étant systématiquement configurés par paire. Une ou plusieurs cartes supplémentaires devront par ailleurs être greffées à l'ensemble pour gérer le RAG (pour retrievel-augmented generation). "Le RAG ne s'exécute pas sur les mêmes GPU que l'inférence en tant que telle. Il pourra néanmoins se satisfaire de cartes graphiques de moindres puissance telles les A100", justifie Didier Gaultier.

Ce n'est pas tout. L'ensemble de la pile matérielle devra également être équipée d'une connexion Infiniband. Une liaison pouvant atteindre 2,5 gigaoctets par seconde pour traiter les calculs du process d'inférence. "C'est ce qu'il y a de plus coûteux dans l'ensemble du dispositif", indique Didier Gaultier.

"Certains utilisateurs type OIV déploient systématiquement leur informatique de manière internalisée. Les LLM ne font pas exception"

"Au total, le prix d'une configuration minimale permettant d'inférer un LLM open source de taille moyenne adressant quelques dizaines d'utilisateurs (avec un temps de réponse décent, ndlr) dépassera rapidement plusieurs centaines de milliers euros", constate Didier Gaultier. Certes, on pourra faire tourner un modèle open source avec une enveloppe moins élevée, mais pour un nombre très limité d'accès simultanés. "Il est toujours possible de faire tourner un modèle type Llama 2 ou Mistral 8x7B sur un gros Mac. C'est vrai. Mais pour un utilisateur unique", commente Didier Gaultier.

En partant d'un LLM de taille moyenne, deux H100 permettront de répondre simultanément à environ 200 utilisateurs. Problème : ce modèle de cartes étant en rupture de stock, il est nécessaire de patienter 30 semaines en moyenne selon les fournisseurs avant de se voir livré. "Un certain nombre d'acteurs américains préemptent ce type de produit dès leur sortie. Ce qui explique ces tensions", explique Didier Gaultier. "Le marché devrait commencer à se détendre en 2025 avec l'arrivée des B200, le successeur du H100."

Un cloud de confiance

Une telle infrastructure sera beaucoup moins onéreuse chez un cloud provider. Son tarif pouvant s'élever à environ quelques euros par heure d'utilisation (cf. l'offre de Paperspace). "Certains utilisateurs type OIV (organisation d'importance vitale, ndlr) ne se poseront pas la question car ils déploient systématiquement leur informatique de manière internalisée", pointe Didier Gaultier.

Reste une solution intermédiaire proposée par Orange Business. "Nous avons lancé une solution de GPU as a Service de confiance qui offre toutes les garanties de confidentialité pour ce type de profil utilisateur. Dans le cadre de cette offre, seuls les clients ont contractuellement accès aux données et aux documents utilisés par le LLM." Une initiative qu'il convient de saluer. C'est la première fois en effet qu'un acteur français est capable de fournir de telles garanties de bout en bout. Les serveurs proposés dans le cadre de cette offre sont d'ailleurs candidats à la célèbre certification SecnumCloud de l'Agence nationale de la sécurité des systèmes d'information.

Au final, le choix d'un cloud provider lambda se révèlera la solution toute tracée pour la majorité des projets de déploiement de LLM open source.