LLM en local : comment choisir la bonne configuration matérielle ?

LLM en local : comment choisir la bonne configuration matérielle ? La quantization, la taille de contexte et le nombre de paramètres du modèle influent directement sur les besoins matériels. Bonus : un outil interactif pour gagner du temps.

Entre le choix du modèle, de l'architecture, de la quantization, définir la bonne configuration pour un modèle d'intelligence artificielle génératif peut vite tourner au casse-tête. Pourtant, quelques règles simples permettent d'éviter de sur-dimensionner son infrastructure ou de se retrouver avec du matériel sous-dimensionné incapable de répondre aux besoins métier. Explications.

La VRAM, nerf de la guerre

La VRAM (pour Video Random Access Memory) est le paramètre principal à surveiller lorsqu'on souhaite déployer de l'IA générative en local, que ce soit un LLM ou des modèles de diffusion, par exemple. Intégrée aux cartes graphiques GPU, la VRAM stocke temporairement le modèle et les données en cours de traitement lors de l'inférence. Par rapport à la RAM classique, elle offre une bande passante bien supérieure, indispensable pour les calculs massivement parallèles des réseaux de neurones. "La VRAM détermine directement la taille maximale du modèle qu'on peut charger et la longueur de la fenêtre de contexte exploitable", résume Marie-Michel Maudet, directeur général de Linagora. Trois paramètres influent directement sur la VRAM : le nombre de paramètres du modèle, la qantisation et la taille de la fenêtre de contexte.

La taille du modèle, principal critère

C'est le principal paramètre à analyser pour anticiper les besoins en VRAM. Plus un modèle compte de paramètres, plus il sera performant sur des tâches sophistiquées, mais plus il consommera de ressources. "Pour un modèle, il faut prévoir environ deux fois sa taille en paramètres en VRAM pour une utilisation confortable", précise Marie-Michel Maudet. Ainsi, un modèle de 24 milliards de paramètres nécessitera environ 48 Go de VRAM en conditions réelles d'exploitation.

Attention toutefois, l'architecture du modèle peut modifier cette règle. Les modèles MoE (Mixture of Experts), de plus en plus présente, affichent théoriquement 56 milliards de paramètres mais n'activent qu'une "partition" à la fois lors de l'inférence. "On applique la même règle de calcul, mais uniquement sur la partition active, ce qui économise significativement la VRAM", explique le directeur général de Linagora. Ces architectures restent néanmoins complexes à déployer et nécessitent plusieurs cartes GPU agrégées pour des performances optimales.

Le choix de la taille doit avant tout répondre au cas d'usage métier. Pour un chatbot conversationnel simple ou des tâches de classification de texte, un modèle de 3 à 7 milliards de paramètres suffit amplement. Les applications de RAG gagnent à utiliser des modèles de 13 à 30 milliards de paramètres pour garantir une meilleure compréhension du contexte. Au-delà de 30 milliards, les cas d'usage sont plus avancés : analyse multimodale, OCR, agent orchestrateur...

La quantization, pour moduler en précision et coût

Après le nombre de paramètres, la quantization est le second levier pour optimiser l'empreinte mémoire d'un modèle. Le principe est de "compresser" la précision des nombres qui composent le modèle. Passer d'un format très précis (16 bits) à un format allégé (4 bits) divise par quatre l'espace mémoire nécessaire, avec une perte de qualité modérée selon les usages. Un modèle de 24 milliards de paramètres passe ainsi de 48 Go à 15 Go entre sa version complète et sa version quantisée à 4 bits.

Marie-Michel Maudet recommande d'adapter le niveau de quantisation selon le cas d'usage. "Pour du texte pur, le standard de fait est la quantization 4 bits qui offre le meilleur compromis performance-consommation", explique-t-il. Pour des tâches plus exigeantes comme l'OCR ou l'analyse d'images, il préconise de monter à 5 ou 8 bits selon les capacités matérielles disponibles. En production, l'idéal reste la quantization 8 bits qui divise par quatre l'empreinte mémoire tout en préservant une qualité optimale. Enfin, les modèles non quantizés demeurent réservés aux cas critiques où une précision maximale est requise. On dispose alors des pleines capacités du modèle, correspondant à son niveau dans les benchmarks.

L'importance de la fenêtre de contexte

La fenêtre de contexte définit la quantité maximale de texte qu'un modèle peut traiter simultanément (en tokens). Elle influence directement la consommation de VRAM : plus la fenêtre est large, plus la consommation mémoire augmente. En approximant, on peut considérer que chaque élargissement de la fenêtre se traduit par une augmentation linéaire de la mémoire nécessaire. Pour des usages professionnels, il est recommandé d'utiliser une fenêtre minimale de 16 000 à 32 000 tokens. "En dessous, on se retrouve rapidement limité dès qu'on veut analyser des documents longs ou maintenir une conversation avec historique", rappelle Marie-Michel Maudet.

De la RTX4060 au H100, quelques recommandations

Pour les modèles jusqu'à 7 milliards de paramètres quantizés, Marie-Michel Maudet recommande des cartes d'entrée de gamme avec moins de 8 Go de VRAM comme les Nvidia RTX 4060 et 4070, suffisantes pour des chatbots simples ou de l'expérimentation. Pour les modèles jusqu'à 13 milliards de paramètres (moyennement quantisés) avec des fenêtres de contexte de 16 000 tokens, 12 à 16 Go de VRAM seront nécessaires. On peut alors viser des Nvidia RTX 4070 Ti, RTX 3090 ou 4090. Pour les modèles de 30 milliards de paramètres quantisés, le spécialiste recommande des cartes avec 24 Go de VRAM comme la RTX 4090 ou l'A6000.

Enfin pour les modèles jusqu'à 70 milliards de paramètres, plus de 48 Go de VRAM seront nécessaires. On optera donc pour une Nvidia L40 ou le classique H100. Pour les modèles dépassant 100 milliards de paramètres, certains modèles open source atteignent même 600 milliards, le déploiement nécessite obligatoirement des clusters de GPU. Plusieurs cartes H100 ou A100 sont ainsi agrégées via des technologies d'interconnexion à très haut débit, permettant de distribuer le modèle sur plusieurs dizaines de GPU. Des déploiements complexes et coûteux qui ne concernent actuellement qu'un très petits nombre d'entreprises.

Pour vous permettre d'apprécier plus concrètement les enjeux matériels, nous avons conçu un petit widget interactif. Celui-ci illustre, à partir de quelques paramètres simples (cas d'usage, précision attendue, taille de contexte), les besoins théoriques en VRAM ainsi que les cartes graphiques susceptibles de convenir. Il ne s'agit toutefois que d'une estimation indicative et peu précise. 

Quel matériel pour quel usage ?

En pratique, la meilleure approche consiste à partir d'une estimation approximative basée sur la VRAM, en tenant compte du nombre de paramètres, de la fenêtre de contexte et de la quantisation, puis d'itérer par la suite selon les résultats observés. Pour finir, le serveur d'inférence utilisé (Ollama, VLLM…) joue également un rôle clef dans l'optimisation des ressources. Nous y reviendrons.