Comment utiliser les meilleurs LLM open source du marché sur sa propre machine avec LM Studio
C'est très certainement l'outil le plus simple pour utiliser un LLM en local. Développé par un ancien software engineer d'Apple, LM Studio permet d'utiliser un grand nombre de modèles de langage open source au sein d'une interface fonctionnelle similaire à ChatGPT. Les dernières mises à jour en font un outil optimisé pour les professionnels : Rag, API locale...
Le principe de LM Studio
LM Studio est disponible sur Windows, Mac et Linux. Son fonctionnement est assez simple : l'utilisateur télécharge un modèle parmi ceux disponibles sur Hugging Face et l'exécute ensuite. LM Studio supporte, en janvier 2025, les modèles au format GGUF et MLX (uniquement sous Mac). Ces formats sont par définition des versions "quantizées" des poids originaux des modèles. Par défaut, lorsqu'un nouveau LLM sort, il faut attendre quelques heures pour qu'un membre de la communauté déploie une version quantizée.
Une fois les poids du modèle téléchargés, LM Studio se base sur Llama.cpp, une librairie open source spécialisée pour l'inférence de LLM on-device, pour inférer le modèle sur votre ordinateur. Par défaut, LM Studio utilise le GPU s'il détecte une carte graphique Nvidia compatible CUDA (sous Windows et Linux). Sinon LM Studio se contentera de votre CPU. Sous Mac, l'application supporte uniquement les puces Apple Silicon.
Pour obtenir des performances stables et une expérience utilisateur convenable, LM Studio exige une configuration matérielle minimale, notamment en matière de mémoire vive. Sur macOS, un processeur Apple Silicon (M1/M2/M3) et macOS 13.4 ou plus récent sont nécessaires, avec un minimum recommandé de 16 Go de ram. Sous Windows, il sera nécessaire de disposer d'un CPU compatible AVX2 et également de 16 Go de ram. Dans la pratique, la majorité des processeurs sortis depuis 2020 supportent AVX2 (à l'exception des Intel Celeron/Pentium ou AMD Athlon).
Comment inférer un LLM depuis LM Studio ?
L'inférence d'un LLM depuis LM Studio est assez simple. Une fois l'outil installé, la première étape consiste à choisir puis télécharger son LLM préféré. Le tout se déroule directement dans l'application, inutile de télécharger manuellement les poids. L'étape la plus complexe et reste sans doute le choix du modèle. Comment choisir parmi les plus de 71 000 versions de LLM proposées ? Si votre utilisation est généraliste, le plus simple reste d'utiliser un modèle populaire dans les benchmarks (voir notre comparateur de modèle) avec une taille adaptée à votre configuration.
Pour une utilisation optimale, le choix de la taille du modèle doit s'adapter à votre configuration matérielle. Les SLM de moins de 7 milliards de paramètres sont recommandés si vous avez 16 Go de ram, un CPU récent ou une carte graphique avec 8 Go de VRAM ou moins. Ces modèles légers, comme Phi-4 ou Mistral 7B, garantissent des temps de réponse fluides sans surcharger votre système. En revanche, les modèles plus imposants comme Mixtral 8x7B ou Llama 3 70B nécessitent une configuration plus robuste : au moins 32 Go de ram, un CPU performant (8 cœurs ou plus), et idéalement une carte graphique avec 12 Go de VRAM ou plus. Ces modèles plus larges excellent dans les tâches complexes, mais peuvent rapidement saturer votre système.
Une fois le modèle téléchargé, il ne reste plus qu'à lancer le chargement du modèle. Par défaut, l'ensemble des paramètres d'inférence sont correctement configurés. Il n'est pas nécessaire de les manipuler, sauf pour des besoins particuliers (plus de contexte, modifier le caractère aléatoire, le nombre de thread CPU...).

Une fois le modèle chargé en mémoire, il est utilisable instantanément. L'utilisation est identique à ChatGPT et consort : un prompt et le modèle répond. Il est également possible de configurer des instructions personnalisées en guide de prompt system sous forme de template. Une fonctionnalité qui permet d'utiliser le LLM en mode bot personnalisé selon vos instructions. Enfin, l'ensemble des paramètres d'inférence du modèle (température, top k, pénalité de répétition...) restent accessibles depuis la colonne latérale gauche pour les utilisateurs avancés.
Rag, API, des fonctionnalités avancées
LM Studio dispose de nombreuses fonctionnalités avancées qui séduiront les professionnels. La première, le RAG mutli-documents, permet au modèle d'utiliser jusqu'à 5 fichiers en même temps (selon la taille de contexte du modèle) pour répondre à votre prompt. Pour l'heure, LM Studio supporte les PDF, les DOCX, les TXT et les fichiers CSV. L'outil n'est pas encore compatible avec les modalités visuelles et sonores.
En parallèle, LM Studio offre aux développeurs une architecture API complète basée sur la librairie d'OpenAI (permet d'utiliser les fonctions de l'API d'OpenAI en local). L'application fournit aussi sa propre API REST. LM Studio supporte enfin un mode headless pour le déploiement en production (mode serveur), la sortie structurée en JSON et l'appel de fonctions externes. Il est également possible de charger son propre modèle en le plaçant simplement dans le répertoire ~/.cache/lm-studio/models/ de l'application.
Des modes avancés qui permettront aux développeurs d'intégrer directement des fonctionnalités d'IA générative basées sur des LLM inférés sur la même machine. Idéal pour les applications nécessitant une confidentialité stricte des données, une latence minimale ou un fonctionnement air-gap.
La force de LM Studio
La véritable valeur ajoutée de LM Studio pour les professionnels réside dans sa capacité à permettre aux utilisateurs d'exploiter n'importe quel modèle disponible sur Hugging Face (sous réserve de compatibilité GGUF ou MLX sur Mac), sans être limité à une sélection restreinte de modèles propriétaires. Au-delà des avantages évidents en termes de confidentialité des données, cette flexibilité ouvre la voie à l'utilisation de modèles ultra-spécialisés, développés pour des cas d'usage spécifiques.
Les utilisateurs peuvent ainsi sélectionner des LLM optimisés pour leur domaine d'expertise - que ce soit la médecine, le droit, la finance ou l'ingénierie - et les déployer en local avec une simplicité déconcertante.