Cas d'usage, atouts, limites… Quand privilégier un SLM pour sa stratégie d'IA générative ?

Selon les cas d'utilisation, le small language model (SLM) peut s'avérer une bonne alternative aux grands modèles de langage traditionnels.

Oubliez les modèles d'IA à plusieurs dizaines voire centaines de milliards de paramètres. Voici venu le temps des SLM. Tirant parti des dernières avancées scientifiques en matière de grands modèles de langage (LLM), de nombreux laboratoires d'intelligence artificielle se sont mis à utiliser les techniques et méthodes développées pour former les LLM afin de développer des modèles de plus petite taille. Et les résultats sont là. Les performances des derniers SLM commencent à atteindre celles de certains LLM. Plus léger, fine-tuable à souhait, moins coûteux… On fait le point sur les atouts et les limites de cette nouvelle gamme d'IA.

Des modèles de quelques millions à 10 milliards des paramètres

Dans le secteur de l'IA générative, pour être qualifié de modèle de petite taille, un modèle de langue doit faire seulement quelques milliards de paramètres. Les modèles de plus de 3 milliards de paramètres sont déjà considérés comme des SLM de grande taille. De manière générale, les SLM sont entraînés de manière spécialisée sur un domaine, à quelques exceptions près, quand les LLM sont plus généralistes. De par leur taille réduite, les SLM généralistes sont capables de traiter quasi-uniquement des tâches peu complexes ou ne nécessitant pas des connaissances générales poussées issues de leur base structurée.

En revanche, leur petite taille leur confère des atouts considérables sur leurs homologues plus grands. A l'inférence, un modèle de petite taille nécessite beaucoup moins de ressources qu'un LLM. Certains modèles peuvent même être directement embarqués sur les appareils mobiles. L'inférence est également plus rapide, offrant ainsi un temps de latence réduit. Enfin, le fine-tuning exige, lui aussi, moins de ressources matérielles. Alors que les LLM peuvent nécessiter des jours, voire des semaines, pour être affinés sur un nouveau domaine, les SLM peuvent être adaptés en quelques heures seulement. Par ailleurs, comme ils sont entraînés sur des datasets plus petits, les SLM ont tendance à mieux s'adapter au fine-tuning.

Dans quel cas privilégier un SLM ?

Pour prendre la question à l'envers, commençons par évoquer les cas où un SLM ne sera pas optimal. "Aujourd'hui, les modèles de langage les plus performants, évalués à travers différents benchmarks, ce sont les large language models. Par conséquent, si je recherche des performances élevées, de la sûreté et de la fiabilité de fonctionnement pour des cas d'usage généraux, puisque c'est également l'objectif des LLM - être capables de répondre dans à peu près toutes les langues et sur un grand nombre de cas d'utilisation - je vais alors choisir un grand modèle de langage", analyse Philippe Limantour, chief technology officer chez Microsoft France.

Le SLM sera principalement conseillé pour les cas d'usage nécessitant une latence réduite. "Avant l'arrivée de GPT-4o les grands modèles de langage ne permettaient pas jusqu'ici d'avoir une conversation en temps réel", rappelle Philippe Limantour. Autre utilisation plébiscitée des secteurs sensibles ou industriels : l'inférence en local. "Par exemple, sur une plateforme de forage en pleine mer, ou lors du développement de nouveaux usages sur des ordinateurs ou des téléphones. C'est un critère important à prendre en compte lorsqu'on évalue les besoins en matière d'intelligence artificielle dans des environnements avec une connectivité limitée", ajoute encore Philippe Limantour. Pour les secteurs où la donnée est une denrée très sensible et stratégique (défense, aviation…), le SLM on-device reste le moyen le plus sûr. Aucune donnée ne transite sur Internet.

En résumé, un SLM est une bonne option pour :

L'inférence en local (sureté, cas d'usage industriel)
Une latence réduite
Des coûts contenus
Un fine-tunage facile et plus efficace

Phi-3 : le SLM de référence pour l'instant

Dans le futur proche, le SLM va également permettre une orchestration plus poussée des modèles d'IA. On peut ainsi envisager de développer une orchestration entre SLM en local et LLM depuis le cloud selon l'intentionnalité de la requête utilisateur. "Si le prompt ressemble à un problème de physique nucléaire complexe, je vais appeler le LLM. Si c'est du résumé d'un document que j'ai sur mon PC, je vais appeler le SLM, il fera très bien le travail et en local", illustre le chief technology officer de Microsoft France.

Présenté par Microsoft en début d'année, Phi-3 est, selon les benchmarks, le SLM offrant le rapport coût/performance le plus élevé. D'une taille de 3,8 milliards de paramètres dans sa version Mini, Phi-3 offre une variété de cas d'usage en entreprise. Avec une fenêtre de contexte de 4 000 à 128 000 tokens selon les versions et couplé à un système de RAG, le modèle est parfait pour interroger en langage naturel des données simples. Le modèle est idéal pour les "usages où j'ai besoin d'un assistant vocal, mais je n'ai pas de connexion Internet. Avec Phi-3, je peux, par exemple, faire de la traduction en local sur mon téléphone ou des résumés de longs documents. On retrouve tous les usages d'interaction avec le langage naturel qui, jusqu'ici, n'était disponible qu'avec des grands modèles", s'enthousiasme Philippe Limantour. Une famille complète qui s'est récemment enrichie de Phi-3 Vision, avec la prise en charge des images.