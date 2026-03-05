Qwen 3.5 tourne sur un PC de bureau et surpasse GPT-5 Nano sur la majorité des benchmarks. Le tout en open source, sans débourser un centime.

Dans la course à l'IA, la Chine reste collée au pare-chocs des Américains. Mois après mois, les laboratoires chinois, Moonshot, MiniMax, ou DeepSeek, enchaînent les déploiements de modèles à un rythme soutenu. Leur stratégie se dessine clairement : face aux modèles propriétaires américains, ils prônent des modèles open source de haute volée, dont les résultats aux benchmarks se rapprochent inexorablement des leaders du secteur. Dernier exemple en date : le laboratoire d'IA du géant Alibaba a dévoilé une nouvelle mouture de son modèle phare, Qwen.

La version 3.5, annoncée en février avec une gamme allant de 397 milliards de paramètres dans sa déclinaison la plus massive jusqu'à une version 27B, en passant par des modèles intermédiaires à 122 et 35 milliards de paramètres (cette dernière, en architecture MoE avec 3 milliards de paramètres actifs, reste déjà gourmande en ressources, avec plus de 22 Go de VRAM nécessaire), s'enrichit début mars de quatre nouveaux modèles : 9B, 4B, 2B et 0.8B, taillés pour l'inférence sur PC sans configuration matérielle démesurée. Des modèles qui, en plus de tourner sur de petites machines, parviennent à égaler, voire surpasser, plusieurs modèles propriétaires qui faisaient encore figure de référence il y a quelques mois. Alors, faut-il troquer son abonnement ChatGPT contre un modèle chinois open source qui tourne en local sur votre machine ?

Qwen 3.5, un modèle conçu pour une exécution locale

La dernière mise à jour de Qwen 3.5, le 2 mars, apporte ainsi quatre nouveaux modèles : Qwen 3.5 0.8B, Qwen 3.5 2B, Qwen 3.5 4B et Qwen 3.5 9B. Côté architecture, Qwen ne se contente pas de rétrécir son modèle géant. Les petites versions héritent d'une innovation clé de la série : un système d'attention hybride qui alterne entre deux mécanismes. Sur quatre étapes de traitement consécutives, trois utilisent une "attention linéaire", bien moins gourmande en calcul, et une seule fait appel à l'attention classique, plus précise mais plus coûteuse en ressources. Concrètement, Alibaba est parvenu à compresser significativement les ressources nécessaires à l'exécution du modèle sans compromettre la qualité de ses réponses.

© Capture d'écran / JDN

L'ensemble des versions publiées est également nativement multimodal. Contrairement à d'autres modèles qui greffent un encodeur de vision après coup, Qwen 3.5 intègre la compréhension visuelle dès sa conception : texte, images et vidéo sont traités au sein du même réseau neuronal, sans distinction. Le modèle ne produit en revanche que du texte en sortie. Côté contexte, Qwen 3.5 revendique une fenêtre de 262 000 tokens nativement, soit l'équivalent d'un roman de 500 pages traité d'un seul coup. Il est même possible de pousser cette limite jusqu'à un million de tokens (environ 2 heures de vidéo) moyennant une légère perte de précision, via YaRN (une technique d'ajustement mathématique de la taille de contexte).

Un modèle au-dessus de GPT-5 Nano sur plusieurs benchmarks

Les résultats dans les benchmarks ont de quoi surprendre et sont la véritable force du modèle. Sur les tâches de vision et de raisonnement multimodal, Qwen 3.5-9B domine largement GPT-5 Nano d'OpenAI et Gemini 2.5 Flash-Lite de Google. En compréhension de documents (OmniDocBench), la version 9B affiche 87,7 contre 55,9 pour le modèle d'OpenAI. Même constat en compréhension vidéo, en intelligence spatiale ou en VQA médicale : le petit modèle d'Alibaba écrase ses concurrents propriétaires sur quasiment toute la ligne.

Plus remarquable encore sur les benchmarks textuels : le 9B surpasse GPT-OSS-120B, le modèle open source d'OpenAI qui pèse pourtant… 120 milliards de paramètres, soit treize fois plus. C'est le cas en raisonnement scientifique (GPQA Diamond : 81,7 contre 80,1), en connaissances générales (MMLU-Pro : 82,5 contre 80,8) ou encore en compréhension de contextes longs (LongBench v2 : 55,2 contre 48,2). La version 4B, plus modeste, reste aussi au-dessus de GPT-5 Nano et Gemini Flash-Lite sur la majorité des benchmarks vision, ce qui en fait une option très crédible pour les configurations les plus contraintes. Qwen 3.5 pèche toutefois en code (LiveCodeBench) : le 9B plafonne à 65,6 contre 82,7 pour GPT-OSS-120B (la taille compte encore pour les tâches de code complexe). Même décalage sur les compétitions mathématiques avancées (HMMT) : 83,2 contre 90,0 pour le modèle d'OpenAI.

En clair, pour les usages classiques, analyse de documents, raisonnement visuel, compréhension multilingue, agents Qwen 3.5-9B joue dans la cour des grands. Mais pour le code de haut niveau et les mathématiques de compétition, les modèles plus lourds conservent une longueur d'avance.

Un modèle simple et facile à installer

Publié sous licence Apache 2.0, Qwen 3.5 est entièrement gratuit et libre d'utilisation, y compris pour un usage commercial (et c’est notable). En version Q4 (compression du modèle par quantization), le 9B exige environ 6 Go de VRAM, le 4B environ 3Go de VRAM le 2B environ 1,5 Go le 0.8B moins d’un giga de VRAM. Ce dernier peut même être inféré sur un smartphone récent, sans trop de latence.

Pour tester Qwen 3.5 sur votre machine, le plus simple reste LM Studio, disponible sur Windows, macOS et Linux. Une fois le logiciel installé, il suffit de taper "Qwen3.5" dans la barre de recherche, de choisir la version souhaitée (9B, 4B, 2B ou 0.8B) et le niveau de quantization adapté à votre configuration (Q6 ou Q8 selon la précision désirée), puis de cliquer sur "Télécharger".

Téléchargement de Qwen 3.5 9B en Q4 depuis LM Studio. © Capture d’écran / JDN

En quelques minutes, le modèle est opérationnel : une interface de chat intégrée permet de l'interroger directement, texte et images compris. Aucune ligne de commande, aucune configuration technique. Le tout fonctionne hors connexion, vos données restent sur votre machine.

Qwen 3.5 9B parvient à comprendre que le détroit d’Ormuz est bloqué à partir d’une capture d’écran du trafic maritime. © Capture d’écran / JDN

Difficile de ne pas être impressionné par ce que propose Alibaba avec Qwen 3.5. Un modèle multimodal, open source, qui tourne sur un PC de bureau et tient tête à des modèles propriétaires treize fois plus lourds. Pour les développeurs, les entreprises soucieuses de garder leurs données en local ou simplement les curieux qui veulent tester l'IA sans sortir la carte bleue, la proposition est difficile à ignorer. Reste que le paysage de l'IA open source chinois évolue à une vitesse qui rend tout pronostic hasardeux. DeepSeek prépare une V4 qui pourrait une fois de plus tout rebattre dans les prochains jours…