QwQ-32B, Qwen Max… Quel modèle Alibaba Cloud pour quel usage ?

QwQ-32B, Qwen Max… Quel modèle Alibaba Cloud pour quel usage ? Alibaba Cloud propose une grande variété de LLM adaptés à la majorité des cas d'usage du marché, pour un prix très compétitif.

La Chine continue d'exceller en IA, avec un nouveau coup d'éclat signé Alibaba. La firme vient de frapper fort le 5 mars 2025 avec QwQ-32B, un modèle de raisonnement qui rivalise avec le très médiatisé DeepSeek R1, mais pour une fraction de ses ressources computationnelles. Là où DeepSeek R1 nécessite 671 milliards de paramètres et plus de 1500 Go de vRAM (16 GPU Nvidia A100), QwQ-32B atteint des performances comparables avec seulement 32 milliards de paramètres et 24 Go de vRAM sur un seul GPU. Cette prouesse d'ingénierie s'inscrit dans une stratégie plus large d'Alibaba Cloud, qui a développé depuis avril 2023 une famille de LLM remarquablement complète : Qwen. Ses modèles généralistes, propriétaires comme open source, se classent régulièrement parmi les plus performants dans les benchmarks, confirmant la montée en puissance de l'IA chinoise face aux poids lourds américains du secteur.

Des modèles propriétaires et des versions open source

En mars 2025, Alibaba Cloud propose à la fois des modèles propriétaires et open source. Modalité, contexte, performance sur les tâches complexes, rapidité… Voici ci-dessous un comparatif de l'ensemble des large language model actuellement déployés sur Alibaba Cloud Model Studio, la plateforme d'Alibaba Cloud dédiée à l'IA générative.

Les modèles propriétaires

Modèle Tâches complexes Modalité (input) Tokens (input) Tokens (output) Contexte Rapide
Qwen-Max (2.5 Max) x texte 30 720 8 192 32 768  
Qwen-Plus x texte 129 024 8 192 131 072 x
Qwen-Turbo   texte 1 000 000 8 192 1 000 000 x
Qwen-VL-Plus   texte, image 6 000 1 500 7 500  
Qwen-VL-Max x texte, image 6 000 1 500 7 500  

Les modèles open source

Modèle Tâches complexes Modalité (input) Tokens (input) Tokens (output) Contexte Rapide
qwen2.5-14b-instruct-1m   texte 1 000 000 8 192 1 000 000  
qwen2.5-7b-instruct-1m   texte 1 000 000 8 192 1 000 000 x
qwen2.5-72b-instruct x texte 129 024 8 192 131 072  
qwen2.5-32b-instruct x texte 129 024 8 192 131 072  
qwen2.5-14b-instruct   texte 129 024 8 192 131 072  
qwen2.5-7b-instruct   texte 129 024 8 192 131 072 x
qwen2-72b-instruct x texte 128 000 6 144 131 072  
qwen2-57b-a14b-instruct   texte 63 488 6 144 65 536  
qwen2-7b-instruct   texte 128 000 6 144 131 072 x
qwen1.5-110b-chat   texte 6 000 2 000 8 000  
qwen1.5-72b-chat   texte 6 000 2 000 8 000  
qwen1.5-32b-chat   texte 6 000 2 000 8 000  
qwen1.5-14b-chat   texte 6 000 2 000 8 000  
qwen1.5-7b-chat   texte 6 000 2 000 8 000 x
qwen2.5-vl-72b-instruct  x texte, image, video 129 024 8 192 131 072  
qwen2.5-vl-7b-instruct   texte, image, video 129 024 8 192 131 072 x
qwen2.5-vl-3b-instruct   texte, image, video 129 024 8 192 131 072 x
 QwQ-32B X texte NC NC 131 072  
Pour les organisations cherchant des performances optimales avec support commercial, les modèles propriétaires d'Alibaba Cloud offrent des solutions adaptées à chaque besoin. Qwen-Max (2.5 Max) s'impose pour les tâches complexes nécessitant une intelligence avancée, tandis que Qwen-Plus propose un excellent équilibre entre performance et coût. Les entreprises privilégiant la rapidité de traitement se tourneront vers Qwen-Turbo, idéal pour les applications temps réel avec une grande capacité d'un million de tokens de contexte. Pour l'analyse de contenus visuels, Qwen-VL-Max excelle dans la compréhension d'images complexes. Attention en revanche quant aux modèles propriétaires d'Alibaba : il convient de rester vigilant aux enjeux de sûreté pour les secteurs sensibles.

Les versions open source de Qwen constituent une alternative intéressante pour les entreprises soucieuses de leur indépendance technologique ou confrontées à des contraintes réglementaires strictes (en usage local donc). Pour les tâches exigeantes, qwen2.5-72b-instruct se démarque avec ses 72 milliards de paramètres, tandis que qwen2.5-7b-instruct répond efficacement aux besoins courants textuels avec une vitesse plus élevée. Les modèles multimodaux comme qwen2.5-vl-72b-instruct ajoutent la capacité de traiter des images et des vidéos jusqu'à 10 minutes. Qwen1.5 n'est, selon nous, plus pertinent pour un usage en production. 

Enfin pour les entreprises souhaitant développer des capacités agentiques, QwQ-32B est la solution idéale. Dévoilé le 5 mars 2025, le modèle raisonne aussi bien que DeepSeek R1 avec seulement 32 milliards de paramètres. 

Un pricing très attractif

Modèle Prix de 1000 tokens en input ($) Prix de 1000 tokens en output ($)        
Qwen-Max (2.5 Max) 0.0016 0.0064
Qwen-Plus 0.0004 0.0012
Qwen-Turbo 0.00005 0.0002
Qwen-VL-Plus 0.00021 0.00063
Qwen-VL-Max 0.0008 0.0032
qwen2.5-14b-instruct-1m Gratuit (pour le moment) Gratuit (pour le moment)
qwen2.5-7b-instruct-1m Gratuit (pour le moment) Gratuit (pour le moment)
qwen2.5-72b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
qwen2.5-32b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
qwen2.5-14b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
qwen2.5-7b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
qwen2-72b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
qwen2-57b-a14b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
qwen2-7b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
qwen1.5-110b-chat Gratuit (pour le moment) Gratuit (pour le moment)
qwen1.5-72b-chat Gratuit (pour le moment) Gratuit (pour le moment)
qwen1.5-32b-chat Gratuit (pour le moment) Gratuit (pour le moment)
qwen1.5-14b-chat Gratuit (pour le moment) Gratuit (pour le moment)
qwen1.5-7b-chat Gratuit (pour le moment) Gratuit (pour le moment)
qwen2.5-vl-72b-instruct  Gratuit (pour le moment) Gratuit (pour le moment)
qwen2.5-vl-7b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
qwen2.5-vl-3b-instruct Gratuit (pour le moment) Gratuit (pour le moment)
 QwQ-32B NC NC
L'atout véritable des modèles Qwen d'Alibaba Cloud réside dans leur rapport qualité-prix exceptionnel. Là où Qwen-Max facture seulement 0,0016 dollar pour 1000 tokens en entrée et 0,0064 dollar en sortie, GPT-4o d'OpenAI coûte 0,0025 dollar en entrée et 0,01 dollar en sortie, soit environ 1,6 fois plus cher. L'écart se creuse davantage avec les modèles rapides : Qwen-Turbo (0,00005 dollar en entrée, 0,0002 dollar en sortie) est jusqu'à 3 fois moins onéreux que GPT-4o mini (0,00015 dollar en entrée, 0,0006 dollar en sortie).

Qwen s'impose comme une solution alternative aux modèles américains. Combinant performance technique, diversité d'offre (modèles propriétaires et open source) et tarifs jusqu'à trois fois inférieurs à la concurrence, Qwen illustre parfaitement la montée en puissance de la Chine dans le domaine de l'intelligence artificielle. Une proposition de valeur adaptée adapté à la majorité des cas d'usage en entreprise. Alibaba Cloud est désormais un acteur incontournable du marché mondial de l'IA générative.