Faut-il adopter Kimi K2, la nouvelle référence de l'open source ?

Faut-il adopter Kimi K2, la nouvelle référence de l'open source ? Le laboratoire chinois Moonshot dévoile un modèle de raisonnement à l'état de l'art sur plusieurs benchmarks de référence.

Est-ce le nouveau DeepSeek ? La start-up Moonshot, backée par Alibaba, lance Kimi K2 un modèle agentique doté de raisonnement. L'IA s'impose comme la nouvelle référence de l'open source avec des scores dans les benchmarks qui n'ont rien à envier aux modèles propriétaires.

Code, mathématiques… Les points forts de Kimi K2

Kimi K2 s'impose comme un redoutable concurrent aux géants propriétaires sur les tâches de développement et de mathématiques. Sur LiveCodeBench v6 (génération de code en temps réel), le modèle atteint 53,7% de réussite, surpassant significativement DeepSeek-V3 (46,9%) et se positionnant au niveau de Claude Sonnet 4 (48,5%) et Claude Opus 4 (47,4%). Sur SWE-bench Verified (benchmark utilisé pour analyser la capacité agentique de l'IA), Kimi K2 affiche des performances notables avec 65,8% de réussite, juste derrière Claude Sonnet 4 (72,7%). Plus impressionnant encore, sur les mathématiques, le modèle obtient 69,6% sur AIME 2024 devançant les modèles Claude.

Toutefois Kimi K2 révèle quelques faiblesses sur les benchmarks régaliens. Sur SimpleQA (questions factuelles simples), le modèle plafonne à 31% de réussite, loin derrière GPT-4.1 qui affiche 42,3%. L'écart se creuse également sur des benchmarks comme Humanity's Last Exam (examen de culture générale avancée) où Kimi K2 obtient seulement 4,7% contre 7,1% pour Claude Opus 4. Moonshot AI reconnaît par ailleurs des problèmes de génération excessive de tokens sur certaines tâches de raisonnement complexe, pouvant conduire à des sorties tronquées ou incomplètes.

Une base MoE, 1000 milliards de paramètres

Kimi K2 repose sur une architecture MoE (popularisée par Mistral AI). Le modèle compte 1 trillion de paramètres au total (1000 milliard), dont seulement 32 milliards activés simultanément lors de l'inférence. Une architecture rodée qui permet d'atteindre les performances d'un modèle dense tout en conservant des coûts computationnels maîtrisés.

Pour l'inférence,  la version quantifiée Q8 complète de Kimi K2 nécessite environ 8 H200 pour des performances optimales, avec au moins 250 GB de mémoire unifiée. Toutefois, moins de 72 heures après sa publication, la communauté open source a déjà produit des versions optimisées des poids. UnslothAI propose ainsi une version capable de fonctionner sur un MacBook M4 Max avec 128 Go de VRAM (en utilisant l'offloading mémoire) ou sur un Mac Studio M3 Ultra de 512 Go.

Kimi K2 est distribué sous licence MIT : l'utilisation et la modification sont permises à des fins commerciales. La seule contrainte concerne les applications à très grande échelle : si un produit commercial dépasse les 100 millions d'utilisateurs actifs mensuels ou génère plus de 20 millions de dollars de revenus mensuels, l'interface utilisateur doit afficher la mention "Kimi K2".

Faut-il adopter Kimi K2 ?

Kimi K2 pourrait s'imposer comme une référence pour le code agentique. Ses très bonnes performances sur SWE-bench Verified (65,8%) en font un candidat sérieux pour remplacer les modèles Claude moyennant un investissement en infrastructure adapté. Pour les entreprises, l'inférence locale de Kimi K2 pourrait s'avérer économiquement avantageuse face aux tarifs prohibitifs des API propriétaires (pour les cas d'usage autour du code). Attention toutefois, pour reproduire les performances de Kimi K2 dans les benchmarks, il faudra utiliser la version la plus faiblement quantizée. Une version qui nécessite beaucoup plus de ressources et demande donc une évaluation précise des coûts.

Néanmoins, en dehors des cas d'usage autour du développement ou de l'agentique avancé, Kimi K2 peine à justifier son adoption. Son ratio performances/compute s'avère décevant comparé à des modèles open source plus compacts comme Phi, qui offrent une efficacité énergétique et une rapidité d'inférence supérieures. Avec seulement 31% sur SimpleQA contre 42,3% pour GPT-4.1, ce trillion de paramètres s'avère surdimensionné pour la plupart des tâches d'assistance générale.