DeepSeek V3 et R1 : deux IA chinoises qui en imposent, même aux meilleurs

Le chinois DeepSeek développe des modèles d'intelligence artificielle open source avec des performances proches de ceux d'OpenAI.

C'est l'un des acteurs phare de l'IA open source en ce début d'année. Fondée en mai 2023 par le fonds High-Flyer, DeepSeek a concentré ses efforts sur le développement de la recherche fondamentale en IA. Comme OpenAI, la start-up chinoise a pour principal objectif d'atteindre l'intelligence artificielle générale. En attendant d'atteindre ce but ultime, DeepSeek dévoile à date régulière des modèles open source SOTA (à la pointe des performances dans les benchmarks). DeepSeek V3, un LLM à 600 milliards de paramètres et R1, un modèle de raisonnement similaire à o1, en sont de parfaits exemples. L'entreprise vient également de dévoiler une application mobile similaire à ChatGPT.

DeepSeek V3 : le LLM open source à 600 milliards de paramètres

Après Meta et les 405 milliards de paramètres du dernier Llama 3.1, DeepSeek V3 franchit un nouveau record en proposant un modèle à 671 milliards de paramètres. Basé sur une architecture MoE, le modèle n'active "que" 37 milliards de paramètres. L'entraînement du modèle s'est déroulé sur environ 2,7 millions d'heures GPU H800 (moins de deux mois) pour un cout d'environ 5,6 millions de dollars. Pour comparaison l'entraînement de modèles comparables comme GPT-4 aurait coûté plusieurs centaines de millions de dollars selon les estimations.

La prouesse est d'autant plus impressionnante que DeepSeek V3 serait meilleur que GPT-4o et Claude 3.5 dans les benchmarks. Le modèle excelle particulièrement en mathématiques et en programmation. Sur MATH-500, qui évalue la résolution de problèmes mathématiques complexes, il atteint 90,2%, devançant significativement GPT-4o (74,6%) et Claude 3.5 (78,3%). Sur AIME 2024, un test mathématique, il obtient 39,2% contre seulement 9,3% pour GPT-4o et 16% pour Claude 3.5. En programmation, il domine sur Codeforces avec 51,6% (contre 23,6% pour GPT-4o et 20,3% pour Claude 3.5). En revanche, sur SimpleQA, qui teste les connaissances factuelles, DeepSeek V3 (24,9%) reste en retrait par rapport à GPT-4o (38,2%) et Claude 3.5 (28,4%). Une faiblesse qui s'explique par un focus délibéré sur les capacités de raisonnement plutôt que sur l'accumulation de connaissances encyclopédiques.

Des résultats excellent qui ne compensent toutefois pas la polyvalence d'utilisation des modèles propriétaires généralistes. DeepSeek V3 n'est pas capable de traiter des modalités autres que le texte. Dommage.

R1 : un modèle de raisonnement supérieur à o1 d'OpenAI ?

C'est l'autre modèle phare de ce premier trimestre. Annoncé en janvier, R1 est un modèle optimisé pour le raisonnement. Comme o1, R1 se base sur le principe de la chain-of-thought (CoT). Au lieu de produire une réponse directement, le modèle génère une série de pensées qui mènent à la solution finale. Dérivé de DeepSeek-V3, le modèle dispose de 671 milliards de paramètres dont 37 actifs à l'inférence.

Mais la véritable force de R1 réside ailleurs. Grâce à un travail de recherche poussé, les chercheurs de DeepSeek sont parvenus, en utilisant la distillation, à transférer les capacités de raisonnement de R1 vers des modèles plus petits et plus efficaces. Ces derniers ont utilisé 800 000 exemples de données de raisonnement générées par R1 pour affiner des modèles open source comme Qwen et Llama. Les résultats sont impressionnants : le modèle DeepSeek-R1-Distill-Qwen-7B, avec seulement 7 milliards de paramètres, surpasse les modèles non optimisés pour le raisonnement (comme GPT-4o) sur une variété de benchmarks.

Au total, 6 modèles supplémentaires basés sur Qwen et Llama sont lancés :

Qwen2.5-Math-1.5B
Qwen2.5-Math-7B
Llama-3.1-8B
Qwen2.5-14B
Qwen2.5-32B
Llama-3.3-70B-Instruct.

DeepSeek-R1-Distill-Qwen-7B surpasse GPT-4o-0513 et Claude-3.5-Sonnet-1022 sur des tâches de raisonnement. DeepSeek-R1-Distill-Qwen-14B dépasse QwQ-32B-Preview sur tous les indicateurs, tandis que les versions 32B et 70B surpassent largement o1-mini sur la plupart des benchmarks.

Une application totalement gratuite

Pour rendre accessible au plus grand nombre ses capacités d'IA, DeepSeek vient de mettre à disposition une application gratuite, pour iOS, Android et sur le web via https://chat.deepseek.com/. L'interface reprend les codes de ChatGPT mais avec l'absence de la quasi-totalité des outils et options avancées. Le chat de DeepSeek se contente d'utiliser DeepSeek V3 par défaut, avec pour seuls outils la recherche web et le RAG (uniquement avec des fichiers texte). Enfin, pour accéder aux capacités de R1, il sera nécessaire d'utiliser l'outil DeepThink.

Bien que n'ayant pas encore la polyvalence des modèles propriétaires, DeepSeek propose déjà des modèles de très bonne facture, qui plus est open source. Basée en Chine, la start-up fait preuve d'une transparence remarquable en publiant l'ensemble de ses recherches. Reste maintenant à voir si DeepSeek parviendra à maintenir son rythme effréné d'innovation face à des concurrents aux moyens colossaux.