Gilles Moyse (Récital) "Avec DeepSeek, l'IA pourrait entrer dans une ère d'abondance"

En quoi les performances de DeepSeek R1, le nouveau LLM chinois, sont-elles si impressionnantes ? Retour sur les caractéristiques d'un modèle qui arrive à faire mieux avec moins, en compagnie d'un expert de l'IA.

JDN. Le modèle R1, de la jeune pousse chinoise Deepseek a pris tout le monde de court dans le monde de l'IA. Qu'est-ce qui explique un tel engouement autour de ce modèle ? En quoi change-t-il fondamentalement la donne ?

Gilles Moyse est auteur, docteur en IA et président de reciTAL, un éditeur de logiciel d'automatisation par l'IA pour les documents et les courriels. © Recital

Gilles Moyse. Il faut d'abord rappeler qu'il y a déjà un mois, DeepSeek avait dans un premier temps sorti son modèle V3, qui avait déjà des résultats très impressionnants, lesquels avaient fait réfléchir beaucoup de monde dans le milieu. L'une des spécificités de R1 est qu'il est entraîné intégralement en apprentissage par renforcement, et non pas en réglage fin supervisé, comme c'est d'habitude le cas pour les LLMs.

Mais le modèle R1 se distingue surtout par son coût extrêmement compétitif. o1, le modèle équivalent chez OpenAI, est à 11 dollars en moyenne par million de tokens en input. Chez DeepSeek, on est à 0,35 dollar. C'est donc 35 fois moins cher ! Et tout cela a été accompli par une équipe qui, si elle compte tout de même une centaine de chercheurs, demeure modeste par rapport à ce que peuvent aligner Microsoft, Google et Meta.

Le modèle a été mis en open source, à rebours de ce que fait une société comme OpenAI. Pourquoi ce choix ? On pourrait plutôt s'attendre à ce que la société chinoise cherche à préserver sa poule aux œufs d'or potentielle…

C'est une stratégie de reconquête. Aujourd'hui, tout le monde ou presque utilise les modèles américains. La stratégie open source constitue donc la seule manière pour Deepseek de répandre l'usage de son LLM, en se démarquant des géants de la Silicon Valley. Même le modèle Llama de Meta, proposé en téléchargement, n'est en réalité pas vraiment open source, dans la mesure où l'on n'a pas accès aux données d'entraînement et où il existe des restrictions à l'usage. Les seuls qui font vraiment de l'open source dans les LLMs aujourd'hui, c'est le Allen Institute for AI, avec OLMO, et Lucie, le LLM français qui a connu les déboires que l'on sait mais dont le jeu d'entraînement a le mérite d'être ouvert.

Le modèle R1 a également pour particularité de pouvoir tourner sur du matériel plus léger…

R1 compte 671 milliards de paramètre, ce qui nécessite tout de même de gros GPUs, mais il peut fonctionner sur des infrastructures plus légères après distillation. La distillation, c'est le transfert de la connaissance de ces gros modèles dans des modèles plus petits et plus efficaces, qui peuvent donc tourner sur du matériel encore plus léger. Deepseek n'est toutefois pas le premier acteur à agir dans ce sens. Nvidia a aussi déployé beaucoup d'efforts en la matière en fournissant des bibliothèques qui permettent de faire tourner davantage de modèles sur des GPUs moins puissants, dans la mesure où elle a intérêt à ce que davantage de personnes utilisent ses produits.

"Le facteur différenciant réside vraiment dans le prix, qui risque de remettre en cause le modèle d'affaires de nombreuses entreprises"

Le facteur différenciant réside vraiment dans le prix, qui risque de remettre en cause le modèle d'affaires de nombreuses entreprises. Ces dernières voient d'un seul coup arriver un nouvel entrant qui propose en libre accès un modèle qui fait aussi bien que le leur et coûte beaucoup moins cher à l'usage. Il est possible que l'IA entre ainsi dans une ère d'abondance, devienne beaucoup plus répandue, et se "commoditise". Une fois qu'un modèle devient téléchargeable en deux clics sur n'importe quel site et qu'on peut le faire tourner sur son ordinateur, il devient difficile pour d'autres acteurs de justifier à côté des coûts et donc des valorisations aussi élevées.