NVLM de Nvidia défie GPT-4o : entre percée visuelle et questionnements technologiques

NVLM de Nvidia défie GPT-4o : entre percée visuelle et questionnements technologiques Le géant des puces a dévoilé un nouveau LLM open source à la pointe des performances en matière de compréhension visuelle. Le modèle surpasse GPT-4o en plusieurs points.

Déjà dominant dans le hardware, Nvidia continue son offensive dans le software. Après avoir développé des modèles évaluateurs à la pointe du marché, Nvidia a dévoilé mardi 1er octobre sa famille de LLM open source NVLM 1.0. Selon les benchmarks menés par le géant américain, le modèle surperforme GPT-4o sur les tâches de reconnaissance d'image et d'OCR. Sur les tâches textuelles classiques, NVLM rivalise mais ne dépasse jamais son concurrent.

Une IA basée sur des modèles chinois

NVLM 1.0 a été conçu pour gérer à la fois du texte et des images. Pour gérer ces deux modalités, le modèle intègre plusieurs sous-modèles spécialisés open source : un grand modèle de langage (LLM) pour le texte et un encodeur visuel pour les images, tous deux basés sur des architectures Transformer. NVLM utilise l'encodeur de vision InternViT-6B-448px-V1-5, un modèle développé par un groupe de chercheurs du Shanghai AI Lab, pour extraire les caractéristiques des images. Ces caractéristiques sont ensuite traitées par le modèle de langage (LLM), Qwen2-72B-Instruct développé par Alibaba Cloud.

L'entraînement de NVLM 1.0 s'est déroulé en deux phases. Les chercheurs ont utilisé un vaste ensemble de données multimodales soigneusement sélectionnées, comprenant des images avec leurs descriptions, des questions-réponses visuelles, et des tâches spécifiques comme la reconnaissance de texte dans les images (OCR) et le raisonnement mathématique visuel. Le modèle a ensuite été fine-tuné (en supervised fine-tuning) sur des tâches spécifiques sans l'encodeur visuel. Pendant cette deuxième étape, les chercheurs ont aussi utilisé des données purement textuelles de haute qualité.

Des performances de pointe 

L'architecture innovante du modèle combinée à un entraînement poussé sur des données de haute qualité ont porté leurs fruits. NVLM surpasse tous les autres modèles sur les benchmarks OCRBench (évaluation des capacités OCR des modèles multimodaux) et VQAv2 (compréhension d'images), démontrant une capacité exceptionnelle en reconnaissance optique de caractères et en compréhension d'images. L'IA de Nvidia rivalise avec GPT-4o sur des benchmarks clés comme MathVista (raisonnement mathématique visuel), ChartQA (compréhension de graphiques) et DocVQA (compréhension de documents). Il devrait donc être excellent dans l'analyse de graphiques complexes.

Toutefois, malgré ces performances impressionnantes, NVLM présente quelques faiblesses. Sur le benchmark MMMU, qui évalue le raisonnement du modèle sur des données multidisciplinaires (multimodales) de niveau universitaire, NVLM (59.7%) reste en deçà des performances de GPT-4o (69.1%) et de Claude 3.5 Sonnet (68.3%). De même, sur les benchmarks textuels plus classiques (MMLU, GSM8K, HumanEval), le modèle reste en retrait par rapport aux leaders propriétaires (OpenAI et Anthropic).

NVLM pourrait être particulièrement utile dans un système d'IA d'analyse de documents complexes (rapports financiers, graphiques…) ou encore au sein de moteurs de recherche avancés, par exemple pour l'amélioration des systèmes de recherche visuelle ou la description de produits (en e-commerce par exemple). Son caractère open source permet de le déployer en cloud ou on premise facilement. Attention, il faudra toutefois un système capable d'assurer l'inférence des 70 milliards de paramètres.

Une nouvelle ère pour l'IA open source

Pour l'heure, Nvidia a open-sourcé les poids du modèle sur Hugging Face, et le code d'entrainement associé. Petit disclaimer, NVLM s'appuie sur des composants développés par des entreprises chinoises, notamment le LLM cœur du modèle (Qwen2-72B-Instruct) et l'encodeur visuel (InternViT-6B). Cette dépendance envers des technologies chinoises peut présenter des risques potentiels encore non identifiés. Les entreprises, particulièrement celles opérant dans des secteurs sensibles ou soumis à des réglementations strictes, devront évaluer attentivement les risques avant un éventuel déploiement.

L'émergence de NVLM marque une nouvelle ère dans le développement de l'IA, où les modèles open source s'appuient maintenant sur les fondations solides établies par leurs prédécesseurs pour atteindre des performances de pointe. Plus concrètement, l'innovation en IA ne reposera plus uniquement sur la création de modèles entièrement nouveaux, mais sur la capacité à affiner et à optimiser des architectures existantes, en mettant l'accent sur la qualité des données d'entraînement et le développement de techniques d'entraînement innovantes.