Test de Gpt-4o : des performances accrues à moindre coût

Le nouveau modèle multimodal d'OpenAI offre des performances de pointe en compréhension du langage naturel, du son et de l'image.

C'est le nouveau flagship d'OpenAI. Gpt-4o constitue le meilleur modèle actuel d'OpenAI public. Evolution naturelle de GPT-4 Turbo, Gpt-4o pour "omni" est doté de nouvelles modalités qui lui permettent d'apprécier plus finement le monde qui l'entoure. Il prend en charge en entrée du texte, de l'audio, de l'image ainsi que de la vidéo. En sortie, il peut générer du texte, de l'audio ou des images. Gpt-4o est un excellent modèle en situation d'assistant universel : il peut répondre aux entrées audios en 232 millisecondes, avec une moyenne de 320 millisecondes. Dans une conversation, il devient véritablement pertinent et répond aussi vite qu'un humain.

Gpt-4o : excellent en compréhension audio et visuelle

Doté de 128 000 tokens de contexte dans sa version actuelle, Gpt-4o est véritablement différent des autres modèles multimodaux. Pour traiter les nouvelles multimodalités (vision et audio), il utilise un seul réseau neuronal. Aucune orchestration entre plusieurs modèles spécialisés n'est à l'œuvre, comme c'était le cas avec ChatGPT jusqu'à présent. De manière générale, Gpt-4o performe aussi bien voire mieux que GPT-4 Turbo pour les tâches textuelles, de génération de code ou de raisonnement. Sur MMLU (question de culture générale), Gpt-4o obtient un score de 88,7% devant Claude 3 Opus (86.8%), GPT-4 Turbo (86.8%) et même devant Llama3 400B (qui est toujours en cours d'entraînement chez Meta).

Une image contenant texte, capture d’écran, Caractère coloré, conceptionDescription générée automatiquement

De manière encore plus surprenante, le nouveau modèle phare d'OpenAI performe mieux que Whisper-v3 dans la reconnaissance automatique de la parole et affiche un taux d'erreurs très faible. L'anglais, le français, l'allemand, l'espagnol sont reconnus de manière quasi-parfaite par le modèle. Les langues d'Afrique subsaharienne et d'Asie du Sud sont moins bien supportées, même si GPT-4o améliore globalement la précision.

Une image contenant texte, capture d’écran, diagramme, PoliceDescription générée automatiquement

En vision, Gpt-4o établit de nouveaux standards en matière de compréhension visuelle, surpassant ses concurrents sur plusieurs benchmarks clés. Les résultats des évaluations montrent que Gpt-4o obtient des taux de précision remarquables, notamment 94,2% sur AI2D et 92,8% sur DocVQA, éclipsant ainsi les performances des modèles Gemini et Claude Opus. Cette supériorité s'étend également à d'autres tests comme MathVista et EgoSchema, où Gpt-4o affiche des scores de 63,8% et 72,2% respectivement. En comparaison, les modèles concurrents, dont Gemini 1.0 Ultra et GPT-4 Turbo, enregistrent des résultats nettement inférieurs.

Une image contenant texte, capture d’écran, nombre, documentDescription générée automatiquement

OpenAI a également amélioré le tokeniser de Gpt-4o pour qu'il performe mieux dans vingt langues dont le français (1,1x). Le temps de compréhension et de réponse est donc logiquement plus faible, tout comme le coût.

Un pricing avantageux

L'atout le plus intéressant de Gpt-4o reste son coût. OpenAI étant très certainement parvenu à réduire les coûts d'inférence, Gpt-4o est aujourd'hui 50% moins cher que GPT-4 Turbo. Au million de tokens, Gpt-4o s'affiche à 5 dollars en input et 15 dollars en output. Pour la génération d'image, le prix dépend de la taille. Une image de 3840 x 2160 pixels (4K UHD) s'affiche à 0,005525 dollar quand une image de 1920 x 1080 pixels (Full HD) coûte 0,005525 dollar.

Gpt-4o : un gain notable en français

Nous avons testé GPT4-o depuis Poe. La différence avec la version de Gpt-4o déployée au sein de ChatGPT n'est pas flagrante. OpenAI utilise simplement un prompt system, et des paramètres personnalisés (temperature, max tokens, top P…). En rédaction, Gpt-4o offre un gain notable en français par rapport à GPT-4 Turbo. Le texte est mieux structuré, le style d'écriture plus fluide, les transitions plus harmonieuses et le choix des mots plus précis. Gpt-4o est également moins verbeux, plus proche d'un Claude 3 Opus, référence selon nos tests en rédaction textuelle. A noter que Gpt-4o est beaucoup plus rapide à la génération.

Prompt : Génère un texte de 1 000 mots sur les grandes tendances de la téléphonie mobile en 2025. Utilise un langage riche et varié. © JDN

Nous testons maintenant la capacité du modèle à résumer un très long document. Nous lui soumettons un article scientifique de 71 pages. Encore une fois, Gpt-4o brille par ses performances. Le modèle offre un résumé parfait de l'étude avec une structuration classique. La demande est parfaitement conforme au prompt. GPT-4 Turbo offre de son côté un résultat un peu moins bon avec des éléments additionnels non précisés dans le prompt. De manière générale et selon nos différents tests, Gpt-4o respecte beaucoup mieux le prompt initial et nécessite beaucoup moins d'instructions pour obtenir un résultat qualitatif.

Prompt : Voici un long PDF. Lis le PDF et génère un résumé. © JDN

En génération de code, nous essayons de pousser le modèle dans ses retranchements. Nous demandons au modèle de produire un programme en assembleur x86-64 (peu présent dans les données d'entraînement des modèles classiquement) qui vise à utiliser l'algorithme du crible d'Eratosthène pour trouver tous les nombres premiers inférieurs ou égaux à un nombre donné en entrée. Gpt-4o n'offre pas vraiment d'avancée dans la génération de code. Le code source produit par les deux modèles se vaut. On note, encore, un meilleur respect des consignes initiales par Gpt-4o.

Débutez vos tests avec Gpt-4o !

Gpt-4o offre, selon les benchmarks et selon nos propres tests, des performances globalement meilleures que GPT-4 Turbo. Si on ajoute à cela le prix, il n'est même plus utile de considérer l'utilisation de GPT-4 Turbo. Attention cependant avant de switcher de modèle : Gpt-4o peut répondre de manière différente au sein de vos différents cas d'usage. Il sera nécessaire de benchmarker en profondeur la pertinence du modèle selon vos propres besoins. De plus, il est préférable d'attendre une version de Gpt-4o distribuée directement par Microsoft Azure OpenAI. Le service sera conforme aux exigences d'entreprises (sécurité, latence réduite…) et le taux de disponibilité largement meilleur qu'en passant par l'API d'OpenAI. Il s'agit certainement d'une question de semaines tout au plus de mois avant que Microsoft n'intègre Gpt-4o dans son offre Azure.

A noter également que l'ensemble des fonctionnalités de Gpt-4o ne sont pas encore déployées dans la version actuellement distribuée au public. A l'heure actuelle, seules les modalités texte et image sont prises en charge en entrée. En sortie le modèle ne gère que le texte. Les autres modalités seront déployées dans les prochains mois, une fois l'infrastructure technique et la sécurité du modèle affinées.