Test de Gemini 3 : un modèle brillant mais deux fois plus cher que son prédécesseur

Gemini offre des capacités supérieures à la majorité des LLM du marché mais si les benchmarks sont excellents, c'est bienen design que l'IA de Google surperforme.

“Félicitations à Google pour Gemini 3 ! Il semble que ce soit un excellent modèle.” Même Sam Altman reconnaît que le groupe a frappé très fort. Présenté le 18 novembre, Gemini 3 Pro se hisse à l’état de l’art sur une large gamme de benchmarks, en particulier sur l’analyse multimodale (image, vidéo, audio) et sur la génération de code. Google le décrit comme un modèle véritablement “universel”, pensé pour fonctionner de manière homogène dans Search, dans l’application Gemini et dans les API destinées aux développeurs, une première à cette échelle.

Mais la vraie différence se joue surtout dans le scaffold que Google a développé autour du modèle : mode agentique, Visual Layout, Dynamic View… Des fonctionnalités clés, mais encore en cours de déploiement pour une partie des utilisateurs. Pour cette raison, le JDN a choisi de tester Gemini 3 Pro dans sa version la plus brute, sans bénéficier pleinement de ce scaffold, afin d’évaluer ce que le modèle vaut vraiment, en lui-même. Nous avons également comparé le modèle avec GPT-5.1, dernier modèle SOTA en date sur les benchmarks STEM.

SVG, code, texte en français : le test du JDN

Pour l’occasion, nous avons testé Gemini 3 et GPT-5.1 sur 4 cas d’usage différents : la génération de texte en français, la génération d’un SVG fixe, la génération d’un SVG animé et enfin la génération du code c++ d’un générateur aléatoire de mot de passe.

1. Générer un texte en français

Prompt : Rédige une analyse de 500 mots exactement en français sur l'état actuel des marchés financiers. Le texte doit couvrir la valorisation actuelle des principaux indices boursiers, les anticipations de rendement pour les prochains mois, les risques d'éclatement de la bulle IA avec un focus sur le décalage entre valorisations tech et déploiement concret, ainsi que le contexte macroéconomique global incluant inflation, taux d'intérêt et croissance. Adopte un ton factuel et analytique adapté à un lectorat professionnel. Ne rédige que le corps du texte sans titre. Contrainte absolue : exactement 500 mots, pas un de plus ni un de moins.

Gemini propose une analyse claire et plus accessible que GPT-5.1, qui adopte une structure plus segmentée par thèmes, avec des blocs distincts (valorisation, anticipations, fragilités, macro). En revanche, l’IA d’OpenAI adopte un ton plus neutre et moins alarmiste que Gemini. Sur le style, Gemini 3 privilégie des phrases plus longues avec davantage de subordonnées et GPT-5.1 utilise des phrases plus courtes et factuelles, avec une cadence plus soutenue. Enfin, sur le respect de la consigne de calibrage, Gemini est le grand gagnant. Il génère 502 mots quand GPT-5.1 en génère 522. On s'étonenra en revanche que l'IA d'OpenAI estime que les marchés ne sont pas au plus haut, ce qui est factuellement faux.

2. Générer l’image SVG d’un iPhone

Prompt : Génère le code SVG complet et autonome d'un iPhone 16 Pro avec un niveau de détail maximal. Reproduis fidèlement les proportions exactes du modèle, les courbes arrondies caractéristiques, le module caméra triple avec disposition en triangle, le bouton Action, les boutons de volume, le port USB-C, et l'encoche Dynamic Island. Soigne particulièrement les dégradés de couleur pour le titane, les reflets sur l'écran, les ombres portées et les détails du module photo. Le SVG doit être complet, prêt à l'usage et visuellement réaliste avec des finitions professionnelles dignes d'un rendu de produit Apple.

L'image la plus réaliste est clairement celle de Gemini 3. Elle reproduit quasi-parfaitement le design de l’iPhone 16 Pro. Les reflets, les textures du verre et du métal, ainsi que les proportions sont extrêmement proches de la réalité (on reconnaît instantanément un vrai iPhone récent). Seul problème : le logo Apple est décalé. Côté GPT-5.1, les capteurs photo sont décalés, tout comme le ring de charge. Gemini 3 gagne haut la main, les progrès de l’IA de Google sont assez notables.

3. Générer le SVG du système solaire animé

Prompt : Génère le code SVG complet et autonome d'une représentation animée du système solaire. Le soleil doit être au centre avec les huit planètes en orbite autour de lui. Chaque planète doit avoir ses couleurs caractéristiques fidèles à la réalité : teintes orangées pour Mercure, blanc-jaunâtre pour Vénus, bleu-vert pour la Terre, rouge-orangé pour Mars, bandes beiges et ocres pour Jupiter, anneaux dorés pour Saturne, bleu-vert pâle pour Uranus, bleu profond pour Neptune. Intègre des animations CSS ou SMIL pour simuler les rotations orbitales avec des vitesses relatives cohérentes et un effet de profondeur 3D suggérant que les planètes passent devant et derrière le plan. Les trajectoires elliptiques doivent être visibles. Le code doit être complet, fonctionnel et visuellement immersif avec des finitions soignées.

Gemini 3

Ratio 5:3

GPT-5.1

Ratio 1:1

Pour le système solaire animé, l’écart est net. Le code généré par GPT-5.1 est verbeux et bancal : le SVG ne se charge pas correctement, les animations d’orbite ne s’exécutent pas et le système solaire reste tout simplement figé. A l’inverse, Gemini 3 produit un SVG valide et immédiatement exploitable : les huit planètes tournent autour du Soleil avec des vitesses relatives cohérentes, suivent des trajectoires elliptiques visibles et passent alternativement devant et derrière le plan, créant un effet de profondeur crédible. L’avantage est donc clairement à Gemini 3.

4. Un générateur aléatoire de mot de passe en C++

Prompt : Génère le code C++ complet d'un générateur de mots de passe cryptographiquement sécurisé et approprié pour garantir une véritable imprévisibilité. Le code doit être compilable directement, bien commenté et structuré avec des fonctions claires. Assure une distribution uniforme des caractères et une entropie maximale pour des mots de passe réellement sécurisés.

GPT-5.1 produit objectivement le meilleur code. L'IA d'OpenAI utilise les API système natives de l'OS pour une meilleure compatibilité du code. La gestion des erreurs est également meilleure. Le code est aussi plus complet. Enfin, la documentation est beaucoup plus claire. Bref le code de GPT-5.1 est directement utilisable en production. La vraie question est donc de savoir si Gemini 3 est réellement moins performant en génération backend, ou si son apparente faiblesse vient surtout du fait qu’il requiert un niveau d’instruction beaucoup plus élevé en l’absence de scaffold de programmation.

Pour vérifier cette théorie nous décidons de retenter la génération dans Antigravity, le nouvel IDE agentique de Google. Et le résultat est véritablement meilleur. Sur un environnement Windows, le code de Gemini 3 (200 lignes) est en réalité aussi sécurisé que celui de GPT-5.1.

Gemini 3 : un pricing en forte hausse

Gemini 3 Pro s'accompagne d'une tarification nettement plus élevée que ses prédécesseurs. Google facture 2 dollars par million de tokens en input pour les requêtes inférieures à 200 000 tokens, un montant qui grimpe à 4 dollars au-delà de ce seuil. L’output coûte 12 dollars par million de tokens pour les requêtes standard, atteignant 18 dollars pour les plus volumineuses. Des tarifs en forte hausse par rapport à Gemini 2.5 Pro, proposé à 1,25 dollar en input et 10 dollars en output. Google semble s’être aligné sur OpenAI. La scale-up de San Francisco propose son modèle phare à 1,25 dollar en input et 10 dollars en output, des montants légèrement inférieurs mais du même ordre de grandeur.

Modèle	Input (< 200k tokens)	Input (> 200k tokens)	Output (< 200k tokens)	Output (> 200k tokens)
Gemini 3 Pro	2,00 $	4,00 $	12,00 $	18,00 $
Gemini 2.5 Pro	1,25 $	2,50 $	10,00 $	15,00 $
GPT-5.1	1,25 $		10,00 $

Conclusion

Gemini 3 Pro s'impose comme un modèle techniquement solide, particulièrement performant sur les tâches visuelles et multimodales. Toutefois, la comparaison avec GPT-5.1 révèle des écarts notables sur le code backend, où l'IA d'OpenAI produit des implémentations plus robustes et directement exploitables en production. S'agit-il d'une faiblesse intrinsèque du modèle ou simplement du besoin d'un prompting plus élaboré ? Notre test révèle surtout que Gemini 3 nécessite son scaffold de programmation pour donner le meilleur de lui-même. Intégré dans Antigravity, l'IDE agentique de Google, Gemini 3 devrait théoriquement mieux structurer ses sorties et s'adapter aux contraintes de l'environnement. La performance réelle dépend donc largement de l'outillage qui l'entoure.