GPT Image 1.5 vs Nano Banana Pro : quel est le meilleur modèle IA de génération d'image ?
OpenAI peut-il rattraper son retard sur la génération et l’édition d’images par IA ? Dépassée par Google, notamment avec Nano Banana Pro, la scale-up californienne a dévoilé le 17 décembre dernier un nouveau modèle pour produire et éditer des images à partir de prompts : GPT Image 1.5. Le modèle serait quatre fois plus rapide que le précédent (c’était une critique récurrente des utilisateurs) et l’édition d’image se voudrait plus précise, tout en préservant mieux l’aspect original (la grande force de Nano Banana Pro). Il serait également nettement supérieur en suivi des instructions. En somme, une véritable mise à jour, qui pourrait le positionner au niveau de Nano Banana Pro. Comparatif.
Ratio, résolution : des différences notables
|
Ratio |
Nano Banana Pro |
GPT Image 1.5 |
|---|---|---|
|
1:1 |
✅ |
✅ |
|
4:3 & 3:4 |
✅ |
✅ |
|
16:9 & 9:16 |
✅ |
❌ |
|
3:2 & 2:3 |
✅ |
✅ |
|
21:9 |
✅ |
❌ |
|
4:5 & 5:4 |
✅ |
❌ |
Première différence majeure : Nano Banana Pro, alias gemini-3-pro-image-preview chez Google, supporte un éventail de ratios bien plus large que le modèle d’OpenAI. Du 1:1 au 21:9, en passant par le 4:3 et le 3:2, les possibilités sont nettement plus étendues. A l’inverse, GPT Image 1.5 se limite pour l’instant au 1:1, 4:3 et 3:2. Des formats certes très répandus sur le web, mais restrictifs pour les créatifs souhaitant l’exploiter au quotidien.
Autre différence notable : la résolution. Les images générées par GPT Image 1.5 sont limitées à la HD standard, tandis que Nano Banana Pro peut produire des visuels jusqu’en 4K. Un avantage décisif, là encore, pour les créatifs. Dans le cadre d’une publicité imprimée, par exemple, Nano Banana Pro pourra être utilisé sans difficulté, quand GPT Image 1.5 risque de produire des images insuffisamment détaillées. Dommage.
OpenAI ou Google, sur le prix l’avantage dépend du cas d'usage
|
Type de coût (pour 1M tokens) |
GPT Image 1.5 |
Banana Pro |
|---|---|---|
|
Input - Texte |
5,00 $ |
2,00 $ |
|
Input - Image |
8,00 $ |
2,00$ |
|
Output - Texte |
10,00 $ |
12,00 $ |
|
Output - Image |
32,00 $ |
120,00$ |
Concrètement, le coût “Input – Texte” correspond aux tokens utilisés pour analyser le prompt (instructions, contraintes, descriptions). Le coût “Input – Image” reflète l’analyse de l’image fournie, pour l’édition par exemple. En sortie, l’“Output – Texte” couvre les tokens nécessaires aux éventuelles descriptions, métadonnées ou raisonnements générés, tandis que le “Output – Image” représente le coût principal : la génération ou l’édition de l’image elle-même, de loin l’opération la plus lourde en calcul.
Dans les faits, Nano Banana Pro est plus économique sur les entrées (texte et image), ce qui le rend intéressant pour des workflows très itératifs, avec beaucoup de prompts ou de retouches successives. En revanche, la génération d’images en sortie y est nettement plus chère, ce qui peut rapidement faire grimper la facture en production. A l’inverse, GPT Image 1.5 coûte davantage à l’entrée, mais se montre beaucoup plus compétitif sur l’output image. En clair, Banana Pro sera moins cher pour de l’édition d’images et GPT Image 1.5 plus avantageux pour la génération.
Le test du JDN
Pour débuter ce test, nous commençons par analyser la capacité du modèle à produire une image à partir d’un prompt textuel. Nous finirons ensuite dans les deux derniers exemples par modifier des images existantes pour tester les capacités d’édition.
1. Packaging produit avec une identité visuelle
Prompt : A luxury cosmetic bottle on a minimalist marble pedestal, soft morning light from the left, product photography style. The bottle is frosted glass, cylindrical, 100ml, with a wooden cap. Label shows "LUMINA" in elegant serif font, gold foil effect, with a small botanical illustration of lavender below. Soft purple and cream color palette. Clean white background, studio lighting with subtle shadows, commercial product shot, 8K quality, hyperrealistic.


Point positif : les deux images respectent scrupuleusement les consignes données dans le prompt. Même la police d’écriture est respectée. Seul GPT ajoute une touche personnelle : "fl.oz." qui signifie fluid ounces (onces liquides en anglais). Sur le réalisme global, Nano Banana Pro emporte nos faveurs. Le reflet lumière est plus naturel sur les lettres. De même, l'esthétique générale est légèrement plus raffinée chez Google. Le résultat est toutefois serré, match nul.
2. Une scène conceptuelle 3D d’une smart city
Prompt : Aerial view of a futuristic sustainable city district at golden hour, 2040. Modular buildings with vertical gardens and solar panel roofs, interconnected by elevated pedestrian walkways. Autonomous electric shuttles on dedicated lanes below. Central plaza with people interacting with holographic information displays. Drone delivery ports on rooftops. Mix of glass, wood and green architecture. Warm cinematic lighting, photorealistic, architectural visualization style, shot with tilt-shift lens effect for miniature look. No flying cars. European architectural aesthetic, not Asian megacity.


Sur ce prompt plus complexe, les deux modèles s'en sortent honorablement mais avec des différences notables. Nano Banana penche vers une esthétique de mégapole asiatique, avec des tours modulaires verticales. GPT respecte davantage la consigne d'architecture européenne : on distingue des toits parisiens en arrière-plan, une échelle urbaine plus mesurée. Les hologrammes de la place centrale sont aussi plus lisibles chez OpenAI, tout comme l'effet maquette demandé. Le rendu reste serré, mais sur ce test exigeant, GPT a un léger avantage.
3. Modifier un élément dans une image
Prompt : Replace the background with a futuristic cyberpunk cityscape at night, neon lights, skyscrapers with holographic billboards, rain-soaked streets visible below, purple and blue color palette. Keep the same Renaissance lighting on the figure, atmospheric perspective matching the original painting's depth. Dystopian but painterly style.


Pour tester la modification d’image, nous demandons aux modèles de remplacer l'arrière- plan du tableau par un fond cyberpunk. Nano Banana Pro suit le prompt à la lettre. Palette violet-bleu respectée, rues humides en contrebas, perspective atmosphérique... Tout y est. GPT, lui, prend des libertés créatives : dominante rouge-rose au lieu du bleu strict, reflets aquatiques remplaçant les rues. Mais paradoxalement, c'est le modèle d’OpenAI qui offre le rendu le plus agréable à l'œil.
4. Ajouter un élément dans une image
Prompt : Apple AirPods Max headphones in silver/white color covering both ears, with the distinctive mesh ear cups and metal headband arch visible over the top of the turban. The headband should curve naturally over her head, partially hidden by the blue and yellow turban fabric. The headphones should be painted in Johannes Vermeer's oil painting technique with soft, diffused lighting from the left side. Match the original painting's color palette - use cool silvery-grays with subtle yellow highlights where light hits the metal. Maintain the smooth, luminous quality and soft edges characteristic of Dutch Golden Age painting. The ear cups should have the same pearl-like sheen as the famous earring. Classical 17th century oil painting style, not modern photography. Soft shadows, gentle color transitions, masterful chiaroscuro lighting matching Vermeer's technique.


Pour tester les limites de l'inpainting, nous avons demandé aux modèles d'ajouter des Airpods Pro Max. L'image générée par GPT l'emporte clairement : l’image donne l'impression que le peintre a peint un casque du 17ème siècle. A l'inverse, la seconde version commet l'erreur classique des modèles de génération d'image : plaquer l’objet au rendu moderne et plastique sur une œuvre ancienne sans intégration.
Un match serré : que faut-il en retenir ?
Si Google conserve une avance technique indéniable avec Nano Banana Pro ( formats plus variés, résolution 4K) OpenAI rattrape une partie de son retard avec GPT Image 1.5. Le modèle se distingue notamment sur l'édition; il parvient à mieux intégrer de nouveaux éléments dans le style original d'une œuvre. Côté tarification, les deux acteurs ont fait des choix stratégiques distincts : Nano Banana Pro privilégie l'itération rapide et l'édition (inputs moins chers), tandis que GPT Image 1.5 mise sur la compétitivité en production intensive (output image plus accessible). En clair, le choix dépendra de l'usage : pour du design professionnel exigeant en résolution et formats, Google reste devant. Pour de la génération en volume ou de l'édition créative fine, OpenAI devient une option crédible.