Gemini Nano Banana : comment utiliser l'outil de retouche photo de Google ?

Gemini Nano Banana : comment utiliser l'outil de retouche photo de Google ? Nano Banana allias Gemini 2.5 Flash Image permet de créer et d'éditer des images avec une facilité déconcertante, à partir d'un simple prompt textuel.

Après le succès de Gemini 2.0 Flash Image en mars 2025, modèle que le JDN avait testé, Google confirme son essai avec une nouvelle version plus stable et plus agile. Présenté le 26 août dernier, Gemini 2.5 Flash Image permet de créer des images de haute qualité dans un large éventail de styles. Mais ses capacités les plus impressionnantes restent l'édition et la modification de visuels déjà existants. Gemini Nano Banana s'impose comme une alternative simple (bien qu'encore un peu basique) aux outils d'édition d'image. Pour comprendre ses capacités, le JDN a pu tester le modèle.

Un modèle MoE, de fabrication DeepMind

Conçu par les équipes de DeepMind, Gemini 2.5 Flash Image repose sur l'architecture MoE (mixture-of-experts). Il est capable de traiter en entrée du texte, de l'image et même de l'audio, comme l'ensemble de la famille Gemini. Au lieu d'activer l'ensemble de ses vastes paramètres pour chaque donnée traitée, le MoE permet au modèle de router dynamiquement les tokens d'entrée vers un sous-ensemble spécifique de paramètres, ou "experts." Une approche qui lui permet d'être très performant tout en étant assez économe en ressources, ce qui lui confère une vitesse assez exceptionnelle.

Le modèle a été entraîné sur un large dataset comprenant des textes, des images, des vidéos ainsi que des contenus audio. L'IA "connaît" ainsi une large gamme de styles visuels (jusqu'en janvier 2025).Lorsqu'une image est générée avec Gemini 2.5 Flash Image, un filigrane numérique invisible (avec la technologie SynthID de Google)  est apposé, pour permettre sa traçabilité.

Un coût relativement faible

Dans les benchmarks, le modèle excelle en génération d'image et reste préféré à Imagen 4 Ultra (Google) et GPT Image 1 (OpenAI) et même à FLUX.1 Kontext [max], selon le classement de la LMArena. De même lorsqu'il s'agit d'éditer des images, la LMArena classe le modèle en première position. De façon générale, Nano Banana offre des standards de qualité beaucoup plus élevés notamment pour la cohérence visuelle des personnages, la génération d'infographies, la gestion fine des objets et de l'environnement ou encore de la facilité de contrôle de la stylisation des images.

Le modèle est directement disponible dans l'application Gemini ou depuis Google AI Studio. Il suffit dans Google AI Studio de sélectionner le modèle Nano Banana. Dans l'application Gemini (web ou application mobile), il suffit de prompter directement l'IA avec le modèle par défaut. Une fonctionnalité disponible gratuitement, pour les professionnels et le grand public. 

Pour les développeurs ayant recours à l'API, Google facture Gemini 2.5 Flash Image 30 dollars le million de tokens en sortie. En sachant que la génération ou l'édition d'une image génère en moyenne 1 290 tokens, le coût est d'environ 0,039 dollar par image générée. Un coût relativement faible si l'on considère le temps gagné notamment pour l'édition de visuel.

Gemini 2.5 Flash Image : le test du JDN

En mode édition d'image, le modèle permet notamment de fusionner plusieurs images en une seule, de générer des variations dans une image en maintenant la cohérence des objets ou personnes, ou encore de réaliser des transformations ciblées (floutage, découpage, suppression d'un objet / d'un humain, modification des paramètres de luminosité et colorimétrie). Dans le cadre de ce test, nous nous concentrerons uniquement sur les fonctionnalités d'édition et non de génération qui restent somme toute classiques.

Fusionner deux images en une

C'est l'un des cas les plus bluffants avec Nano Banana. L'outil permet de transposer facilement l'objet d'une première image dans une autre. Prenons par exemple l'image d'une piste de ski et l'image d'une voiture. Il est alors possible de demander à Gemini de fusionner les deux images pour que la voiture se retrouve directement intégrée sur la piste de ski.

Prompt : Mets la voiture de la première image sur la piste de ski de la seconde. ©  Unsplash / Gemini / JDN


Le résultat est visuellement très correct et aurait pris plusieurs minutes avec outil d'édition de type Photoshop. Le plus impressionnant étant que l'ombre de la voiture est parfaitement cohérente.

Supprimer des éléments

Plus simple mais tout de même intéressant, le nouveau modèle de Google peut isoler et supprimer un élément en particulier d'une image. Idéal pour retravailler rapidement des photographies.

Prompt : supprime tous les couples cheval–cavalier sur cette image, sauf celui du centre avec le dossard jaune. © Unsplash / Gemini / JDN

On a ici demandé à l'IA de supprimer tous les couples cheval–cavalier sauf celui du centre avec le dossard jaune. Le résultat est encore de très bonne facture. Le modèle parvient non seulement à identifier les éléments à supprimer mais également à recréer de la matière pour combler leur disparition, le tout en restant cohérent.

Modifier les paramètres de l'image (bokeh, contraste, température)

Plus subtil encore, Gemini Flash Image permet de modifier les paramètres d'exposition, de colorimétrie et même de profondeur de champ dans une image.

Premier exemple, prenons un portrait sans bokeh (le flou d'arrière-plan). Gemini peut reconstituer virtuellement une faible profondeur de champ pour détacher le sujet de l'arrière-plan. La fonctionnalité est déjà disponible sur de nombreux smartphones mais son intégration dans un modèle génératif est une première.

Prompt : simule une faible profondeur de champ (f/1,4 environ) pour détacher le cerf de l'arrière-plan, avec un beau bokeh. © Unsplash / Gemini / JDN

Le résultat est assez bon mais encore perfectible. L'IA ne parvient pas tout à fait à reproduire le bokeh naturel d'une faible profondeur de champ (présence de flare, manque d'homogénéité).

Nano Banana peut également modifier subtilement les paramètres de contraste ou de température d'une photographie. Parfait pour retoucher rapidement une image et lui donner un grain particulier.

Prompt : Augmente le contraste de cette photographie d'environ 80%. © Unsplash / Gemini / JDN

Le contraste accentué renforce la présence visuelle de l'image et lui donne une atmosphère plus immersive.De la même manière, il est possible de changer la température d'une image pour obtenir des tons plus chauds ou plus froids.
 

Prompt : règle la température de cette photographie à environ 2500K. ©  Unsplash / Gemini / JDN

On obtient ainsi une image avec une ambiance colorimétrique complètement différente.

Changement de la vue caméra

Autre possibilité créative offerte par le modèle Gemini : changer le point de vue de la caméra pour offrir une perspective différente d'une scène. L'IA va alors imaginer et construire le plus fidèlement possible les nouveaux éléments de décor.

Prompt : change la perspective : vue de face de l'avion en plein largage d'eau. © Unsplash / Gemini / JDN


On découvre alors une toute nouvelle scène, fictive certes mais réaliste.
Industrialiser l'édition de photographie

Gemini 2.5 Flash Image s'impose donc comme une petite révolution dans l'édition d'images en démocratisant des capacités de retouche photo jusqu'ici réservées aux experts. Grâce à son interface basée sur de simples prompts textuels, n'importe qui peut désormais réaliser des modifications complexes sans aucune compétence technique. Au-delà de cette accessibilité, le modèle ouvre la voie à une industrialisation de la retouche photo avec un coût d'environ 0,039 dollar par image, rendant viable le traitement de volumes importants pour les entreprises.