Google révolutionne (vraiment) l'édition d'image avec Gemini 2.0 Flash

Google révolutionne (vraiment) l'édition d'image avec Gemini 2.0 Flash Le modèle d'IA Gemini est désormais capable de générer des images plus fidèles au prompt. Il permet surtout d'éditer très précisément des images déjà existantes.

C'était une fonctionnalité attendue de longue date. Réservée depuis décembre aux trusted testers Google, la génération native dans Gemini est désormais disponible à tous les utilisateurs de Google AI Studio. La prise en charge native des images en input et désormais en output permet au modèle d'IA de produire des images plus fidèles à la demande utilisateur initiale et ouvre la possibilité à l'édition d'images avancée. Nos premiers tests sont assez concluants.

Génération native : quelle différence ?

L'intégration de la génération d'images native dans le modèle Gemini 2.0 Flash représente un changement technique assez majeur. Contrairement aux systèmes à deux modèles où un LLM génère une description textuelle qui est ensuite transmise à un modèle de diffusion séparé (comme le couple ChatGPT/DALL-E ou les précédentes versions de Gemini/Imagen), Gemini 2.0 Flash utilise une architecture transformer unifiée capable de générer directement des tokens visuels et textuels. Cette approche unifiée permet une meilleure compréhension du contexte et des nuances car il n'y a plus d'interprétation ou de traduction entre deux modèles distincts. Cela se traduit dans la réalité par une plus grande fidélité aux prompts et une cohérence globale des images produites. L'architecture native offre également des avantages en termes d'édition d'images en permettant des modifications incrémentales précises sans avoir à régénérer l'image entière.

Avec ce déploiement, Google prend, une fois n'est pas coutume, une longueur d'avance sur OpenAI dont le modèle GPT-4o avait présenté des capacités similaires de génération d'images native lors d'une démonstration en mai 2024, mais sans jamais les déployer publiquement.

En matière de génération d'images, Gemini ne surpasse cependant pas les modèles FLUX ou même Midjourney, malgré son caractère plus récent. Pour obtenir des résultats cohérents et réalistes, Gemini exige des prompts nettement plus détaillés, vraisemblablement parce qu'aucun système n'itère automatiquement le prompt en arrière-plan, contrairement à Dall-E dans ChatGPT ou Imagen dans les versions précédentes de Gemini. L'implémentation d'une architecture légèrement plus sophistiquée ou un simple fine-tuning permettrait certainement au modèle de gagner en pertinence et en efficacité, réduisant ainsi la complexité requise des instructions utilisateur.

© Gemini

Prompt :

Un bateau de sauvetage rouge traverse la Seine à grande vitesse à Paris. La scène se déroule de nuit et les lumières bleues clignotantes éclairent une partie du fleuve. En arrière-plan, des feux d'artifice jaillissent de la Tour Eiffel. Une scène d'action cinématographique dans le style de Michael Bay.

Les détails spécifiés dans le prompt initial ne se retrouvent pas tous fidèlement dans l'image générée. Plus étonnant encore, le modèle applique de façon apparemment aléatoire un flou artificiel sur certaines images, comme celle présentée ci-dessus, compromettant ainsi la netteté et la précision attendues du rendu final.

Mais la véritable force de Gemini 2.0 Flash Experimental, de son nom complet, se révèle dans l'édition d'images. D'après nos tests, le modèle excelle à modifier par itération successive la majorité des styles d'image qui lui sont soumis. Sa particularité réside dans son approche par retouches ciblées plutôt que par transformation complète du visuel, préservant ainsi l'identité fondamentale de l'image originale tout en y apportant les modifications demandées.

Il est possible par exemple de coloriser des photographies en noir et blanc. Gemini réalise alors à la perfection l'opération sans modifier les éléments présents dans l'image.

Prompt : colorise cette image d'archive.  ©  JDN

Le modèle offre également d'autres fonctionnalités, comme la modification de la couleur d'un vêtement ou même son remplacement complet par un autre. Dans ces situations, l'IA exécute la demande avec une précision remarquable, conservant l'authenticité de l'image tout en intégrant parfaitement les changements requis.

Prompt : remplace la veste et la redingote par un costume moderne. ©  JDN

Autre cas d'usage très utile, il est possible de fusionner plusieurs images pour en créer de nouvelles. Par exemple un sujet principal et un fond. A noter que Gemini peut également générer un fond entièrement nouveau.

© Gemini

Prompt :

Superpose le robot de l'image 2 sur le décor de l'image 1, en veillant à respecter les proportions et à intégrer harmonieusement le robot dans l'environnement. Assure-toi que l'éclairage et les ombres du robot correspondent à ceux du décor pour un rendu réaliste. 

Enfin dernier cas d'usage, il est possible de changer de point de vue dans une image. Gemini parvient à générer une perspective différente entièrement fictive mais étonnamment fidèle à la réalité.

Prompt : Crée une vue de profil latérale (90 degrés) de l'image. © JDN

Un nouveau paradigme pour l'édition d'images ?

Les possibilités d'édition d'image offertes par Gemini dépassent largement les quelques cas d'usage testés. L'architecture unifiée du modèle permet des manipulations visuelles qui semblent encore presque magiques : retouches ciblées, préservation de l'identité originale de l'image, intégration de modifications quasiment imperceptibles. Les frontières entre image originale et image générée deviennent de plus en plus floues, laissant entrevoir un potentiel de transformation visuelle quasi illimité.

Cette première mouture de Gemini n'est qu'un aperçu timide de ce qui s'annonce. Les prochaines versions vont probablement chambouler complètement l'édition d'images, rendant les outils actuels obsolètes. On peut parier sans risque que des plateformes comme Canva intégreront rapidement ce type de technologie. OpenAI pourrait d'ailleurs présenter prochainement des capacités similaires dans ChatGPT.