Imagen 2 dans Bard : que vaut le générateur IA d'images de Google ?

Google commence à déployer son modèle text-to-image dans Bard aux Etats-Unis. Les images produites affichent un haut niveau de qualité malgré quelques défauts.

La réplique de Google à Dall-E et Midjourney ? Après avoir apporté une réponse à GPT-4 avec Gemini, Google concentre ses annonces en ce début d'année sur l'IA générative au service de l'image. Développée par les équipes de DeepMind et dévoilé en décembre 2023, Imagen 2 s'intègre progressivement dans l'écosystème Google. Dernière annonce en date ce jeudi 1 février, la possibilité d'utiliser Imagen 2 directement dans Google Bard (aux Etats-Unis), dans SGE (les pages search dopées à l'IA) et dans Vertex AI (suite IA pour les professionnels).

Google en profite également pour introduire ImageFX, une nouvelle interface dédiée à la génération d'images par intelligence artificielle. L'outil est, pour l'heure, réservé à une petite communauté d'utilisateurs. A terme, ImageFX devrait permettre de générer rapidement des images de haute qualité à partir d'un prompt. Une fois l'image générée, il sera possible de la modifier en utilisant simplement une interface épurée. Les premières démonstrations partagées par Google promettent une expérience utilisateur très fluide.

Des photographies ulra-réalistes

Pour le grand public, la principale manière de tester Imagen 2 est de passer directement par Bard. Pour l'heure, la fonctionnalité est déployée uniquement aux Etats-Unis et n'est utilisable qu'en anglais. Dans le cadre de ce test, nous utilisons un VPN pour accéder à la génération d'images depuis Bard (version US). Selon nos différents tests, la version du modèle de génération actuellement déployée sur Bard n'est capable de produire que des images en format carré (1536x1536 pixels) comme la première version de Dall-E.

Avec Imagen 2, Google promet des images photoréalistes d'une qualité quasi-inégalée. Et le pari est largement tenu. Les images au style photographique affichent un niveau de détails et de réalisme que peu de modèles sont en capacité d'atteindre. Le bokeh, la perspective et les formes sont parfaitement reproduits. En photographie, l'IA de Google fait véritablement mieux que Dall-E 3 et aussi bien que Midjourney V6. Le plus bluffant reste la reproduction des traits caractéristiques du visage humain. Imagen 2 génère des images qui ne sont, graphiquement, plus différentiables d'une photographie classique.

Prompt : A large-format image of a tourist in Times Square. © Google Bard / Imagen 2

Rapidement, une première limite semble toutefois apparaître. De manière aléatoire le modèle de Google ne se fie pas au prompt et dévie totalement de la demande initiale. Par exemple, quand on demande à l'IA de générer "un jeune homme en costume médiéval dans une rue de Paris", l'IA propose une jeune femme avec un costume typique du moyen âge, dans une rue du Paris contemportain. Lors de ce test, quelques heures après la sortie de la mise à jour Bard avec Imagen 2, la plateforme de Google souffre d'instabilité et d'erreur diverses de téléchargement, très certainement explicables par l'affluence temporaire sur l'outil.

Prompt : A young man walks down a Paris street in a medieval suit and tie. © Google Bard / Imagen 2

Autre promesse forte de Google, Imagen 2 parviendrait à gérer assez bien le texte sur les images. Comme avec Midjourney V6, la promesse n'est pas tenue. Contrairement à Midjourney, le texte apparait bien sur l'objet ou le concept indiqué, mais l'orthographe du mot n'est presque jamais respectée, y compris avec des mots simples. Selon nos constatations, l'IA est meilleure pour générer des mots anglais, ce qui s'explique certainement par la présence majoritaire de contenus anglophones dans le dataset d'entraînement du modèle.

Prompt : A school teacher standing next to a green chalkboard reading "Hello everyone". © Google Bard / Imagen 2

Dans d'autres genres d'images, Imagen 2 parvient à produire des illustrations convaincantes, souvent utilisables en l'état. Le style dessin est parfaitement maitrisé. L'IA produit de beaux visuels. Imagen 2 n'atteint toutefois pas le niveau de Midjourney, notamment dans les finitions. Comme de nombreux autres modèles, l'IA gère parfois avec plus ou moins de réussite la reproduction des mains et plus globalement des membres du corps. Le résultat peut parfois s'avérer décevant aux premiers abords.

Prompt : Create a drawing of a meeting between several executives in a café at the foot of a New York skyscraper. © Google Bard / Imagen 2

En 3D et avec des concepts assez simples, Imagen 2 dans Bard offre des visuels véritablement qualitatifs. Le seul défaut reste, encore, la fidélité relative au prompt initial. Pour exemple, lorsqu'on demande à l'IA de générer une voiture volante en 3D au-dessus de la tour Eiffel, Bard propose, notamment, une image d'une voiture en suspension sur les roues avant. Bien qu'assez stylisée, l'image n'est absolument pas conforme à la demande initiale.

Imagen 2 dans Bard a trop souvent tendance à ne pas suivre le prompt. © capture d'écran

Des images watermarkées

Outre de beaux visuels photoréalistes, Imagen 2 arrive avec une couche supplémentaire de sécurité : toutes les images produites avec le modèle sont automatiquement watermarkées. Google se repose sur sa technologie SynthID qui permet d'apposer un filigrane invisible (pour les humains) dans les pixels des images. Google est ainsi en capacité de confirmer a posteriori si une image a été générée ou non par son modèle et la date approximative de sa création.

En conclusion, nos premiers tests démontrent une véritable avancée dans la génération d'images, mais des problèmes majeurs restent encore à corriger. Fidélité au prompt, gestion des membres humains, format personnalisable... Il est fort à parier que de simples mises à jour dans les prochaines semaines corrigent les principaux défauts relevés dans notre test. Imagen 2 avec ImageFX pourrait changer la donne, surtout pour les professionnels. Affaire à suivre.