Imagen 3 : les atouts du générateur d'image de Google pour les professionnels

Développé par les équipes de DeepMind, Imagen 3 vient parfaire la suite de modèles d'IA générative de Google. Qualité, cas d'usage… On fait le point.

S'il existe un domaine où la course effrénée à l'IA générative montre de premiers signes de stagnation, c'est bien la génération d'images. Plus de deux ans après l'arrivée de Midjourney, les modèles d'IA spécialisés en génération d'image se sont améliorés, il est désormais possible de générer une grande variété de styles, la crédibilité des images photoréalistes de certains modèles est telle qu'il est difficile de faire mieux. Longtemps en retrait face à des concurrents comme Midjourney, DALL-E ou Stable Diffusion, Google fait son entrée dans la cour des grands avec Imagen 3. Son intégration dans Vertex AI en fait un modèle de choix pour la génération d'image… Mais pas que.

Fidélité aux instructions

Assez classiquement, les équipes de DeepMind se sont appuyées sur une architecture de diffusion latente, similaire à celle utilisée par les leaders du secteur. Très schématiquement, le modèle a appris à générer des images en partant d'un état de bruit (un ensemble de données aléatoires) dans un espace latent (une représentation compressée et abstraite des images), puis en affinant progressivement cette représentation pour produire une image cohérente.

Le modèle a été entraîné pendant plusieurs mois sur un dataset composé d'images, de textes et d'annotations associées aux images. S'ils ne communiquent pas la nature exacte ni le nombre d'images utilisées, les chercheurs donnent quelques détails sur des images préalablement supprimées dans le dataset. Classiquement les images à caractère violent, de mauvaise qualité, doublonnées ont été écartées. Plus intéressant, les spécialistes indiquent dans leur rapport avoir également supprimé les images générées par IA. Et ce afin d'éviter, très probablement, le phénomène de model collapse (dégradation progressive des modèles d'IA à cause des données synthétiques).

Pour améliorer encore les performances du modèle, les chercheurs de DeepMind ont axé leurs efforts sur l'adhérence au prompt. Le modèle a été spécialement optimisé (sans que l'on sache comment) pour générer des images les plus fidèles possibles au prompt initial. Et les résultats sont là : Imagen 3 excelle particulièrement dans le suivi de consignes longues et complexes. DeepMind a notamment procédé à plus de 366 000 évaluations humaines auprès de plus de 3 000 évaluateurs différents. Autant de données qui ont pu permettre d'améliorer le modèle entre son annonce en mai 2024 et son déploiement fin aout.

Utiliser Imagen 3 dans Vertex AI ?

Outre la qualité des images produites, Imagen 3 dispose d'un atout de taille : son implémentation dans l'écosystème Google Cloud. Google a intégré intelligemment le modèle dans sa suite d'IA générative Vertex AI. Hormis la génération classique d'images à partir de texte, Imagen peut éditer des images uploadées ou déjà générées ou encore modifier uniquement une zone définie d'une image (avec un masque). Le modèle peut également être utilisé pour de l'upscaling classique. Le tout se contrôle directement depuis une API facile à mettre en place dans un environnement de production.

L'édition d'images permet de modifier des images déjà générées ou téléchargées en utilisant des instructions textuelles. Par exemple, on peut demander à Imagen 3 de changer la couleur d'un objet spécifique dans l'image, d'ajouter ou de supprimer des éléments, ou même de modifier le style global de l'image. Plus avancée, l'édition basée sur le masque permet une modification ciblée de zones spécifiques d'une image. Les utilisateurs peuvent définir une zone précise à modifier (sous forme de coordonnées), laissant le reste de l'image intact. Une fonctionnalité particulièrement utile pour des tâches comme le remplacement d'arrière-plans, la retouche de détails spécifiques ou l'ajout d'éléments dans une scène existante.

Enfin, plus classique, l'upscaling permet d'augmenter la taille et la qualité des images existantes sans perte significative de détails. Très concrètement, il est par exemple possible d'upscaler une image de 512x512 en 1024x1024.

La puissance de l'API Imagen 3 offre aux développeurs une capacité de personnalisation accrue des éléments graphiques, que ce soit pour une application mobile ou un site web. La génération d'images et la modification visuelle permettent, par exemple, une personnalisation poussée, adaptée à chaque client. De même, la fonction d'upscaling offre une expérience plus fluide pour transformer des images de petite taille en formats supérieurs, sans perte de qualité.

Des images de haute qualité

La qualité des images produites par Imagen 3 permet une utilisation professionnelle de l'outil. Le modèle excelle particulièrement dans la création d'images photoréalistes, offrant des résultats qui rivalisent avec les meilleures alternatives du marché.

Prompt : car in traffic, the focus is on it. Traffic in the background. © Imagen 3

Le photoréalisme rivalise avec des photographies bien réelles. Imagen 3 se hisse presque à la hauteur de Midjourney.

Un des atouts majeurs supposés d'Imagen 3 serait donc sa capacité à suivre fidèlement les instructions données dans le prompt.

Prompt : magazine style , 4k, photorealistic , a vase with dried flowers on a sober coffee table , natural lighting. © Imagen 3

Nos différents tests confirment ce qu'annonce Google : le modèle suit précisément l'ensemble des éléments demandés dans le prompt.

Enfin, outre le photoréalisme, Imagen 3 propose une grande panoplie de styles différents adaptés à chaque cas d'usage. Exemple ici avec un style cartoonesque proche de celui des studio Pixar.

Prompt : 3d cartoon, a dog in a cosmonaut outfit floats above the earth, 4k, studio light. © Imagen 3

Le seul bémol reste l'accessibilité, encore limitée en septembre 2024, à plusieurs fonctionnalités d'Imagen dans Vertex AI. Plusieurs options avancées nécessitent une approbation avant utilisation (demande via un formulaire) pour y accéder, tandis que d'autres sont encore en phase de preview. C'est notamment le cas de l'édition d'image. Google priorise pour l'heure son modèle, via Vertex AI, aux "développeurs des entreprises ayant des cas d'utilisation bien définis." Une limitation temporaire qui ne devrait pas tarder à être supprimée.