Titan Image Generator d'Amazon : un générateur IA ultra personnalisable mais encore perfectible

Titan Image Generator d'Amazon : un générateur IA ultra personnalisable mais encore perfectible Lancé en fin d'année 2023, Titan Image Generator est inclus dans la suite Amazon Bedrock dédiée à l'IA générative. Le modèle supporte le text-to-image et l'image-to-image.

Dall-E chez OpenAI et Microsoft, Imagen chez Google… Les géants de l'IA disposent tous de leur propre modèle de génération d'images par intelligence artificielle. Amazon n'y coupe pas. Le mastodonte du cloud a dévoilé en décembre 2023 son modèle fondation maison pour créer et modifier des images. Le modèle s'adresse à un public de professionnels et non au grand public. Il est pensé pour être utilisé au sein d'un système en production grâce à un appel API.

Pour former son modèle, Amazon s'est appuyé sur des données open source, propriétaires et sous licences, en privilégiant la qualité. La firme garantit qu'elle n'utilise pas les données de ses clients (prompts et images) à des fins d'entraînement. Amazon Titan Image Generator G1 est encore en preview. La version actuellement déployée, dans les régions AWS USA uniquement, permet déjà de générer des images à partir d'un prompt, de générer des images à partir d'une image source et d'éditer des images. Toutes les images générées sont, comme avec Imagen 2 de Google, watermarkées d'un filigrane invisible. Amazon développe en parallèle un outil capable d'identifier les productions de son modèle (via API).

Un modèle ultra-paramétrable

Titan Image Generator étant destiné à usage professionnel au sein d'un système en production, Amazon ne propose aucun outil clé en main. Le modèle est directement intégré à la suite Bedrock qui propose une flopée d'outils et de modèles d'IA pour les clients AWS. Dans le cadre de ce test, nous utilisons le démonstrateur intégré à Bedrock, qui permet de tester les différentes fonctionnalités du modèle avant de l'intégrer via l'API. La particularité de l'outil réside dans l'hyperpersonnalisation des paramètres d'input. On retrouve, classiquement un prompt, où il est nécessaire de décrire l'image attendue (en anglais) mais aussi un prompt-négatif, qui permet de définir les éléments qui ne doivent pas apparaitre dans l'image.

Il est possible de configurer le nombre d'images à créer, la qualité de ces dernières (premium ou standard), le cfgScale (fidélité au prompt original, équivalent de – stylise sur Midjourney), la taille (hauteur et largeur) et le seed (optionnel, pour garder une cohérence entres les images générées). Avec Titan Image Generator, Amazon promet des images de qualité studio, personnalisables à souhait.

Une image contenant texte, capture d’écran, logiciel, Logiciel multimédiaDescription générée automatiquement
La démonstrateur d'Amazon Titan Image Generator. © capture d'écran

Côté prix, comme avec les offres cloud, la tarification reste attractive. Il faudra compter 0,008 dollar pour un équivalent 512x512 pixels en qualité standard et 0,01 dollar en qualité premium. Avec un format de 1024x1024 pixels, le prix sera de 0,01 dollar en qualité standard et 0,012 en qualité premium. Amazon ne détaille pas les différences entre qualité classique et premium, il s'agit selon nos tests d'une différence de résolution dans les images générées.

Contrairement à Imagen 2 de Google dans sa version actuelle ou Dall-E à ses débuts, le modèle d'Amazon permet de créer des images dans une variété de tailles différentes.

Hauteur

Largeur

Ratio

Équivalent de prix

1024

1024

1:1

1024 x 1024

768

768

1:1

512 x 512

512

512

1:1

512 x 512

768

1152

2:3

1024 x 1024

384

576

2:3

512 x 512

1152

768

3:2

1024 x 1024

576

384

3:2

512 x 512

768

1280

3:5

1024 x 1024

384

640

3:5

512 x 512

1280

768

5:3

1024 x 1024

640

384

5:3

512 x 512

896

5512

7:9

1024 x 1024

448

576

7:9

512 x 512

1152

896

9:7

1024 x 1024

576

448

9:7

512 x 512

768

1408

6:11

1024 x 1024

384

704

6:11

512 x 512

1408

768

11:6

1024 x 1024

704

384

11:6

512 x 512

640

1408

5:11

1024 x 1024

320

704

5:11

512 x 512

1408

640

11:5

1024 x 1024

704

320

11:5

512 x 512

1152

640

9:5

1024 x 1024

1173

640

16:9

1024 x 1024

Une qualité aléatoire

Selon nos différents tests, les images générées par Amazon Titan Image Generator G1 souffrent de manière aléatoire de déformation rendant le tout peu réaliste. Ainsi, lorsqu'on demande au modèle de produire l'image d'une femme devant la tour Eiffel, le résultat qui semble qualitatif aux premiers abords présente une femme au visage et aux pieds déformés.

Prompt : A young woman in front of the Eiffel tower in classic French dress. © Amazon Titan Image Generator

En revanche, sur des plans plus larges, l'IA parvient à exécuter des images de bonne facture. De manière générale, le modèle d'Amazon est assez fidèle au prompt et respecte toujours la consigne de base. Le prompt négatif permet également de préciser plus finement sa demande.

Prompt : A camp on snow-covered ground, with the Alps in the background. © Amazon Titan Image Generator

Comme les autres modèles d'IA de génération d'images, Titan Image Generator gère une variété de styles différents. La BD est par exemple assez bien maitrisée et offre des résultats tout à fait convenables.

Prompt : A car speeds along mountain roads, comic-book style. © Amazon Titan Image Generator

Petit bonus, l'IA d'Amazon prend en charge nativement l'édition d'images. Il devient possible de modifier, depuis l'API, une image ou une photographie d'une taille maximale de 1024 pixels de large. Le modèle se chargera de réaliser tout seul un photomontage (collage d'une image générée par IA). L'incrustation est nette et offre un résultat exploitable en l'état. Depuis l'API, l'édition d'une image demande de configurer au préalable un masque où le collage sera appliqué. Le paramètre à envoyer, de type string, doit contenir les données encodées de l'image, où chaque pixel est représenté par trois valeurs RGB (rouge, vert, bleu), chacune allant de 0 à 255, et codées en base64 pour la transmission.

A gauche l'image originale, à droite, l'image avec l'incrustation d'une voiture rouge par IA. © Amazon Titan Image Generator

Un modèle déjà prometteur

Même si Amazon Titan Image Generator G1 est loin d'être au niveau de Midjourney 6 ou Dall-E 3, l'IA d'Amazon reste prometteuse. La fidélité au prompt, la qualité générale des images produites, et le prix attractif en font un modèle de choix pour un usage en production pour générer des images en série. Le modèle a encore une bonne marge de progression mais cette première version ouvre des perspectives intéressantes pour les professionnels.

Enfin, Amazon offre également la possibilité de fine-tuner le modèle sur un dataset personnalisé de couples texte/image. Cette possibilité pourrait permettre d'améliorer significativement la qualité des images générées notamment en utilisant un dataset ultra-personnalisé, optimisé pour le cas d'usage final.