Titan Image Generator d'Amazon : un générateur IA ultra personnalisable mais encore perfectible
Dall-E chez OpenAI et Microsoft, Imagen chez Google… Les géants de l'IA disposent tous de leur propre modèle de génération d'images par intelligence artificielle. Amazon n'y coupe pas. Le mastodonte du cloud a dévoilé en décembre 2023 son modèle fondation maison pour créer et modifier des images. Le modèle s'adresse à un public de professionnels et non au grand public. Il est pensé pour être utilisé au sein d'un système en production grâce à un appel API.
Pour former son modèle, Amazon s'est appuyé sur des données open source, propriétaires et sous licences, en privilégiant la qualité. La firme garantit qu'elle n'utilise pas les données de ses clients (prompts et images) à des fins d'entraînement. Amazon Titan Image Generator G1 est encore en preview. La version actuellement déployée, dans les régions AWS USA uniquement, permet déjà de générer des images à partir d'un prompt, de générer des images à partir d'une image source et d'éditer des images. Toutes les images générées sont, comme avec Imagen 2 de Google, watermarkées d'un filigrane invisible. Amazon développe en parallèle un outil capable d'identifier les productions de son modèle (via API).
Un modèle ultra-paramétrable
Titan Image Generator étant destiné à usage professionnel au sein d'un système en production, Amazon ne propose aucun outil clé en main. Le modèle est directement intégré à la suite Bedrock qui propose une flopée d'outils et de modèles d'IA pour les clients AWS. Dans le cadre de ce test, nous utilisons le démonstrateur intégré à Bedrock, qui permet de tester les différentes fonctionnalités du modèle avant de l'intégrer via l'API. La particularité de l'outil réside dans l'hyperpersonnalisation des paramètres d'input. On retrouve, classiquement un prompt, où il est nécessaire de décrire l'image attendue (en anglais) mais aussi un prompt-négatif, qui permet de définir les éléments qui ne doivent pas apparaitre dans l'image.
Il est possible de configurer le nombre d'images à créer, la qualité de ces dernières (premium ou standard), le cfgScale (fidélité au prompt original, équivalent de – stylise sur Midjourney), la taille (hauteur et largeur) et le seed (optionnel, pour garder une cohérence entres les images générées). Avec Titan Image Generator, Amazon promet des images de qualité studio, personnalisables à souhait.

Côté prix, comme avec les offres cloud, la tarification reste attractive. Il faudra compter 0,008 dollar pour un équivalent 512x512 pixels en qualité standard et 0,01 dollar en qualité premium. Avec un format de 1024x1024 pixels, le prix sera de 0,01 dollar en qualité standard et 0,012 en qualité premium. Amazon ne détaille pas les différences entre qualité classique et premium, il s'agit selon nos tests d'une différence de résolution dans les images générées.
Contrairement à Imagen 2 de Google dans sa version actuelle ou Dall-E à ses débuts, le modèle d'Amazon permet de créer des images dans une variété de tailles différentes.
Hauteur |
Largeur |
Ratio |
Équivalent de prix |
1024 |
1024 |
1:1 |
1024 x 1024 |
768 |
768 |
1:1 |
512 x 512 |
512 |
512 |
1:1 |
512 x 512 |
768 |
1152 |
2:3 |
1024 x 1024 |
384 |
576 |
2:3 |
512 x 512 |
1152 |
768 |
3:2 |
1024 x 1024 |
576 |
384 |
3:2 |
512 x 512 |
768 |
1280 |
3:5 |
1024 x 1024 |
384 |
640 |
3:5 |
512 x 512 |
1280 |
768 |
5:3 |
1024 x 1024 |
640 |
384 |
5:3 |
512 x 512 |
896 |
5512 |
7:9 |
1024 x 1024 |
448 |
576 |
7:9 |
512 x 512 |
1152 |
896 |
9:7 |
1024 x 1024 |
576 |
448 |
9:7 |
512 x 512 |
768 |
1408 |
6:11 |
1024 x 1024 |
384 |
704 |
6:11 |
512 x 512 |
1408 |
768 |
11:6 |
1024 x 1024 |
704 |
384 |
11:6 |
512 x 512 |
640 |
1408 |
5:11 |
1024 x 1024 |
320 |
704 |
5:11 |
512 x 512 |
1408 |
640 |
11:5 |
1024 x 1024 |
704 |
320 |
11:5 |
512 x 512 |
1152 |
640 |
9:5 |
1024 x 1024 |
1173 |
640 |
16:9 |
1024 x 1024 |
Une qualité aléatoire
Selon nos différents tests, les images générées par Amazon Titan Image Generator G1 souffrent de manière aléatoire de déformation rendant le tout peu réaliste. Ainsi, lorsqu'on demande au modèle de produire l'image d'une femme devant la tour Eiffel, le résultat qui semble qualitatif aux premiers abords présente une femme au visage et aux pieds déformés.

En revanche, sur des plans plus larges, l'IA parvient à exécuter des images de bonne facture. De manière générale, le modèle d'Amazon est assez fidèle au prompt et respecte toujours la consigne de base. Le prompt négatif permet également de préciser plus finement sa demande.

Comme les autres modèles d'IA de génération d'images, Titan Image Generator gère une variété de styles différents. La BD est par exemple assez bien maitrisée et offre des résultats tout à fait convenables.

Petit bonus, l'IA d'Amazon prend en charge nativement l'édition d'images. Il devient possible de modifier, depuis l'API, une image ou une photographie d'une taille maximale de 1024 pixels de large. Le modèle se chargera de réaliser tout seul un photomontage (collage d'une image générée par IA). L'incrustation est nette et offre un résultat exploitable en l'état. Depuis l'API, l'édition d'une image demande de configurer au préalable un masque où le collage sera appliqué. Le paramètre à envoyer, de type string, doit contenir les données encodées de l'image, où chaque pixel est représenté par trois valeurs RGB (rouge, vert, bleu), chacune allant de 0 à 255, et codées en base64 pour la transmission.

Un modèle déjà prometteur
Même si Amazon Titan Image Generator G1 est loin d'être au niveau de Midjourney 6 ou Dall-E 3, l'IA d'Amazon reste prometteuse. La fidélité au prompt, la qualité générale des images produites, et le prix attractif en font un modèle de choix pour un usage en production pour générer des images en série. Le modèle a encore une bonne marge de progression mais cette première version ouvre des perspectives intéressantes pour les professionnels.
Enfin, Amazon offre également la possibilité de fine-tuner le modèle sur un dataset personnalisé de couples texte/image. Cette possibilité pourrait permettre d'améliorer significativement la qualité des images générées notamment en utilisant un dataset ultra-personnalisé, optimisé pour le cas d'usage final.