Titan Image Generator d'Amazon : un générateur IA ultra personnalisable mais encore perfectible

Lancé en fin d'année 2023, Titan Image Generator est inclus dans la suite Amazon Bedrock dédiée à l'IA générative. Le modèle supporte le text-to-image et l'image-to-image.

Dall-E chez OpenAI et Microsoft, Imagen chez Google… Les géants de l'IA disposent tous de leur propre modèle de génération d'images par intelligence artificielle. Amazon n'y coupe pas. Le mastodonte du cloud a dévoilé en décembre 2023 son modèle fondation maison pour créer et modifier des images. Le modèle s'adresse à un public de professionnels et non au grand public. Il est pensé pour être utilisé au sein d'un système en production grâce à un appel API.

Pour former son modèle, Amazon s'est appuyé sur des données open source, propriétaires et sous licences, en privilégiant la qualité. La firme garantit qu'elle n'utilise pas les données de ses clients (prompts et images) à des fins d'entraînement. Amazon Titan Image Generator G1 est encore en preview. La version actuellement déployée, dans les régions AWS USA uniquement, permet déjà de générer des images à partir d'un prompt, de générer des images à partir d'une image source et d'éditer des images. Toutes les images générées sont, comme avec Imagen 2 de Google, watermarkées d'un filigrane invisible. Amazon développe en parallèle un outil capable d'identifier les productions de son modèle (via API).

Un modèle ultra-paramétrable

Titan Image Generator étant destiné à usage professionnel au sein d'un système en production, Amazon ne propose aucun outil clé en main. Le modèle est directement intégré à la suite Bedrock qui propose une flopée d'outils et de modèles d'IA pour les clients AWS. Dans le cadre de ce test, nous utilisons le démonstrateur intégré à Bedrock, qui permet de tester les différentes fonctionnalités du modèle avant de l'intégrer via l'API. La particularité de l'outil réside dans l'hyperpersonnalisation des paramètres d'input. On retrouve, classiquement un prompt, où il est nécessaire de décrire l'image attendue (en anglais) mais aussi un prompt-négatif, qui permet de définir les éléments qui ne doivent pas apparaitre dans l'image.

Il est possible de configurer le nombre d'images à créer, la qualité de ces dernières (premium ou standard), le cfgScale (fidélité au prompt original, équivalent de – stylise sur Midjourney), la taille (hauteur et largeur) et le seed (optionnel, pour garder une cohérence entres les images générées). Avec Titan Image Generator, Amazon promet des images de qualité studio, personnalisables à souhait.

Une image contenant texte, capture d’écran, logiciel, Logiciel multimédiaDescription générée automatiquement — La démonstrateur d'Amazon Titan Image Generator. © capture d'écran

Côté prix, comme avec les offres cloud, la tarification reste attractive. Il faudra compter 0,008 dollar pour un équivalent 512x512 pixels en qualité standard et 0,01 dollar en qualité premium. Avec un format de 1024x1024 pixels, le prix sera de 0,01 dollar en qualité standard et 0,012 en qualité premium. Amazon ne détaille pas les différences entre qualité classique et premium, il s'agit selon nos tests d'une différence de résolution dans les images générées.

Contrairement à Imagen 2 de Google dans sa version actuelle ou Dall-E à ses débuts, le modèle d'Amazon permet de créer des images dans une variété de tailles différentes.

Hauteur	Largeur	Ratio	Équivalent de prix
1024	1024	1:1	1024 x 1024
768	768	1:1	512 x 512
512	512	1:1	512 x 512
768	1152	2:3	1024 x 1024
384	576	2:3	512 x 512
1152	768	3:2	1024 x 1024
576	384	3:2	512 x 512
768	1280	3:5	1024 x 1024
384	640	3:5	512 x 512
1280	768	5:3	1024 x 1024
640	384	5:3	512 x 512
896	5512	7:9	1024 x 1024
448	576	7:9	512 x 512
1152	896	9:7	1024 x 1024
576	448	9:7	512 x 512
768	1408	6:11	1024 x 1024
384	704	6:11	512 x 512
1408	768	11:6	1024 x 1024
704	384	11:6	512 x 512
640	1408	5:11	1024 x 1024
320	704	5:11	512 x 512
1408	640	11:5	1024 x 1024
704	320	11:5	512 x 512
1152	640	9:5	1024 x 1024
1173	640	16:9	1024 x 1024

Une qualité aléatoire

Selon nos différents tests, les images générées par Amazon Titan Image Generator G1 souffrent de manière aléatoire de déformation rendant le tout peu réaliste. Ainsi, lorsqu'on demande au modèle de produire l'image d'une femme devant la tour Eiffel, le résultat qui semble qualitatif aux premiers abords présente une femme au visage et aux pieds déformés.

Prompt : A young woman in front of the Eiffel tower in classic French dress. © Amazon Titan Image Generator

En revanche, sur des plans plus larges, l'IA parvient à exécuter des images de bonne facture. De manière générale, le modèle d'Amazon est assez fidèle au prompt et respecte toujours la consigne de base. Le prompt négatif permet également de préciser plus finement sa demande.

Prompt : A camp on snow-covered ground, with the Alps in the background. © Amazon Titan Image Generator

Comme les autres modèles d'IA de génération d'images, Titan Image Generator gère une variété de styles différents. La BD est par exemple assez bien maitrisée et offre des résultats tout à fait convenables.

Prompt : A car speeds along mountain roads, comic-book style. © Amazon Titan Image Generator

Petit bonus, l'IA d'Amazon prend en charge nativement l'édition d'images. Il devient possible de modifier, depuis l'API, une image ou une photographie d'une taille maximale de 1024 pixels de large. Le modèle se chargera de réaliser tout seul un photomontage (collage d'une image générée par IA). L'incrustation est nette et offre un résultat exploitable en l'état. Depuis l'API, l'édition d'une image demande de configurer au préalable un masque où le collage sera appliqué. Le paramètre à envoyer, de type string, doit contenir les données encodées de l'image, où chaque pixel est représenté par trois valeurs RGB (rouge, vert, bleu), chacune allant de 0 à 255, et codées en base64 pour la transmission.

A gauche l'image originale, à droite, l'image avec l'incrustation d'une voiture rouge par IA. © Amazon Titan Image Generator

Un modèle déjà prometteur

Même si Amazon Titan Image Generator G1 est loin d'être au niveau de Midjourney 6 ou Dall-E 3, l'IA d'Amazon reste prometteuse. La fidélité au prompt, la qualité générale des images produites, et le prix attractif en font un modèle de choix pour un usage en production pour générer des images en série. Le modèle a encore une bonne marge de progression mais cette première version ouvre des perspectives intéressantes pour les professionnels.

Enfin, Amazon offre également la possibilité de fine-tuner le modèle sur un dataset personnalisé de couples texte/image. Cette possibilité pourrait permettre d'améliorer significativement la qualité des images générées notamment en utilisant un dataset ultra-personnalisé, optimisé pour le cas d'usage final.