IA de génération d'images : le test du JDN révèle des résultats surprenants

Dall-E, Stability.ai, Promptly... Quelles sont les images produites par ces réseaux de neurones artificiels s'ils sont soumis à la même demande ? Tour d'horizon.

Depuis quelques mois, les intelligences artificielles de génération d'images fleurissent sur le web. Parmi elles, on compte le déjà célèbre Dall-E, le réseau de neurones de 12 milliards de paramètres développé par l'américain OpenAI. Aux côtés de ce mastodonte, on trouve Stable Diffusion Online, un modèle de génération d'images open source notamment porté par le français Hugging Face. Mais aussi celui du laboratoire d'IA Midjourney. Face à ces projets de recherche, plusieurs start-up avancent leurs pions. C'est le cas de Promptly.pro, des néerlandaise Neural.love et Creative Fabrica, du britannique Stability.ai. Sans oublier Photosonic, un spécialiste de la génération de contenu incubé par Y Combinator.

Le point commun de ces acteurs ? Tous proposent leur technologie via une API ouverte ou un service en ligne. Le JDN a donc pu les tester. Pour les comparer, une phrase descriptive leur a été soumise en anglais, langue qu'ils ont en commun : "Perspective room with library of old books and man reading in an armchair". Elle visait à intégrer un sujet (un homme lisant dans un fauteuil) au sein d'un cadre avec plusieurs éléments de décor (pièce en perspective avec une bibliothèque de vieux livre).

Dall-E répond au brief

L'IA d'Hugging Face répond à la requête. Les quatre images générées font apparaître un homme assis dans un fauteuil trônant dans une bibliothèque en perspective. On relève la symétrie des vues. Dans deux images, l'homme lit un livre.

Promptly : une belle lumière

Sur les 50 images générées par Promptly, deux répondent à la requête. La seconde surprend par la lumière issue d'une grande fenêtre sur la droite de la pièce. Elle donne une impression de perspective unique au sein des résultats du test.

Photosonic : photoréaliste

Les deux images produites par Writesonic, l'IA de Photosonic, dessinent des lignes d'une grande précision qu'il s'agisse de la bibliothèque ou du personnage apparaissant sur la première d'entre elles. Seul défaut : ce personnage ne lit pas.

Neural.love : les couleurs à l'honneur

Neural.love joue à la fois sur la lumière et les lignes de la pièce pour créer la perspective. Un homme est bien assis sur un fauteuil sur trois images sur quatre. En revanche, ses contours sont peu précis et il ne lit un livre que dans un cas. Comparé aux autres IA en lice, on est surtout frappé par la richesse des couleurs qui ressort des quatre images.

Creative Fabrica : résultat en demi-teinte

Le modèle de génération CF Spark de Creative Fabrica propose une première image affichant, certes, un homme assis, mais avec une perspective déformée qui la rend irréaliste. Les trois autres images corrigent le tir. Cependant, leurs fauteuils restent vides.

Midjourney : parti pris esthétique

Midjourney affiche un parti pris esthétique. On relève la symétrie des perspectives, mais également la dominante jaune et rouge des quatre images générées. Présent sur deux images sur quatre, le personnage assis se résume à une silhouette.

Stability.ai : différents styles

Stability.ai (Stable Diffusion) génère des bibliothèques avec des jeux de perspective, devant lesquelles apparaît un fauteuil. Mais ce fauteuil n'est occupé que dans une image sur quatre. A la différence de l'homogénéité de style des résultats de Midjourney, ceux de Stability.ai sont hétérogènes : alors que la première et la troisième images se révèlent plutôt photoréalistes, la deuxième et la quatrième affichent des vues plus proches du dessin.