Dall-E 3 vs Midjourney : un duel de légendes

L'écart de performance entre Dall-E et Midjourney a été bouleversé avec l'arrivée de la troisième version de l'IA d'OpenAI. Une révolution qui rebat les cartes.

Est-ce la fin annoncée de Midjourney ? La bataille des meilleures IA génératrices d'images a connu un véritable bouleversement en octobre. Alors qu'on ne l'attendait pas dans ce domaine, OpenAI s'est illustrée par la publication de Dall-E 3, la nouvelle mouture de son générateur d'images. Plus fin dans sa compréhension des prompts et plus performant dans la génération d'images de haute qualité, Dall-E 3 a tout pour concurrencer à long terme Midjourney. Sorti dans un premier temps dans Bing AI, Dall-E 3 est définitivement intégré dans ChatGPT pour les utilisateurs Enterprise et Plus depuis le 19 octobre. Dès lors, de nombreux professionnels expliquent, sur les réseaux sociaux, être parvenus à générer des créations de haute qualité en quelques secondes, là où un résultat similaire sur Midjourney aurait nécessité de nombreuses itérations.

Pour perfectionner Dall-E, et atteindre un nouveau gap, les équipes de la start-up cofondée par Sam Altman ont accentué leurs efforts autour de la compréhension fine du prompt. A cette fin, le modèle a été entraîné sur un jeu de données contenant principalement des légendes d'images générées par un modèle dédié. Ces légendes décrivent en détails le contenu des images, comme les objets présents, leurs positions, couleurs, textures, etc. Entraîner le modèle textes-vers-images sur ces légendes détaillées améliore sa capacité à générer des images fidèles aux requêtes complexes. En parallèle, l'intégration de Dall-E 3 par OpenAI dans ChatGPT et dans Bing permet au système de créer un prompt plus précis et plus adapté aux attentes de l'utilisateur. Concrètement, le prompt entré est retravaillé par GPT avant d'être adressé au moteur de Dall-E 3.

Dans le cadre de ce test, nous avons comparé les images produites à l'aide d'un prompt unique avec Dall-E 3 dans ChatGPT et Midjourney (en version 5.2). Nous avons ensuite sélectionné parmi les quatre images générées la version la plus élaborée.

Dans notre premier test nous soumettons à l'IA un prompt décrivant une version remastérisée du "Radeau de La Méduse" en version futuriste, dans un style post-apocalyptique (Tous les prompts utilisés dans le cadre de test sont disponibles à cette adresse). La version proposée par Midjourney n'est pas probante. L'IA propose un paysage crépusculaire dénué d'intérêt. De son côté Dall-E 3 semble davantage créatif et propose une véritable interprétation du tableau, avec des robots sur un rafiot futuriste. L'ambiance générale et les éléments demandés dans le prompt sont entièrement respectés. Cette production illustre l'essence même des points forts de Dall-E 3 : la créativité et la finesse d'interprétation du prompt.

A gauche, Le Radeau de La Méduse de Dall-E 3, à droite celui de Midjourney. © Dall-E 3 / Midjourney

Pour notre second test, nous choisissons d'expérimenter la capacité des modèles à gérer avec précision le placement d'objets dans un environnement graphique complexe. Au sein du prompt, nous demandons à l'IA de générer une version robotique de Tintin, au volant d'une voiture dans les rues de Paris, Milou étant assis sur le siège passager. Pour cette nouvelle demande, Midjourney se contente de produire une deux-chevaux futuriste. Un chat blanc flotte dans le vide, à côté du véhicule. Le résultat est véritablement décevant. Midjourney ne parvient pas à comprendre le cœur même du prompt. De son côté, Dall-E 3 propose une scène véritablement cohérente avec un robot humanoïde aux traits de Tintin et une reproduction assez fidèle de son acolyte Milou, le tout dans un style BD. Là encore, Dall-E fait preuve de créativité et de détails dans la prise en compte des instructions initiales.

A gauche, le Tintin du futur de Dall-E 3, à droite, celui de Midjourney. © Dall-E 3 / Midjourney

Enfin, pour notre dernier test, nous décidons de pousser le curseur de la précision au plus haut et de faire générer une scène idéalisée de la vie parisienne, dans laquelle un jeune couple prend un café. A l'arrière-plan, un taxi doit être conduit par un chauffeur doté d'un tatouage représentant les lettres "JDN". Midjourney a le mérite de créer une peinture assez réaliste de la scène. L'image est de bonne facture mais, malheureusement, aucun taxi n'apparaît à l'image. De son côté, Dall-E 3 présente une scène pittoresque. L'image, photoréaliste, dispose d'un grain typé IA, peu exploitable en l'état. L'IA prend davantage en compte les éléments du prompt, mais commet quelques confusions. Le taxi est bien présent, mais le tatouage "JDN" n'apparaît pas sur le chauffeur mais sur la carrosserie. Le tatouage semble également s'être transposé sur le bras du sujet principal. Un bras qui est d'ailleurs mal formé, rendant l'image inutilisable. Même si Dall-E 3 reste davantage fin dans la compréhension du prompt initial, le modèle d'OpenAI pêche lorsqu'il est confronté à des demandes trop complexes.

A gauche la proposition de Dall-E 3, à droite celle de Midjourney. © Dall-E 3 / Midjourney

Selon nos différents tests depuis la sortie de Dall-E 3, le modèle d'OpenAI présente une meilleure compréhension du prompt initial. Il est par ailleurs plus aisé de générer une image rapidement exploitable. Midjourney présente toutefois une supériorité par la qualité des images générées. Le grain est plus professionnel et offre des clichés beaucoup plus nets. Le temps de génération quant à lui varie selon la demande sur les serveurs d'OpenAI et de Midjourney. Les deux modèles offrent un délai de création rapide, de l'ordre de quelques dizaines de secondes, bien que le processus de génération ne soit pas le même. Midjourney génère dans un premier temps quatre images dans une moindre résolution, avant de générer, sur demande de l'utilisateur, l'image finale. Dall-E 3 génère, pour sa part, deux images dans leur résolution finale en même temps. Le nombre d'image générée par Dall-E 3 semble dépendre de la demande du service, selon nos constatations.

	Dall-E 3	Midjourney
Compréhension du prompt	Bonne compréhension globale des prompts et des détails demandés.	Peu précis dans la compréhension des prompts complexes avec plusieurs détails.
Créativité	Créatif et capable d'interprétations nouvelles par rapport aux références données.	Peu créatif, a tendance à reproduire des éléments existants
Qualité des images	Grain d'image IA identifiable.	Qualité d'image supérieure, grain plus naturel, images de qualité pro.
Rapidité de génération	Génère les 4 images simultanément en quelques dizaines de secondes.	Génère d'abord 4 images basse résolution, puis l'image finale nécessite plus de temps.
Paramétrage	Possibilité limitée de paramétrer en langage naturel, dans le prompt.	Paramétrage avancé par attributs supplémentaires sous forme de tirets en fin de prompt.
Interface	Via ChatGPT ou Bing	Discord
Pricing	Version freemium dans Bing et ChatGPT ou 20$/mois pour ChatGPT Entreprise/Plus.	De 10$ à 120$/mois selon le forfait et la vitesse de génération.
Utilisation recommandée	Résultats rapides sur des prompts simples à complexes.	Projets professionnels de long terme nécessitant des images de très haute qualité.

Côté pricing, Midjourney propose des forfaits allant de 10 à 120 dollars par mois, dépendant du temps et de la vitesse de génération demandés. Dall-E 3 est disponible en version freemium avec un compte Microsoft dans Bing, ou dans ChatGPT Enterprise ou Plus à 20 dollars par mois. Sur le papier, pour une utilisation quotidienne, Dall-E 3 avec ChatGPT semble plus rentable. Dans ce cadre et selon nos tests, pour un résultat rapide, efficace et précis, nous vous conseillons d'utiliser Dall-E 3, d'autant que l'interface via ChatGPT ou Bing est bien plus simple à prendre en main. Midjourney s'avère davantage pertinent pour les utilisateurs professionnels qui souhaitent produire des images de très haute qualité pour des projets à long terme. La génération sera plus fastidieuse mais le résultat n'en sera que meilleur grâce aux nombreuses possibilités offertes par les paramétrages précis, sous forme d'attributs techniques, à ajouter en fin de prompt.

Dall-E 3 vs Midjourney : un duel de légendes

Guides

Repères