Midjourney V6 : des photographies sublimes, un texte décevant

La dernière mise à jour de Midjourney apporte des améliorations significatives. Les images sont plus cohérentes, plus humaines et graphiquement époustouflantes.

Midjourney franchit un nouveau cap. Le modèle d'image développé par le laboratoire éponyme a bénéficié d'une mise à jour d'ampleur en décembre 2023. Déployée en version Alpha, la V6 offre une qualité d'image supérieure et de nouvelles fonctionnalités. Quelques limitations subsistent toutefois pour en faire un modèle clé en main destiné au grand public. Pour parvenir à la V6, les équipes de Midjourney ont réentraîné de zéro le modèle pendant 9 mois sur des superclusters d'IA. La version actuelle est amenée à évoluer au fil des prochains mois et ne constitue pas la version finale de Midjourney, précise David Holz, fondateur de Midjourney sur Discord.

Après des mises à jour importantes avec les versions 5.1 et 5.2, la version 6 représente, d'après nos essais, une base solide pour faire de Midjourney un outil réellement professionnel et de grande qualité. Plus précisément, cette nouvelle mouture apporte, selon Midjourney, de véritables gains en matière de fidélité au prompt et de cohérence générale. La nouvelle version est également dotée d'une base de connaissances artistiques plus grande qui lui permet de générer de nouveaux styles. La manière de prompter change également. Désormais, l'IA accorde beaucoup plus d'importance aux détails du prompt. David Holz recommande ainsi d'éviter au maximum les fioritures inutiles comme "4k, 8k, photoréaliste…" Pour prompter efficacement avec Midjournvey V6, il suffit d'être explicite et d'expliquer le plus simplement possible, avec détails, l'image attendue.

Une gestion du texte aléatoire

Pour changer la version utilisée par défaut par Midjourney, rien de plus simple. Il suffit de taper "/settings" dans la conversation Discord avec Midjourney Bot. Une fenêtre apparaît permettant de configurer le modèle utilisé, l'utilisation du RAW (qualité brute), le taux de stylisation, la génération de variations et la vitesse de génération. Pour des résultats optimaux et plus fidèles au prompt initial, il est recommandé d'utiliser une stylisation légère ou moyenne. Enfin pour des photographies plus réalistes, le mode RAW (brut) offre des résultats beaucoup plus qualitatifs.

"/settings permet de configurer le modèle par défaut à utiliser." © Capture d'écran

Dans le cadre de ce test, nous avons utilisé la version 6 de Midjourney déployée le 6 janvier. Cette dernière inclut notamment, par rapport à la version de décembre, une meilleure gestion de l'esthétique générale, de la cohérence, une meilleure qualité et une meilleure prise en charge du texte. La génération de texte, c'est justement la nouveauté la plus marquante de cette version. L'IA est maintenant censée être capable de produire des textes propres sur des éléments précis. Pour indiquer au modèle qu'il doit générer du texte, il est nécessaire de mettre entre guillemets le texte à générer et d'indiquer sa localisation. Pour de meilleurs résultats, Midjourney recommande d'utiliser une stylisation très basse avec le mode RAW activé.

La fonctionnalité a le mérite d'exister mais n'est toujours pas utilisable en l'état sauf pour de très rares cas. Selon nos tests, l'IA parvient à générer du texte très court avec un ou deux mots maximum. La position du texte est toujours aléatoire. Pour exemple, nous demandons à générer une photographie de la Tour Eiffel à l'occasion de la cérémonie d'ouverture des Jeux olympiques de Paris 2024, le mot "Paris 2024" doit être placé sur la tour Eiffel. L'IA ne comprend pas et finit par générer un texte sur un écran latéral. L'année "2024" est quant à elle décalée dans le vide. Le placement n'est pas optimal et la demande du prompt initial n'est pas respectée, même après plusieurs itérations.

Midjourney ne parvient pas à gérer avec précision le texte. © Midjourney

Prompt : "The Eiffeil Tower at the opening ceremony of the 2024 Olympic Games in Paris. A general shot with the supporters during the opening ceremony. An Olympic logo and the text "Paris 2024" can be seen on the Eiffel Tower. The atmosphere is warm and festive. --ar 16:9 --v 6.0 --style raw"

Une qualité graphique exceptionnelle

La véritable force de Midjourney version 6 réside davantage dans la qualité graphique des images générées. Selon nos tests, après l'upscale créatif (augmentation de la résolution en x2), le piqué des images générées est excellent, comparable à un appareil photo plein format haut de gamme. Les détails sont représentés avec une fidélité et une richesse qu'aucun modèle d'IA sur le marché n'est capable de produire. Pour comparer nous demandons à Dall-E 3 et Midjourney V6 de générer la même scène : une photographie réaliste du Mont Cervin en Suisse. Pour rappel, Dall-E interprète le prompt initial et le reformule pour de meilleur résultat quand Midjourney interprète directement le prompt de l'utilisateur.

Le modèle d'OpenAI propose une version dramatique du Mont Cervin très belle mais peu réaliste quand Midjourney propose une véritable photographie de paysage comme un photographe professionnel aurait pu la prendre.

Prompt : "Mont Cervin in Switzerland photographed with a Canon camera in very high definition. A snowstorm below, blue sky above. Nice contrast. Some grain on the photo. --ar 16:9 --v 6.0 --style raw --s 50"

Sur la génération de gros plans, le constat est le même, Midjourney apporte davantage de détails et une qualité globale accrue. Le style est également plus proche de ce que pourrait capturer un appareil photo. Exemple avec l'image en gros plan d'un Boa constricteur. L'image générée par Dall-E, bien que très graphique, n'est que peu réaliste et présente le style d'une image de synthèse classique. L'image produite par Midjourney se démarque encore et toujours pas la qualité et l'ultra-réalisme du résultat final (avec l'upscale créatif).

Prompt : "A close-up of a boa constrictor, with every detail of the animal visible. --ar 16:9 --v 6.0 --style raw"

Plus bluffant encore : les portraits. C'est le point fort de Midjourney. Avec un prompt simple et légèrement détaillé, il est possible de produire de magnifiques photographies au format portrait avec un très beau bokeh. La version 6 apporte encore davantage de ressemblance aux visages humains. Nous demandons ainsi à l'IA de générer le portrait d'un Laotien avec une yourte à l'arrière-plan. Dall-E présente une image esthétiquement belle mais peu réaliste avec un style très artificiel. Midjourney propose en revanche une belle composition avec de nombreux détails. Le blur à l'arrière-plan est homogène est très bien géré par l'IA, en cohérence avec l'ouverture de l'objectif que nous avons demandée. Le tout donne un résultat très réaliste.

Prompt : "A portrait photograph with a 50mm f1.4 lens of a 90-year-old Laotian man. His face is marked, with a nice contrast and a beautiful smile. In the background, in the bokeh, a yurt and the Mongolian steppe. --ar 16:9 --v 6.0 --style raw --s 50"

Le style cartoonesque pleinement maîtrisé

Enfin, nos tests démontrent également une bonne gestion des styles moins conventionnels par la V6 de Midjourney. L'IA parvient à produire de belles images avec quelques mots. Le style cartoonesque Disney offre par exemple de véritables possibilités créatives. Une fois la génération de texte pleinement maîtrisée par l'IA, les possibilités seront nombreuses.

Le style cartoon est maîtrisé avec brio par Midjourney. © Midjourney

Prompt : "A rabbit dressed in French style is quietly reading a newspaper outside his window. On the newspaper is the word "Journal du Net", which is the name of the newspaper. You can see the Eiffeil Tower from the window. There's also a table where a hot cup of coffee is sitting, steam coming out of it. Disney cartoon style. --ar 16:9 --v 6.0 --style raw"

La version 6 de Midjourney constitue une avancée majeure en termes de qualité d'image générée et de compréhension des instructions fournies. Les portraits et styles photographiques créés sont d'un réalisme saisissant. Le modèle convient aux professionnels recherchant des visuels aux détails inégalés.

Cependant, des limites subsistent. La génération de texte n'est pas encore au point et le modèle n'a pas atteint sa forme définitive. L'absence d'interface graphique rebute encore beaucoup d'utilisateurs non-experts, même si une version simplifiée est en test auprès de certains utilisateurs.