L'art du prompt : comment bien aiguiller les IA de génération d'images

L'art du prompt : comment bien aiguiller les IA de génération d'images Dall-E, Midjourney, Stable Diffusion… Les modèles de création automatique d'images se multiplient. Pour parvenir aux clichés recherchés, la conception sémantique des requêtes devra être bien huilée.

Les modèles de deep learning conçus pour automatiser la création d'images fleurissent depuis quelques mois. Parmi ces IA figurent les désormais célèbres Dall-E, Stable Diffusion ou MindJourney. Les résultats qu'elles obtiennent sont impressionnants (lire l'article IA de génération d'images : le test du JDN révèle des résultats surprenants). Reste à savoir comment formuler la demande pour obtenir le sujet et le graphisme recherchés. Pour répondre à ce défi, une nouvelle technique à vue le jour : le prompting.

Décrire le sujet de manière synthétique

Globalement, un prompt sera composé d'une phrase décrivant précisément et succinctement le sujet ciblé. "Par exemple : 'un enfant lançant un frisbee'", indique Louis Bouchard, doctorant en IA à l'école Polytechnique de Montréal et à l'Institut québécois d'intelligence artificielle (Mila). "Ensuite, on ajoutera des mots-clés pour préciser certains détails en testant plusieurs possibilités de synonymes pour chacun : 'enfant jeune ou mineur, cheveux noir ou châtain, tenue sportive ou décontractée, paysage rural ou de campagne'." Objectif : avancer par essai-erreur pour tendre vers la formulation que la machine comprenne le mieux au regard de l'image souhaitée.

On pourra également donner des indications de style : 'une peinture à l'huile' ou encore un 'rendu photo-réaliste' par exemple. Globalement, plus le prompt sera détaillé et surtout complexe en termes sémantiques, plus le résultat se révélera potentiellement incohérent et par conséquent déceptif.

Ne pas rechercher un résultat figé

Partant de-là, il est important de laisser l'IA s'exprimer sans avoir une idée trop précise de la représentation ciblée. "Je recommande de se laisser surprendre par la capacité créative de la machine en prenant la posture d'un poète et pas celle d'un programmeur. La génération d'images peut permettre de dénicher un personnage, un style, une composition que vous n'aviez pas en tête au départ, mais qui peuvent correspondre parfaitement à l'objectif à atteindre", constate Steve Coulson. "Pour trouver ce qui vous convient, je conseille de multiplier les générations d'images jusqu'au résultat qui vous inspire. Ne pas hésiter à en faire plusieurs dizaines, voire plusieurs centaines."

Le directeur créatif de l'agence américaine de storytelling transmédia Campfire sait de quoi il parle. Il est l'auteur de The Bestiary Chronicles, la première BD créée entièrement à partir d'une IA générative, en l'occurence Mindjourney. Combinant fantastique, fantaisie et science-fiction, cette odyssée se découpe en quatre parties : Summer IslandExodus, The Lesson et The Letter Home. A la fois réalistes, précis, mais également cohérents en termes de narration et de style, les dessins donnent l'impression d'être nés de l'imagination d'un artiste sensible et rompu à l'exercice.

Etudier les data sets d'entrainement

"Pour optimiser la manière de rédiger un prompt, il est pertinent d'étudier le contenu des data sets d'entrainement des IA génératives utilisées, quand ils sont disponibles, ce qui est le cas de celui de Stable Diffusion (Laion, ndlr)", souligne Louis Bouchard. Ces sets de données se présentent en général sous la forme de volumes massifs d'images associées à des légendes, le tout glané sur Internet. L'analyse de la formulation de ces dernières contribuera à améliorer le prompting.

S'adapter à l'évolution permanente de l'IA

Au-delà de ces quelques règles de base, difficile de fournir un tutoriel plus précis. "Les IA de génération d'images s'affinent en permanence. Et les techniques de prompting avec elles", reconnait Steve Coulson. "Lorsque j'ai commencé à travailler sur la BD Summer Island, Midjourney ne permettait pas de reproduire un personnage d'une vignette à l'autre. Dans cette bande dessinée, le personnage principal est donc un photographe qu'on ne voit pas, mais dont les clichés qui forment la narration s'affichent de page en page."

Pour la BD Exodus, les évolutions apportées à Midjourney dans l'intervalle permettent à Steve Coulson de reproduire au fil des planches les personnages principaux. Seule exception : leur visage. Confronté à ce défaut, l'auteur a trouvé la parade : les visages des personnages seront masqués par la visière de leur casque de cosmonaute. Avec la BD The Lesson, le créatif bénéficie d'une nouvelle fonctionnalité : la possibilité d'intégrer les actrices des films d'Hitchcock au fil du scénario. Elles deviennent donc les acteurs centraux de la narration. Ce n'est que dans le dernier volet de The Bestiary Chronicles (The Letter Home), paru en décembre 2022, que Steve Coulson bénéficie de la possibilité ultime : générer un personnage original et son visage, avec la capacité de le décliner dans des postures et des décors différents.

Savoir reproduire un décor, un personnage

Comment faire ? Une fois un décor ou un personnage généré par l'IA, le graphisme correspondant pourra être de nouveau soumis au modèle pour être déclinée ou réutilisé et intégré à un nouveau cliché. "Un même prompt soumis à une même IA générative pourra donner différents résultats, les modèles sous-jacents n'étant pas déterministes. Le requêtage n'est donc pas un moyen de reproduction parfait", rappelle Louis Bouchard. "Il n'en reste pas moins vrai que des prompts se révèleront plus efficaces que d'autres pour créer des images qualitatives."

Echanger avec ses pairs

Pour dénicher les meilleurs prompts, la place de marché Promptbase propose des milliers d'exemples avec résultats picturaux à la clé. Le tout couvrant les trois IA de génération d'images les plus populaires : Dall-E, Midjourney et Stable Diffusion. En parallèle, les communautés d'utilisateurs se regroupent pour partager les bonnes pratiques sur le sujet. A l'instar du serveur Learn AI Together ouvert sur Discord pour dynamiser les échanges entre experts. "L'objectif est ensuite d'alimenter des bases de connaissances évolutives, comme Learnprompting.org, en tenant compte des différentes IA génératives et de leur optimisation dans le temps", précise Louis Bouchard.