Dall-E 3 à l'essai : un bond en avant pour la génération d'image par IA

Dall-E 3 à l'essai : un bond en avant pour la génération d'image par IA Bing AI intègre désormais nativement le générateur d'image d'OpenAI. La création d'œuvre visuelle en est grandement simplifiée.

Dall-E 3 va-t-il tuer Midjourney ? Mise en ligne fin septembre, la nouvelle mouture du générateur d'image de la startup cofondée par Sam Altman, offre des résultats bluffants. Avec quelques mots, l'IA de Bing est capable de générer des visuels complexes, détaillés et pertinents en moins d'une minute.

Annoncée le 20 septembre dernier, la nouvelle version de Dall-E est conçue pour fonctionner avec ChatGPT et est censée également mieux comprendre les prompts qui lui sont soumis. "Les systèmes modernes de conversion de texte en image ont tendance à ignorer les mots ou les descriptions, ce qui oblige les utilisateurs à apprendre l'ingénierie rapide. DALL-E 3 représente un bond en avant dans notre capacité à générer des images qui correspondent exactement au texte que vous fournissez", assure l'entreprise.

Dall-E 3 permet de décrire avec précisions le résultat attendu. © OpenAI

Concrètement, il est possible de faire générer à l'IA une image en détaillant l'ensemble des éléments devant être présents ainsi que leur emplacement. Il devient alors plus facile de décrire l'arrière-plan tout en conservant une logique au premier plan. Par ailleurs, le cœur du modèle lui-même bénéficie de profondes améliorations. Avec un même prompt, l'image générée est beaucoup plus qualitative et détaillée.

L'innovation majeure reste cependant l'intégration native de l'outil dans ChatGPT. Quand créer une image sur Midjourney demande de maîtriser une documentation technique complexe, Dall-E 3 ne nécessite aucune connaissance particulière. Le LLM se charge pour vous d'imaginer avec précision et détail le prompt à fournir à Dall-E 3. La mise à jour du modèle apporte également son lot de gardes fou. Les équipes d'OpenAI ont entraîné le modèle pour éviter que celui-ci ne parvienne à générer des images violentes, pornographiques ou incitants à haine. Les personnages publics sont également plus difficiles à recréer et ce afin d'atténuer les risques liés à la désinformation. Enfin, OpenAI développe en parallèle un classifier visant à identifier les images générées par ses IA.

A gauche, une image générée avec Dall-E 2, à droite avec Dall-E 3, avec le même prompt. © OpenAI

La fin des prompts complexes

Initialement, Dall-E 3 devait être déployé au courant du mois d'octobre pour les utilisateurs de ChatGPT Plus et ChatGPT Enterprise. La nouvelle itération du modèle est finalement sortie fin septembre au sein de Bing AI, le moteur de recherche assisté par IA de Microsoft. Il est possible de tester l'outil gratuitement directement depuis Bing AI, la seule condition est d'être connecté avec un compte Microsoft, plus besoin de passer nécessairement par le navigateur Edge. Pour créer une image depuis le chat, rien de plus simple : il suffit de demander. En indiquant "génère une image" ou "créé une image" dans votre prompt, l'IA de Microsoft, qui n'est autre qu'un GPT-4 adapté à Bing, va comprendre qu'elle doit appeler Dall-E 3. En décrivant très simplement l'image attendue, Bing va comprendre l'intention de la demande et transformer votre prompt initial en un prompt plus détaillé, si nécessaire, afin que Dall-E 3 comprenne précisément ce qu'il doit créer. Selon nos tests, une seule limitation persiste encore : le modèle n'est pas en capacité de générer une image dans format autre que 1024 par 1024 pixels.

Générer un logo devient rapide et facile. © Capture d'écran

Le GPT-4 de Bing combiné à la mise à jour de Dall-E 3 constituent une avancée majeure en termes de créativité. Il est notamment possible de créer un logo pour son entreprise en quelques phrases. L'IA choisit alors le thème et les couleurs les plus adaptés. Les possibilités sont démultipliées et permettent de créer des images avec une grande variété d'ambiance. Pour rappel, les images générées avec Dall-E vous appartiennent. Vous êtes libre de les utiliser dans un but commercial. 

Afin de tester les possibilités du modèle nous avons comparé la génération d'une image, avec un prompt similaire sur Dall-E 3 et Midjourney. Les résultats sont assez différents. Midjourney propose une version plus lissée et claire de l'image, quand Dall-E interprète  et ajoute de nombreux éléments. L'IA d'OpenAI a également tendance à ajouter des filtres, donnant lieu à différentes ambiances (voir notre résultat ci-dessous). 

A gauche, une image générée avec Dall-E 3, à droite avec Midjourney avec le prompt : "One filled with passers-by, bicycles, autonomous cars and the Eiffel Tower in the background." © Dall-E / Midjourney

Dall-E 3 dans Bing AI connaît toutefois quelques  difficultés. Le temps de latence est parfois élevé, voire l'outil ne répond tout simplement plus. L'alternative consiste à utiliser directement l'outil "Image Creator" de Microsoft qui a le mérite d'offrir une génération plus rapide, et des conseils personnalisés pour améliorer vos créations. La version de Dall-E 3 dans ChatGPT, qui devrait se révéler tout aussi performante, est attendue au cours du mois d'octobre.