Gemini vs ChatGPT : qui est le meilleur pour la génération d'images ?
Pendant longtemps Midjourney a régné en maître absolu sur la création d'images par intelligence artificielle. Mais c'était sans compter sur OpenAI et Google, qui en intégrant directement leurs modèles de génération d'image à leurs chatbots ChatGPT et Gemini ont révolutionné le marché. Dans cet article, nous avons cherché à vous donner un aperçu des comportements de GPT-4o image generation (OpenAI) et Imagen 4 (Google) dans un large éventail de situations, à travers des exemples très concrets. Les prompts utilisés sont en gris.
Première demande : une photo macro
"Photo macro réaliste d'une nouvelle puce électronique sur une carte mère, avec un bokeh doux en arrière-plan et un éclairage de studio précis."
Pour les gros plans, chaque IA a son interprétation de la demande. Mais dans l'ensemble, les résultats sont tout à fait convaincants dans un cas comme dans l'autre et nous serions bien en peine de les départager !
Une image publicitaire créée de toute pièce
"Image publicitaire d'une bouteille de boisson énergétique glacée sur une surface métallique, avec des gouttelettes d'eau et un éclairage dynamique pour souligner la fraîcheur. Contexte sportif en arrière-plan flou."
Le mieux est l'ennemi du bien et l'IA de Google le prouve ici en ajoutant un ballon de basket dans les mains du… footballeur. De son côté, le visuel de ChatGPT se montre un peu plus sobre, mais répond parfaitement à la demande.
Un portrait photoréaliste
"Portrait photoréaliste d'un professionnel souriant d'environ 35 ans, représentant la diversité, travaillant sur un ordinateur portable dans un bureau moderne et lumineux. Éclairage naturel."
Pas de couac d'un côté ni de l'autre ici, même si nous avons une nette préférence pour le visuel de ChatGPT, qui ressemble à s'y méprendre à une véritable photo.
Une représentation conceptuelle "flat "
"Représentation conceptuelle d'une interface utilisateur minimaliste pour une application de gestion de projet, sur un écran de tablette, avec des icônes intuitives et une palette de couleurs douces. Style flat design."
Si les deux IA respectent globalement la consigne, l'image générée par ChatGPT est immédiatement utilisable, alors que Gemini propose un visuel certes plus stylisé, mais qui paraît moins opérationnel d'emblée dans certains cas.
Une infographie
"Infographie simplifiée illustrant les étapes d'un processus de recyclage, du tri des déchets au produit fini. Style vectoriel, couleurs vives et icônes claires."
La génération d'infographie est sans aucun doute l'un des usages qui peuvent concerner le plus d'utilisateurs au sein de l'entreprise.
Et à ce petit jeu, ChatGPT est bien plus fiable que son concurrent.
Voilà pour cette bataille de prompts. Dans l'ensemble, même si Gemini s'en tire avec les honneurs, ChatGPT fait souvent mieux, en se montrant plus fidèle à la demande de l'utilisateur et en commettant moins d'erreurs. Il n'y a pas match entre les deux à l'heure actuelle et le chatbot d'OpenAI est un vainqueur clair. A fortiori dans un environnement professionnel.
La modification d'image avec ChatGPT
L'un des grands points forts de ChatGPT est la possibilité d'itérer à partir d'une image créée. Il y a même un champ prévu à cet effet dans l'interface lorsque vous cliquez sur une image pour l'afficher en plus grand. Il suffit donc de taper vos demandes de modifications dans ce champ pour influer directement sur le résultat. Imagen 4 n propose pas cette possibilité.
1. Détourer une image avec ChaGPT
La possibilité de détourer une image en quelques secondes et sans aucune compétence en Photoshop est une perspective qui ne devrait pas manquer de ravir la grande majorité des salariés qui sont amenés à utiliser des images. Prenons l'exemple de cette petite miniature de la Mosquée bleue. Vous remarquerez qu'il ne s'agit pas d'un détourage simple, dans la mesure où l'objet n'est pas sur un fond uni et bien délimité. Avec ChatGPT, il suffit de lui soumettre l'image et de lui préciser ce que vous souhaitez détourer pour voir l'IA s'exécuter.
Après quelques instants, l'image détourée apparaît sans autre forme de procès dans la conversation. Il est bien sûr possible de l'exporter en PNG pour l'utiliser immédiatement. L'outil ne s'est pas contenté de détourer l'objet, il semble aussi avoir amélioré la netteté. Mais cela va plus loin, puisqu'il l'a en fait entièrement recréé, quasi à l'identique. On repère quelques petites différences en y regardant de plus près.
2. La modifier
Une fois l'image détourée, rien ne vous oblige à vous arrêter en si bon chemin. Vous pouvez continuer à la modifier à votre guise, afin qu'elle corresponde du mieux possible à votre besoin. Ici, nous avons demandé à l'IA que tous les murs soient passés en rouge. On vous laisse juger du résultat.
3. La placer dans le décor de votre choix
Une fois que vous êtes satisfait de votre image détourée, il est très simple de demander à l'IA de l'ajouter dans le paysage de votre choix. Néanmoins, si vous êtes particulièrement satisfait de l'image obtenue à l'étape précédente, nous vous conseillons de faire cet ajout vous-même dans Photoshop. Pourquoi s'embêter quand on a déjà ChatGPT sous la main ? Si vous regardez attentivement les détails des deux objets, vous verrez que ce ne sont pas tout à fait les mêmes. L'IA recrée tout à chaque fois, ce qui entraîne régulièrement des petites différences.
4. Modifier une photo de référence
Voici une fonction particulièrement intéressante pour ceux qui ne sont doués d'absolument aucun talent photographique. Il suffit en effet de charger votre propre photo dans ChatGPT et de lui demander de l'améliorer. Dans un cadre professionnel, cela peut s'avérer encore plus pratique, dans la mesure où il est par exemple possible de renforcer l'efficacité d'une séance de repérage en demandant à l'IA d'inclure ou de modifier des éléments.
Les humains restent un problème
Si tout cela ressemble à de la magie, il existe tout de même encore des limites, qui pourront s'avérer plus ou moins gênantes en fonction de ce que vous voulez en faire. Ainsi, l'IA a toujours un mal fou à intégrer une photo réelle d'un humain.
Il faut bien comprendre que dans tous les cas, le système ne détoure pas vraiment un élément donné. Il le recrée complètement. Et si l'illusion est souvent parfaite pour des objets ou des décors, c'est moins évident pour les humains.