Avec Ideogram, Dall-E et Midjourney ont (enfin) un sérieux concurrent

Avec Ideogram, Dall-E et Midjourney ont (enfin) un sérieux concurrent Lancé fin février par la start-up du même nom, le modèle text-to-image Ideogram 1.0 promet des images photoréalistes d'une grande qualité et une maitrise sans précédent du texte.

Une saine concurrence se profile dans le domaine de l'IA text-to-image. Fondé en aout 2023 par d'ex chercheurs de Google Brain, Ideogram a focalisé ses recherches en IA sur la génération de textes cohérents au sein des images. Une tâche que bon nombre de modèles text-to-image -même récents - ne parviennent pas à effectuer parfaitement. A ses débuts, Ideogram permettait de générer de simples compositions typographiques relativement cohérentes.

Tout s'est accéléré en février. Le 28 février précisément, quand Ideogram a lancé Ideogram 1.0, un nouveau modèle de génération text-to-image entraîné from scratch. Ce dernier promet de générer des images de haute qualité, rivalisant avec les meilleurs modèles du domaine. Un premier modèle assorti d'une nouvelle levée de fonds de série A à hauteur de 80 millions de dollars auprès du fond américain Andreessen Horowitz.

Ideogram 1.0 : un modèle à l'état de l'art en génération de texte

Ideogram l'assure, Ideogram 1.0, est actuellement (en mars 2024), le modèle text-to-image le plus avancé pour générer des images contenant du texte, de manière cohérente. Le taux d'erreur en génération d'images avec du texte serait le plus faible du domaine. L'entreprise promet une génération facilitée de messages personnalisés, memes, posters, design pour des T-shirt, pour des cartes d'anniversaire des logos et bien plus.

Ideogram 1.0 a le taux d'erreur le plus fiable en génération de texte. © Ideogram

En plus d'une maitrise des textes, Ideogram 1.0 est en capacité, selon la start-up, de générer des images photoréalistes, des images cohérentes avec des prompts longs et complexes. Comme la majorité des modèles text-to-image, Ideogram supporte la génération dans une multitude de styles et de formats. D'après un benchmark réalisé par des humains, la cohérence, l'alignement, le rendu visuel textuel et l'aspect global des images produites par Ideogram 1.0 serait préféré à Dall-E 3 ou Midjourney V6.

La cohérence, l'alignement, le rendu visuel textuel et l'aspect global des images produites par Ideogram 1.0 serait préféré à Dall-E 3 ou Midjourney V6. © Ideogram

Pour l'heure, la start-up basée à Toronto reste avare de détails techniques sur l'entraînement de son modèle. Impossible de connaitre le dataset utilisé ni même l'architecture d'Ideogram 1.0.

Une interface simple d'utilisation

Contrairement à Midjourney, ou Dall-E3, l'interface d'Ideogram est véritablement très simple d'utilisation. L'outil s'utilise de façon intuitive depuis le site web de l'entreprise. Il suffit de rentrer le prompt de l'image à générer, de sélectionner le ratio, le modèle à utiliser (1.0), et la visibilité publique ou privée de l'image générée (publique par défaut pour les comptes gratuits).

 L'outil propose 9 ratios différents :

  • 9:16
  • 10:16
  • 2:3
  • 3:4
  • 1:1
  • 4:3
  • 3:2
  • 16:10
  • 19:9
  • L'interface d'Ideogram. © Ideogram

Ideogram offre un outil fort utile : Magic Prompt. Sur le même principe que Dall-E, cette fonctionnalité permet une réinterprétation de votre prompt en une version plus élaborée et compréhensible par Ideogram 1.0. Les résultats sont globalement de meilleure qualité lorsque cette option est activée. En revanche, si votre prompt est déjà précis, la reformulation peut générer des images plus éloignées de la demande initiale.

Nos tests le confirment, Ideogram 1.0 est assez bon en génération d'images photoréalistes. Les images produites sont propres et utilisables en l'état. En comparaison avec Dall-E 3 et Midjourney, les résultats sont assez différents. Sur le prompt "A car on the shores of Lake Geneva in winter, it's snowing, cinematic vision", Ideogram offre une image réaliste, proche de celle produite avec Midjourney. Dall-E 3 reste en léger retrait avec une image plus synthétique.

Prompt : A car on the shores of Lake Geneva in winter, it's snowing, cinematic vision. © Ideogram

Ideogram 1.0 en haut à gauche, Midjourney V6 en haut à droite, Dall-E 3 en bas au centre.

En portrait, les résultats sont encore différents ! Avec le prompt "Portrait of a young woman at the top of the Eiffel Tower, F1.4, stormy weather in the distance, dramatic atmosphere", aucune IA ne semble avoir compris que le sujet principal devait être en haut de la tour Eiffel. Les styles des images générées sont cependant très éclectiques. Ideogram propose une version ultra-réaliste. Le sujet principal est réalisé de façon très crédible, au point qu'on pourrait le confondre avec une personne bien réelle. Le résultat est globalement cohérent bien qu'un peu "trop" accentué, notamment la clarté générale. Midjourney propose une version légèrement plus réaliste et beaucoup plus douce. Le bokeh est bien reproduit et le résultat tout à fait crédible. Enfin Dall-E 3 propose une version très synthétique qui ne colle pas avec le style demandé.

Une image contenant texte, capture d’écran, ciel, Visage humainDescription générée automatiquement
Prompt : Portrait of a young woman at the top of the Eiffel Tower, F1.4, stormy weather in the distance, dramatic atmosphere. © Ideogram

En génération de texte, point fort affiché d'Ideogram, Ideogram 1.0 propose, selon nos tests, une bonne alternative à Dall-E 3. Avec le prompt "A photo-realistic image of a man in a bar, leaning against the counter, reading a newspaper called "Le Journal du Net"", Ideogram fait aussi bien que Midjourney V6 et parvient à écrire presque sans faute le texte "Le Journal du Net." L'IA a simplement tendance a généré des signes similaires à des accents au-dessus des lettres. Dall-E 3 offre un résultat encore peu convaincant et Midjourney propose un texte lisible mais oublie l'article "Le".

Une image contenant texte, habits, capture d’écran, personneDescription générée automatiquement
Prompt : A photo-realistic image of a man in a bar, leaning against the counter, reading a newspaper called "Le Journal du Net". © Ideogram

 En complexifiant légèrement le prompt avec comme instruction "Cartoon style. A class in high school, on the blackboard it says "Lesson n'1: How Transformer architecture has transformed AI over the last ten years."" , les résultats sont plus disparates. Midjourney et Dall-E 3 offrent des images avec un texte peu cohérent. Ideogram propose une image plus juste avec un texte quasi-parfait (à quelques lettres près). Midjourney propose en revanche l'ensemble le plus visuellement qualitatif.

Une image contenant texte, capture d’écran, personneDescription générée automatiquement
Prompt : Cartoon style. A class in high school, on the blackboard it says "Lesson n'1: How Transformer architecture has transformed AI over the last ten years. © Ideogram

Des formules de 0 à 16 dollars

Ideogram propose trois formules différentes : Free (gratuite), Basic à 8 dollars par mois (ou 7 dollars en paiement annuel) et Plus à 20 dollars par mois (ou 16 dollars en paiement annuel). La formule gratuite comprend la génération de 25 prompts par jour et le téléchargement de 100 images (depuis la bibliothèque d'image publique d'Ideogram). Par défaut, les images téléchargées seront compressées (format JPG). Avec la formule Basic, il est possible d'accéder à l'éditeur d'image maison d'Ideogram, au téléchargement de 1 600 images et à la génération de 400 prompts par mois. La formule confère également un accès prioritaire à la génération rapide (pour 400 prompts), une haute qualité (PNG) et l'accès aux dernières fonctionnalités lorsqu'elles sont déployées. Enfin, le plan Plus, permet l'accès à l'éditeur Ideogram, l'input d'image en entrée de prompt, la génération rapide de 1 000 prompts, la génération et le téléchargement illimités d'images, la qualité originale (PNG), et l'accès aux dernières mises à jour.

Une image contenant texte, capture d’écran, nombre, PoliceDescription générée automatiquement

A noter que seule la version Plus offre la possibilité de garder privées les images générées. Par ailleurs, l'ensemble des images générées sur Ideogram sont utilisables sous licence commerciale, par tous les utilisateurs.

Une alternative crédible à Midjourney et Dall-E

En somme, Ideogram 1.0 s'impose comme un sérieux concurrent à Dall-E et Midjourney dans le domaine de la génération d'images par IA. Nos tests montrent qu'Ideogram dépasse Dall-E 3 sur la majorité des tâches, en particulier la génération de texte cohérent au sein des images. Midjourney conserve toutefois une légère avance en termes de qualité visuelle globale des images produites. C'est véritablement sur la génération de texte qu'Ideogram rivalise avec Midjourney, en proposant des résultats quasi-parfaits, là où Dall-E 3 reste encore à la traine. Avec sa maitrise de l'incorporation de texte, Ideogram ouvre de nouvelles possibilités créatives pour la conception de logos, designs, messages personnalisés et plus encore.

Ideogram 1.0 apporte ainsi une alternative crédible et des capacités inédites sur le marché des modèles text-to-image. Il ne fait nul doute que la concurrence va continuer de s'intensifier dans les prochains mois, pour le plus grand bénéfice des utilisateurs à la recherche d'outils toujours plus performants.