Imagine with Meta AI : que vaut le générateur d'images de Meta ?

Imagine with Meta AI : que vaut le générateur d'images de Meta ? Meta lance une interface grand public pour son modèle de génération text-to-image, Emu. Un outil disponible gratuitement, pour l'instant uniquement aux Etats-Unis.

Meta continue d'innover dans l'IA générative. La firme de Menlo Park a présenté mercredi 6 décembre une vingtaine de nouvelles fonctionnalités d'intelligence artificielle prochainement intégrées dans Facebook, Instagram, Messenger, et WhatsApp. L'assistant Meta AI permet désormais, aux Etats-Unis, de générer du texte et des images. Au sein d'une conversation, l'outil peut être appelé via la commande "@Meta AI" pour générer des images à la demande. Une fonctionnalité pratique que Meta a choisi de démocratiser en créant une interface dédiée à la création d'images : Imagine with Meta AI.

Accessible uniquement depuis le sol américain ou avec un VPN, l'outil permet de générer des images à l'aide d'une simple commande textuelle (prompt), comme avec Dall-E 3 ou Midjourney. A la manœuvre derrière cette interface sobre se trouve Emu, le modèle développé par les équipes GenAI chez Meta.

Présenté fin septembre, le LDM (latent diffusion models), a été pré-entraîné sur 1,1 milliard de paires image-texte, puis fine-tuné sur quelques milliers d'images soigneusement sélectionnées pour leur grande qualité esthétique. En termes de qualité visuelle, le modèle surpasse significativement les modèles pré-entraînés équivalents. Emu offre une fidélité au prompt similaire à la première version de Stable Diffusion (SDXLv1.0), écrivent les chercheurs dans leur document de recherche.

Le modèle de Meta parvient à reproduire Mona Lisa. © Capture d'écran

Des images au format carré

L'interface d'"Imagine with Meta AI" est sobre et très simple à utiliser : un champ textuel pour le prompt et un bouton unique pour lancer la génération. L'outil ne traite actuellement que des requêtes en anglais et ne parvient pas à interpréter d'autres langues. Selon nos tests, la génération d'images est beaucoup plus rapide qu'avec Dall-E 3 ou Midjourney. La qualité finale est, en revanche, beaucoup plus faible. L'outil de Meta permet de générer uniquement des images compressées en jpeg, au format carré en 1280x1280. Les images produites font en moyenne moins de 500 kilooctets.

Emu génère des images réalistes de qualité moyenne. © Capture d'écran

La plupart des images générées offrent un haut niveau de fidélité au prompt initial avec toutefois une qualité graphique aléatoire, comparable à la première version de Dall-E d'OpenAI. Pour un prompt, l'IA de Facebook génère 4 propositions différentes. Le modèle a du mal à gérer la génération de texte et de logo dans les images. L'outil permet de reproduire une variété de styles différents avec une compréhension globale des codes artistiques. Le point fort d'Emu dans "Imagine with Meta AI" réside dans la génération de photographie réaliste. Les détails sont assez fidèles mais la compression dégrade rapidement la qualité globale. Le résultat final n'est, pour l'heure, pas à la hauteur d'un Dall-E 3.

Des images watermarkées

Contrairement à Midjourney dans ses premières versions, Emu parvient à générer des êtres humains typiques, sans sixième doigt ou troisième jambe. En revanche, le modèle reproduit avec assurance la plupart des stéréotypes classiques. Lorsqu'on lui commande la génération d'une image représentant une famille française, l'IA génère une photographie toute droit sortie de l'après-guerre (voir ci-dessous). Tout comme avec Midjourney, le placement d'éléments avec précision au sein de l'image se révèle complexe.

La représentation d'une famille française selon Emu. © Capture d'écran

Enfin, fait notable pour être souligné, les images générées par l'outil de Meta sont watermarkées avec un filigrane visible. Dans les prochaines semaines, la firme prévoit également d'ajouter un watermark invisible pour que chaque image générée avec son IA soit identifiable en tant que telle. "Le filigrane invisible est appliqué avec un modèle de deep learning. Il est résistant aux manipulations d'images courantes telles que le recadrage, le changement de couleur (luminosité, contraste, etc.), les captures d'écran et plus encore. Nous avons pour objectif d'apporter le filigranage invisible à bon nombre de nos produits comportant des images générées par l'IA à l'avenir", prévient Meta.