Test de Stable Diffusion 3 : enfin une IA text-to-image qualitative on-device

Stability AI a publié en open source Stable Diffusion 3 Medium, un modèle text-to-image exécutable avec des configurations matérielles réduites.

La génération text-to-image arrive en local. Jadis réservés à des serveurs équipés de GPU à plusieurs dizaines de milliers de dollars, les modèles d'IA text-to-image s'ouvrent aux puces grand public. Dernier exemple en date avec Stable Diffusion 3 Medium. Publié le 12 juin en open source, le modèle de Stability AI peut être exécuté facilement en local sur des ordinateurs avec une configuration intermédiaire. En outre, Stable Diffusion 3 Medium (SD3M) est, selon Stability AI, son modèle le plus avancé pour la génération d'image… alors qu'il ne fait que 2 milliards de paramètres.

Pour cette nouvelle version, Stability AI a concentré ses efforts sur le photoréalisme, la compréhension et le respect de la fidélité des instructions du prompt, la génération de typographie de haute qualité et l'adaptation facile au fine-tuning.

Un modèle entraîné sur plus d'un milliard d'images

Avec SD3M, Stability introduit une nouvelle approche et s'éloigne des modèles de diffusion classiques. L'IA s'appuie sur une technologie moderne appelée "Rectified Flow". Les modèles de diffusion classiques fonctionnent en ajoutant progressivement du bruit à une image et en apprenant ensuite à l'inverser ce processus pour recréer l'image originale. Les Rectified Flows proposent une approche plus directe. Plutôt que de dépendre de ces étapes de bruitage et de débruitage, ils utilisent des transformations continues (linéaires) et plus fluides pour générer des images. Cela permet non seulement de simplifier le processus, mais aussi de produire des images plus rapidement et souvent avec une meilleure qualité.

Stable Diffusion 3 Medium se base également sur une architecture novatrice : le Multimodal Diffusion Transformer ou MMDiT. Celle-ci gère de manière indépendante les représentations textuelles et visuelles (des jeux de poids distincts pour l'image et le texte), favorisant un dialogue fluide entre les deux modalités. Un atout majeur pour comprendre en détail les instructions du prompt.

Pour obtenir les meilleurs résultats possibles dans une variété de scènes différentes, le modèle a été entraîné sur un dataset d'un milliard d'images. Une vaste base de données préalablement filtrée : tous les contenus à caractère sexuel explicite ou violents ont été retirés. Les images ont ensuite été dédupliquées pour éviter les doublons et la reproduction d'images trop proches des originaux. Enfin le modèle a été fine-tuné sur 30 millions d'images haute qualité mettant l'accent sur des contenus et des styles visuels spécifiques (très certainement des styles photographiques, d'architectures, de concepts…). L'objectif était d'affiner les capacités du modèle sur des tâches plus créatives et de mieux aligner ses outputs avec les préférences des utilisateurs.

Un modèle exécutable localement

Grâce à son architecture MMDiT et à la séparation des poids pour chaque modalité, le modèle évite les redondances et les gaspillages de mémoire. Pour être exécuté, le modèle ne nécessite que 5 GB de VRAM, affirme à VentureBeat Christian Laforte, co-CEO de Stability AI. L'entreprise conseille toutefois d'utiliser une configuration avec plus de VRAM, environ 16 GB, pour une utilisation optimale. Très concrètement le modèle peut être inféré sur un ordinateur classique doté d'un GPU Nvidia de classe RTX. Stability AI a justement travaillé avec le géant de Santa Clara pour optimiser les performances du modèle sur les RTX. Les versions optimisées avec le SDK TensorRT de Nvidia seraient jusqu'à 50% plus efficientes.

Des travaux ont également été menés chez AMD pour optimiser l'inférence du modèle sur les derniers APU (processeurs avec carte graphique intégrée), les cartes graphiques grand public AMD et les puissants GPU enterprise AMD MI-300X. En collaborant avec les plus gros acteurs du GPU et notamment sur les gammes grand publiques de GPU, Stability vise clairement l'utilisation locale de son modèle, sur des devices personnels.

Pour le fine-tuning, il faudra cependant se tourner vers des modèles de GPU avec une quantité de VRAM supérieure.

Un cout qualité / ressource maximum ?

Nous avons pu tester Stable Diffusion 3 Medium depuis un Space sur Hugging Face. Le modèle de Stability surprend aux premiers abords par la qualité globale des productions au vu de la taille du modèle (on le rappelle, seulement 2 milliards de paramètres). Les invites complexes sont en revanche à proscrire.

Le modèle de Stability AI fait de véritables progrès en génération d'images photoréalistes. Exemple avec le portrait ci-dessous : les traits du visage sont crédibles et la cohérence globale plutôt bonne. Véritable plus, le modèle parvient à suivre avec exactitude notre prompt. On note toutefois quelques artéfacts typiques de l'IA : gestion aléatoire de la lumière, bokeh plus ou moins bien maitrisés ainsi qu'une saturation légèrement poussive.

Une image contenant Visage humain, ciel, personne, plein airDescription générée automatiquement — Prompt : Portrait of a Laotian man with marked facial features. The ocean in the background. Photorealistic. © Stabe Diffusion V3

Le véritable point fort est bel et bien le respect du prompt. Dans l'image ci-dessous, nous demandons à l'IA de générer l'image d'une voiture de sport violette sur les Champs Elysées roulant rapidement. De multiples éléments tous respectés par le modèle.

Une image contenant véhicule, Véhicule terrestre, ciel, roueDescription générée automatiquement — Prompt : A purple sports car speeds along the Champs Elysées in Paris. Photorealistic. © Stable Diffusion V3

Plus impressionnant encore, Stable Diffusion 3 Medium gère assez fidèlement l'intégration de texte dans les images. Nous lui demandons ici de placer le texte "Today's AI news" sur un journal. Le modèle répond avec brio avec une image de qualité. Quelques artéfacts restent toutefois présents à l'image avec des déformations caractéristiques de l'IA.

Une image contenant dessin humoristique, jouet, intérieurDescription générée automatiquement — Prompt : A penguin with glasses is reading a newspaper in a café. The main headline reads "Today's AI news". American cartoon style. © Stable Diffusion V3

SD3M a été vivement critiqué dans les premiers jours pour sa faculté à générer des images d'humain incohérentes, notamment au niveau des membres. Nous n'avons pas reproduit les mêmes patterns mais identifions cependant les limites du modèle : les prompts contenant au moins un humain et des demandes trop précises. Nous demandons par exemple à l'IA de générer un couple, un homme et une femme, à motoneige dans les Alpes suisses. Le modèle parvient à identifier la demande mais échoue à rendre la scène cohérente. Résultat, les deux humains sont générés mais la cohérence des membres dans l'espace est absente. L'image finale est donc irréaliste et inutilisable.

Une image contenant motoneige, plein air, neige, personneDescription générée automatiquement — Prompt : A man and a woman on a snowmobile speed through an enviable landscape in the Swiss Alps. Realistic painting. © Stable Diffusion V3

Selon nos tests, seule une itération répétée sur le même prompt avec un seed aléatoire permet d'obtenir des résultats plus cohérents. Dommage.

Quelles conditions d'utilisation ?

Les poids de Stable Diffusion 3 Medium sont diffusés en open source sous licence non-commerciale. Pour disposer des droits sur les images générées, Stability propose un licence "créateur" à 20 dollars par mois. Cette dernière est réservée aux professionnels réalisant moins d'un million de dollars de revenus annuel, bénéficiant de moins d'un million de dollars de financement institutionnel et avec moins d'un million d'utilisateurs actifs mensuels. Si l'une des trois conditions n'est pas remplie, Stability propose une licence enterprise à prix personnalisé.

Stable Diffusion 3 Medium dispose d'un excellent rapport qualité/ressources matérielles. Sa légèreté et son optimisation en font le modèle de référence pour la génération d'image en local. Besoin de confidentialité, absence de connectivité, fine-tuning… Les cas d'usage sont nombreux. Pour de la génération d'image plus classique, un modèle propriétaire comme Dall-E 3 ou Midjourney reste toujours préférable.