FLUX.1 Kontext [max] : pourquoi vous devriez l'utiliser pour la création d'image

La start-up allemande Black Forest Lab propose des modèles d'intelligence artificielle spécialisés dans la création et l'édition d'images pour les professionnels. FLUX.1 Kontext [max], dernier modèle en date, illustre parfaitement cette stratégie.

Si les modèles de génération de texte reste encore fortement l'apanage des entreprises américaines, dans le domaine de l'image, la start-up Black Forest Lab tire son épingle du jeu. Fondée en 2024 dans l'est de l'Allemagne, à quelques kilomètres de Colmar, par d'anciens salariés de Stability AI, l'entreprise s'est spécialisée de la création de modèles fondation dédiés à la création et l'édition d'images. Dès 2024, la start-up lance sa famille FLUX, avec un succès immédiat.

Les modèles sont si qualitatifs (adhérence au prompt, cohérence visuelle…) qu'ils finiront par séduire xAI et Mistral : les modèles FLUX ont été utilisés par défaut par Grok et sur Le Chat de Mistral (encore aujourd'hui) pour générer des images. Mais c'est certainement dans la communauté des créatifs que les modèles de Black Forest Lab ont la meilleure réputation.

FLUX.1 Kontext, le petit dernier

Dernier modèle en date, FLUX.1 Kontext offre des performances de pointe, que ce soit en génération brute ou en édition d'image. Le modèle est particulièrement pertinent pour suivre avec précision les instructions initiales (prompt adhérence), générer des scènes visuellement cohérentes et produire des contenus photoréalistes quasi-parfaits. Il est également assez bon dans la génération de contenus typographiques dans les images (une difficulté encore persistante dans les modèles de text-to-image). Enfin, FLUX.1 Kontext offre l'une des générations les plus rapides du marché avec Gemini Nano Banana, selon notre expérience.

FLUX.1 Kontext existe aujourd'hui en trois versions différentes :

FLUX.1 Kontext [pro], le modèle standard qui permet de créer et d'éditer des visuels avec une grande rapidité.
FLUX.1 Kontext [max], qui permet de créer et éditer des images avec une plus grande précision que [pro] mais en prenant un peu plus de temps. C'est ce modèle qui offre les meilleurs résultats visuels.
FLUX.1 Kontext [dev], modèle de 12 milliards de paramètres, qui offre des capacités proches de [pro] en version open source. Il sera donc légèrement moins optimisé que [pro] et plus encore que [max]

La grande force de la famille FLUX.1 Kontext repose sur les ratios disponibles. Il est possible de générer des images en 1:1, 16:9, 4:3, 3:2, 9:16, 3:4, 2:3, 21:9… Un véritable atout pour la production de contenus professionnels.

Génération d'images, le test du JDN

Dans le cadre de notre test, nous choisissons de mesurer les performances de FLUX.1 Kontext [max], modèle SOTA de la famille et le plus utilisé, dans le top 10 des meilleurs modèles d'édition et de génération d'images d'Artificial Analysis depuis des mois. Nous le comparons aux meilleurs modèles propriétaires du moment, à savoir Imagen 4 de Google pour la génération d'images et Nano Banana pour le volet édition.

1.Une image photoréaliste d'une course sur une piste de ski

Prompt : an epic car race taking place on a snowy ski slope. Rally cars speed downhill, kicking up clouds of snow that splash over the cheering crowd. Spectators stand behind safety barriers. The scene is electric a mix of bright white snow, and the roar of engines echoing through the mountains.

En haut l'image générée par Flux, en bas celle générée par Imagen. © JDN

Sur la cohérence visuelle pure et l'adhérence au prompt, Flux et Imagen sont à égalité. Les deux modèles proposent des images respectant parfaitement la consigne. Sur l'interprétation et l'aspect photoréaliste pur, Flux gagne. L'IA de Black Forest Lab propose une scène plus cohérente et un angle assez pertinent, similaire à ce qu'un véritable photographe aurait pu faire.

2.Un portrait, huile sur toile, de Henry IV

Prompt : a historical oil painting of King Henry IV of France on his majestic white horse. The king, dressed in regal attire, is being served a glass of wine by an elegant servant standing beside the horse. The servant holds the bottle with a white cloth, its label reading 'Cheval Blanc'. The scene is rendered in the classical 17th-century style, with warm lighting, detailed brushwork, and rich, textured colors.

A gauche l'image générée par Flux, à droite celle de Imagen. © JDN

Sur le plan photoréaliste, Flux propose une version plus réaliste et crédible d'une véritable huile sur toile. En revanche sur la typographie, seul Imagen parvient à produire le texte "Cheval Blanc" sur la bouteille de vin. Le point va donc à Google pour la précision.

3.Une affiche de film vintage

Prompt : a vintage 1980s movie poster titled "Before AI". The artwork shows a group of programmers working intently at bulky CRT computers, surrounded by cables, floppy disks, and old IBM machines. The scene captures the nostalgic atmosphere of retro sci-fi films, with neon lighting, blue tones, and a grainy film texture.

A gauche, l'image produite par Flux, à droite celle de Imagen. © JDN

Là encore, Flux semble avoir une légère avance sur le réalisme global. Le grain de l'affiche générée par le modèle allemand est davantage travaillé. Imagen propose une image avec des contrastes appuyés. Flux gagne, de peu, sur le réalisme global. Les deux modèles produisent toutefois du texte illisible en bas de page.

Flux peut-il battre Nano Banana en édition d'image ?

Publié bien avant le modèle de Google, FLUX.1 Kontext [max] peut-il rivaliser avec le petit dernier de chez Google ? C'est ce que nous allons tenter de savoir.

1.Editer un élément sur une image

prompt : "the Mona Lisa wearing an elegant pink hat, seamlessly integrated into the original painting's style. The hat should look authentic, oil-painted with soft tones and realistic texture, matching Leonardo da Vinci's lighting and color palette"

A gauche la proposition de Flux, à droite celle de Nano Banana. © JDN

Pour cette première tâche d'édition, Nano Banana propose la version la plus réaliste. Le modèle de Google parvient à ajouter un chapeau rose à Mona Lisa sans changer la nature du tableau. Les traits du visage sont globalement bien conservés et le style bien respecté. Flux propose une version plus moderne mais modifie assez profondément l'image originale. Dommage.

2.Remplacer un arrière-plan

Pour notre dernier test d'édition, nous avons choisi de remplacer l'arrière-plan lunaire de la célèbre photo de Buzz Aldrin par un décor martien.

Prompt : replace the lunar background in this image with a Martian landscape, and update the reflection on the astronaut's helmet to match the new Mars environment.

En haut l'image de Flux, en bas celle de Nano Banana. © JDN

Là encore, l'avantage revient à Nano Banana, qui parvient à remplacer l'arrière-plan avec un réalisme remarquable, sans altérer le moindre détail de la combinaison de Buzz Aldrin.

Flux marque néanmoins un point positif : la lumière, légèrement retravaillée, se révèle plus cohérente dans sa version.

FLUX.1 Kontext [max], un excellent modèle pour la création d'image

FLUX.1 Kontext [max] s'impose comme un excellent modèle pour la création d'images. Si vous devez choisir entre plusieurs solutions pour générer des visuels précis et photoréalistes, vous pouvez aisément vous tourner vers lui. Pour les développeurs, le modèle est accessible via API au prix de 0,08 $ par image, contre 0,06 $ pour Imagen 4 Ultra. Une différence de tarif qui se justifie amplement au vu de la qualité des rendus. Le modèle est également disponible depuis peu dans Adobe Photoshop.

En revanche, FLUX.1 Kontext [max] performe moins bien en édition d'image. Sur ce terrain, Nano Banana reste pour le moment le leader incontesté. Le modèle de Google parvient à modifier des éléments tout en préservant l'intégrité et le style de l'image originale, là où Flux a encore du mal à maintenir la cohérence globale. Pour la retouche d'images existantes, mieux vaut donc se tourner vers la solution de Google.