Nightshade, l'outil qui sabote les modèles d'IA text to image

Nightshade, l'outil qui sabote les modèles d'IA text to image Des chercheurs de l'université de Chicago ont développé une technique pour empoisonner les données d'entraînement des modèles text to image.

La résistance contre les IA génératives s'organise. Les données d'entraînement des modèles d'intelligence artificielle peuvent être manipulées pour saboter les performances. Les modèles de text to image n'y échappent pas. Pour obtenir des modèles de génération d'images performants, les IA doivent être entraînées sur un dataset important composé de millions de paires texte-image. Durant l'entraînement, le modèle reçoit en entrée du texte et doit générer une image correspondante. La qualité des images générées est évaluée par rapport aux vraies images associées aux textes d'entrée. Le modèle ajuste alors ses paramètres internes pour améliorer la qualité de ses prédictions, guidé par un algorithme d'apprentissage automatique. Ce processus est répété sur des millions d'exemples texte-image jusqu'à ce que le modèle soit capable de générer des images réalistes et cohérentes à partir de n'importe quelle description textuelle.

Pour performer, les modèles doivent disposer d'un dataset riche mais surtout qualitatif. Et c'est ici tout le problème. Pour obtenir suffisamment de données, les sociétés à l'origine de ces modèles collectent en scrappant le web des images de toutes sortes. Plus les images au sein du dataset sont diversifiées, meilleurs seront les résultats du modèle. Lors de la phase de scraping, il n'est pas rare que les sociétés éditrices des modèles aspirent, volontairement ou non, des images protégées par le droit d'auteur. Dall-E 3, Midjourney et Stable Diffusion auraient ainsi été entraînés sur des milliers d'images non libres de droit.

Un changement invisible pour les humains

Dans le but "d'aider" les artistes indépendants à se protéger contre ces pratiques, une équipe de chercheurs du département informatique de l'Université de Chicago a mis au point Nightshade, une technique capable de corrompre les images mises en ligne sur le web. Ainsi, si ces images venaient à être récupérées, les données d'entraînement des modèles text to image s'en trouveraient faussées.

"L'outil développé par l'équipe de recherche de l'Université de Chicago altère subtilement la manière dont un modèle d'IA interprète une image. Nightshade effectue des modifications minimes mais stratégiques sur les pixels de l'image, de sorte que, lors de l'entraînement de l'IA, l'image soit interprétée comme représentant un concept différent de celui qu'elle affiche réellement. Sournoiserie absolue, ces changements sont totalement invisibles à l'œil nu. Concrètement, une image qui apparaît comme un loup à un observateur humain pourrait être interprétée par le modèle d'IA, pendant son entraînement, comme une image de voiture. Ainsi lors de l'entraînement, l'IA qui ajuste automatiquement ses poids en fonction des données d'entraînement, va appliquer des corrections totalement incohérentes. Le modèle peut devenir moins précis et efficace dans ses réponses, en particulier pour les concepts visés par les données trafiquées. Cela ne rend pas forcément le modèle inefficace en totalité, mais peut sérieusement nuire à sa performance pour des tâches spécifiques (exemple : générer des images de loup).

L'étiquetage des images est faussée pour le modèle. © Capture d'écran

Aucun antidote véritablement fiable

Nightshade affecte potentiellement la majorité des modèles de diffusion text to image mais les résultats démontrent une efficacité accrue sur celui de Stable Diffusion (SDXL). L'outil s'avère véritablement dangereux car il suffit de quelques images trafiquées pour significativement dégrader les performances d'un modèle. En moyenne, les attaques Nightshade réussissent en injectant des données corrompues ne représentant que 2% des données d'entraînement associées au concept ciblé.

La complexité de l'attaque est telle qu'il n'existe aucune technique véritablement fiable pour la contrer. Les chercheurs évoquent toutefois plusieurs pistes de réflexion. Il serait ainsi possible d'ajuster le modèle lors de l'entraînement pour qu'il supprime les images entraînant des changements anormalement élevés. Une autre piste envisagée consisterait, pour les éditeurs de modèles d'IA, à rétro-ingéniérer les outils comme Nightshade afin de développer un détecteur et de corriger les images empoisonnées. Une véritable course contre la montre pourrait voir le jour entre les éditeurs de modèle et les nouveaux pirates de l'IA.

Les chercheurs prévoient de publier Nightshade en open source afin de contribuer au débat sur l'utilisation des images publiées sur le web. "Pour l'avenir, il est possible que les attaques par empoisonnement aient une valeur potentielle en tant qu'outils pour inciter les créateurs de modèles et les détenteurs de contenus à négocier l'acquisition sous licence de données d'entraînement pour les futurs modèles", estiment-ils en conclusion.