Anthony Level (Imatag) "Imatag est en discussions avec des moteurs de recherche pour afficher des contenus tatoués et labélisés"

Issue de l'INRIA et servant déjà d'importantes agences de presse mondiales, Imatag entend bien convaincre les moteurs de recherche et d'IA d'adopter le watermarking, explique son responsable de la stratégie réglementaire.

Anthony Level est responsable de la stratégie réglementaire d'Imatag. © Imatag

JDN. Imatag est en discussions avec les moteurs de recherche pour l'adoption de sa solution de watermarking. Dans quel but ?

Anthony Level. L'IA générative fait peser la menace très sérieuse de ne plus pouvoir différencier le vrai du faux. Les internautes ont un besoin croissant de transparence. Il faut savoir que plus de 80% des visuels en ligne sont dépouillés de toute métadonnée, empêchant l'internaute d'en connaitre la source, le contexte et la véracité.

Les moteurs de recherche peuvent faciliter la tâche pour les internautes en mettant en place eux-mêmes le monitoring et la détection de contenus tatoués et en affichant des pictos de couleurs directement sur les contenus affichés dans les résultats. Par exemple vert pour le contenu labélisé et rouge pour le contenu détourné. Nous démarrons en effet des discussions avec différents moteurs de recherche. Imatag peut leur permettre d'interroger notre base de contenus préalablement identifiés à chaque fois qu'une recherche est réalisée et en une fraction de seconde indiquer les métadonnées des images.

Presque toutes les législations récentes sur le numérique viennent placer le watermarking au cœur des solutions dans plusieurs domaines. La labellisation des contenus d'informations fiables et la lutte contre les fake news sont implicitement visées par le DSA. Cela est également explicitement cité dans le Guide européen renforcé de bonnes pratiques contre la désinformation signé par toutes les plateformes, sauf X (ex-Twitter).

Pour que ce soit efficace il faut que vous disposiez dans votre base d'un volume très important de contenus. Avec quels éditeurs travaillez-vous ?

Nos clients sont des grandes agences de presse comme l'AFP et d'autres agences photo françaises et européennes de moyenne et petite taille. Nous avons déjà certifiés et authentifiés plus de 100 millions d'usages d'images marquées en ligne à ce jour.

Le watermarking n'est pas une technologie nouvelle mais son application change de dimension avec l'essor de l'IA générative. Comment Imatag peut-il aider les éditeurs et ayant droits à protéger leurs contenus ?

Le watermarking digital, ou tatouage numérique, consiste à insérer une marque invisible à l'œil humain dans un contenu audio, vidéo ou image. Il permet de labelliser et d'authentifier les informations issues du monde réel (en opposition aux images générées par l'IA) et garantir leur intégrité dans le temps et l'espace informationnel. L'image est tatouée avant sa mise à disposition en ligne : elle devient donc détectable si elle est reprise illicitement et même en cas de modification très poussée par recadrage, changement des couleurs, screenshot, compression ou réduction de la résolution. Par ailleurs, grâce au watermarking, on peut relier les métadonnées originelles d'un contenu. C'est ce qui permet de tout de suite savoir si ce dernier a été réapproprié faussement, s'il a été modifié ou encore détourné de son contexte. L'éditeur dont le contenu est détourné peut donc dans ce cas prouver qu'il n'est pas responsable du fake en question.

Est-ce que le watermarking peut aider les éditeurs en cas de scrapping non souhaité de leurs contenus par les moteurs d'IA générative ?

Si les contenus d'origine sont tatoués et que l'on a accès au dataset d'entraînement, techniquement il est tout à fait possible de prouver que ces derniers ont fait partie des datasets ayant servi à l'IA pour générer un contenu donné. Aujourd'hui, cela ne peut se faire qu'en cas d'action en justice et a posteriori. Mais demain, grâce à l'IA Act, la situation va beaucoup évoluer car on pourra imaginer que dans le tatouage d'un contenu protégé par le droit d'auteur l'ayant droit indique dans les métadonnées qu'il n'est pas ouvert aux moteurs d'IA générative (opt-out). Imatag permet ce niveau de granularité.

L'IA Act est très clair sur ce point en indiquant que le texte cherche "à mettre en place une politique visant à respecter le droit d'auteur de l'Union, en particulier pour identifier et respecter, y compris, le cas échéant, au moyen de technologies de pointe, les réserves de droits exprimées par les titulaires de droit". Rappelons qu'aux Etats-Unis le récent Décret Biden du 30 octobre 2023 vise expressément le watermarking comme solution pour identifier les contenus générés mais aussi pour authentifier les communications gouvernementales contre tout détournement.

Vous indiquez souhaiter également travailler avec les éditeurs de solutions d'IA générative. Comment ?

Oui, parce que le watermarking digital permet d'authentifier les contenus qui sortent des modèles d'IA générative de manière à les identifier comme tels pendant toute leur vie sur le web. Nous pensons que ces acteurs ont tout intérêt à tracer ce qui sort de leurs moteurs pour des questions d'image de marque mais aussi pour la mise en place potentielle de nouveaux modèles de monétisation.

A ce titre, Imatag a récemment publié sur Hugging Face un système de watermarking de contenus générés basé sur les travaux scientifique de Meta et de l'INRIA "Stable Signature". La résistance d'un watermarking à tous types d'altérations (recadrage, modification des couleurs, compression, screenshots, diminution de la résolution etc.) est absolument essentielle pour la confiance dans l'identification des contenus. Si un watermarking est trop simple à supprimer, il perd tout son intérêt et participerait paradoxalement à saper la confiance.

Le watermarking ne fonctionne pas sur du texte. Avez-vous des pistes pour une solution sur ce type de contenu ?

Il est tout à fait possible de tatouer des textes sans pour autant trop les changer mais il y a des contraintes : que le journaliste ou l'auteur accepte que la technologie de marquage modifie le texte mais sans en changer le sens. Nous participons et suivons les approches proposées par la communauté scientifique mais ce type de technologie n'est pas encore mature.

Imatag est issu de l'Institut national de recherche en sciences et technologies du numérique (INRIA). Quel est son modèle économique et le coût de sa technologie ?

Nos clients payent pour tatouer leurs contenus, le prix varie en fonction du nombre de tatouages, et des différentes options de monitoring du web. Le ticket d'entrée est de 10 000 euros par an pour le monitoring de 10 000 images et l'accès à l'API d'Imatag.