Comment imposer aux IA génératives un droit d'accès à vos contenus

Une poignée de solutions existent dont un protocole en open source et gratuit développé au sein du W3C

Depuis que la Directive européenne sur le droit d'auteur et les droits voisins dans le marché unique numérique (2019/790) a été adoptée en avril 2019, les éditeurs de l'UE disposent d'une base légale solide pour empêcher l'accès libre à leurs contenus par les robots de data mining, ce qui inclut les crawlers servant à alimenter en données les intelligences artificielles génératives du type ChatGPT. Mais tout n'est pas si simple.

Pour être couvert, l'éditeur doit être en mesure de signaler techniquement "dans un langage fait pour les machines" que son contenu n'est pas libre d'accès. "Indiquer que son contenu n'est pas libre d'accès pour le mining dans les conditions générales d'utilisation (CGU) de son site ne suffit pas. La législation impose un opt-out lisible par les machines parce que les robots ne sont pas techniquement en mesure de lire les CGU", explique Laurent Le Meur, directeur et CTO du Laboratoire européen de la lecture numérique (EDRLab).

La nuance est de taille car la directive laisse l'accès libre à tous les crawlers de data et texte mining par défaut tout en reconnaissant que les titulaires de droit peuvent s'opposer aux usages commerciaux de leurs contenus. Cette nuance explique pourquoi les éditeurs membres du Geste, organisme qui fédère près de 100 éditeurs en ligne (éditeurs de presse, pure players, médias audiovisuels, services mobiles, plateformes de streaming etc.), réfléchissent en ce moment même aux moyens techniques leur permettant de maîtriser l'accès des robots à leurs contenus afin d'être en mesure ensuite d'entamer des discussions en vue de la négociation de licences avec les sociétés cherchant à se nourrir de leurs données.

Mais comment le faire efficacement tout en laissant libre l'accès aux robots d'instituts de recherche, une obligation imposée par la directive, tout comme aux crawlers "utiles", comme ceux servant à la recommandation de contenus ?

Intérêt et limites des solutions existantes pour maîtriser l'accès des crawlers

Sur le web, les éditeurs disposent de plusieurs solutions pour maîtriser l'accès des crawlers à leurs contenus.

La solution la plus ancienne et radicale est le reverse proxy : "C'est une sorte de dôme qui cache le site web et qui prévient les robots qui ne sont pas autorisés d'y pénétrer à faire demi-tour", explique Laurent Le Meur. Pour laisser passer les robots "autorisés" ou reconnaître les acteurs qu'il s'agirait de sensibiliser à la nécessité de prendre une licence, ce système permet la mise en place de listes d'inclusion. Mais cette solution implique des coûts qui peuvent être de l'ordre de plusieurs dizaines de milliers d'euros par an. Par ailleurs, cette solution exige beaucoup de gestion car il est compliqué ne serait-ce que de connaître tous les robots liés aux instituts de recherche dans le monde entier. Sans compter qu'elle peut être contournée facilement par des acteurs malveillants.

La deuxième option technique existante est d'indiquer à l'intérieur même des métadonnées que le contenu ne doit pas être aspiré. "L'inconvénient ici est que, dans le monde, chaque format de fichier image, texte ou vidéo, etc. a une manière tout à fait différente d'intégrer des métadonnées à l'intérieur du contenu. Il faudrait donc que le robot puisse connaître ces différences, ce qui complexifie la tâche. De plus, avant d'accéder aux métadonnées il faut télécharger et ouvrir le fichier : or, les robots veulent aller très vite. Enfin, cela ne leur bloque pas l'accès…", explique Laurent Le Meur.

Une troisième solution, gratuite et open source, nommée TDMRep (pour protocole de réservation pour le texte et le data mining), semble plus prometteuse. Elle a été développé par un groupe de travail créé au sein du W3C en 2021 à l'initiative de la Fédération des Editeurs européens et réunissant 43 représentants des secteurs de l'édition et du data mining, dont le laboratoire dirigé par Laurent Le Meur qui le copréside avec l'Association des éditeurs italiens. "Nous voulions une solution hyper simple à mettre en place : elle agit au niveau du protocole d'accès d'internet http, c'est-à-dire sur l'information qui passe au moment où le robot veut récupérer le fichier. Pour schématiser, quand un robot veut récupérer du contenu il appelle le web et ramène du contenu comme s'il se servait d'un lasso. Cette solution dépose des informations supplémentaires sur le lasso lui-même afin que le robot puisse savoir s'il a le droit ou non de récupérer le contenu avant de le faire", explique Laurent Le Meur. "L'éditeur qui réserve ses droits peut indiquer le lien pouvant fournir au robot plus d'informations avec son contact et les conditions pour obtenir une licence, le tout lisible par la machine", précise-t-il.

Rappelons au passage qu'il existe déjà une solution pour indiquer aux robots ce qu'ils ont ou pas le droit de faire : le protocole technique robots.txt. "La différence avec TDMRep est que ce dernier permet d'aller plus loin que robots.txt en fournissant davantage d'informations aux robots, comme par exemple le contact de l'éditeur, tout en restant simple à intégrer", précise Damien Mangin, directeur data du groupe Figaro et CTO de CCM Benchmark Group, éditeur du JDN.

Deux limites en revanche s'imposent à TDMRep : contrairement au dôme du reverse proxy, cette troisième option n'empêche pas physiquement le robot de prendre le contenu s'il insiste ; de plus, il faut que le robot sache qu'il trouvera dans le protocole d'accès au contenu des informations supplémentaires qu'il devra prendre en compte.

L'opt-out suffit, pas besoin de bloquer

Pour cette solution open source du W3C, l'expert de l'EDRLab se montre catégorique : "Dès lors que l'éditeur affiche son opt-out et qu'il ne s'agit pas d'un robot à des fins de recherche, la directive européenne protège son contenu : l'éditeur peut dans ce cas exiger que son contenu ne soit pas utilisé. Le robot qui récupérerait son contenu malgré son opt-out serait complètement hors la loi et de gros acteurs tels qu'Open AI ne joueront certainement pas ce jeu-là." A l'éditeur, s'il le souhaite, de proposer au robot en question des licences pour accéder à son contenu.

Il reste que pour que la solution validée au sein du W3C soit largement adoptée, ses promoteurs devront déployer beaucoup d'efforts en communication pour la rendre connue auprès des principaux outils mondiaux de data mining y compris de l'IA générative. Rien n'empêche d'ailleurs les éditeurs qui l'adoptent d'écrire aux principales sociétés éditrices d'IA générative pour les informer de l'existence de ce protocole au sein de leur site afin qu'il soit respecté. "Attention cependant à une précaution importante : pour s'assurer d'être couvert par la directive européenne en cas de contact d'un robot de société américaine ou toute autre nationalité en dehors de l'UE, l'éditeur européen doit stocker ses données sur un serveur européen. Si le serveur n'est pas européen le juge pourrait interpréter les choses différemment", précise Laurent Le Meur. Un casse-tête supplémentaire donc…

Si son usage se développe, TDMRep pourra à terme devenir un standard du W3C.

Comment imposer aux IA génératives un droit d'accès à vos contenus

Guides

Repères