Les médias s'organisent pour lutter contre le pillage de contenu des chatbots IA

Le Geste a tenu ce jeudi la première réunion visant à organiser la protection des droits de ses membres face aux IA génératives. Le challenge s'annonce ardu.

Comment les éditeurs en ligne peuvent saisir les opportunités créées par la fulgurante vague des IA génératives tout en se protégeant des risques auxquelles ces dernières les exposent, à commencer par la concurrence directe qu'elles représentent ? C'était précisément l'objet de la toute première réunion du groupe de travail dédié aux IA génératives, qui a rassemblé ce jeudi 6 avril une vingtaine d'éditeurs, parmi lesquels Le Figaro, M6, Radio France, France Télévisions et le Cairn, au sein du Geste, organisme qui fédère près de 100 éditeurs en ligne (éditeurs de presse, pure players, médias audiovisuels, services mobiles, plateformes de streaming etc.).

"Les IA génératives représentent une concurrence directe pour les éditeurs en ligne, dont le métier est de produire du contenu. C'est ce qui risque fort de se passer à terme : le détournement des audiences de leurs sites vers ces outils dont les réponses sont elles-mêmes nourries en partie par les contenus produits par ces éditeurs", résume Laure de Lataillade, secrétaire générale du Geste.

Parmi toutes les cartes qui sont sur la table, celle qui semble la plus protectrice dans l'immédiat est la maîtrise par les éditeurs de l'accès à leurs contenus par les crawlers des IA génératives. C'est ce qui leur permettrait d'imposer à ces outils de payer une licence pour avoir le droit de s'en servir. Le fondement juridique pour cela existe. Il est dans l'article 4 de la directive européenne sur le droit d'auteur et les droits voisins dans le marché unique numérique (2019/790), texte phare adopté en avril 2019, qui permet aux éditeurs de s'opposer à la fouille (mining) de leurs textes et données par les robots sur le web lorsque cette dernière n'est pas destinée à la recherche scientifique. "Cela signifie que dans les cas de ces IA génératives qui exploitent les contenus en ligne à des fins commerciales, les titulaires de droit peuvent s'y opposer et potentiellement contractualiser un partage de la valeur", explique Carole Boyer, responsable des affaires juridiques et réglementaires du Geste.

Des solutions existent... en théorie

La mise en œuvre de la gestion de ce blocage bénéficie de plus d'un standard international : le protocole d'opt-out développé dans le cadre du W3C, travaux auxquels un des membres du Geste, le Cairn, a participé. Ce standard a été conçu précisément pour faciliter la mise en œuvre de l'article 4. "Ce protocole permet d'harmoniser l'opt-out prévu dans la directive européenne à l'échelle mondiale. En deux mots, les plateformes ne pourront pas s'y opposer sous prétexte d'une absence de standard", poursuit Carole Boyer, en mentionnant aussi les travaux du Conseil supérieur de la propriété littéraire et artistique en matière de data mining.

Mais comment tracer l'arrivée de ces différents robots et s'assurer qu'ils respectent l'opt-out de chaque éditeur ? "Il y a effectivement des enjeux d'identification et de preuve, raison pour laquelle nous nous appuyons dans cette réflexion sur l'expertise du Centre français d'exploitation du droit de copie (CFC) qui a déjà en place, pour la veille web, différents dispositifs d'identification et de proposition et mise en place de licences qui servent déjà six éditeurs membres du Geste", précise la juriste.

Moins sur le papier

Il n'en reste pas moins que ces opt-out devront être mis en place avec une très forte granularité pour faire la part des choses entre un robot autorisé (universités et instituts de recherche autorisés par l'article 3 de la directive), un robot souhaité (d'un moteur de recherche par exemple) et un robot auquel on souhaite imposer un droit d'entrée. Et comment s'assurer qu'un robot autorisé par un moteur de recherche ne se mettra pas à s'en servir à des fins d'IA générative ? Autant des questions auxquelles il s'agira pour le secteur de répondre.

Bloquer ces IA n'est pas non plus une solution envisageable

Se battre contre les outils d'IA générative sur la base de la défense du droit de la propriété intellectuelle serait un long chantier périlleux et difficile pour les éditeurs en ligne, du moins dans les cas où ces dernières se basent sur une masse très importante de contenus. Car il faudra pour cela prouver qu'il y a contrefaçon. Même si la situation risque d'être plus aisée dans les domaines beaucoup plus pointus ou spécialisés, où les contenus sont basés sur un nombre limité de sources, et même si d'autres voies peuvent servir de base d'attaque, comme les enjeux de concurrence ou de parasitisme, il fallait que le secteur trouve dans l'immédiat des moyens pour une protection globale de leur activité face à cette très importante menace. "Nous ne souhaitons pas attendre qu'une jurisprudence se crée : il nous faut agir dès à présent sur la manière dont ces outils sont nourris", poursuit Laure de Lataillade.

Bloquer ces IA n'est pas non plus une solution envisageable, en conviennent les éditeurs. Ce serait marcher à contre-courant d'une innovation dont les éditeurs bénéficient à leur tour. L'IA générative répond à de nombreux besoins des éditeurs. Elles les aident à détecter des fake news, à gagner en productivité en délégant à ces outils des tâches à basse valeur ajoutée journalistique (résumé d'articles, SEO, etc.), à rassembler des informations exhaustives ou à générer des images sur mesure pour illustrer les contenus. Il n'est donc pas question pour ces acteurs de s'y opposer malgré les nombreux défis que ces nouveaux outils représentent. Mais les IA génératives sont également sources de désinformation, vecteurs de propagation de fake news et de gros consommateurs de bande passante au détriment de la performance des sites. "La qualité de ces IA dépendra aussi directement des sources dont elles se nourrissent : ces outils ont par conséquent besoin de s'appuyer sur les contenus des éditeurs", rappelle Laure de Lataillade.

Une nouvelle réunion des membres du Geste aura lieu en mai. Un représentant du W3C y sera convié. Ces premières pistes devront encore être approfondies avant d'être actées par le conseil d'administration de l'organisme.

Les médias s'organisent pour lutter contre le pillage de contenu des chatbots IA

Des solutions existent... en théorie

Moins sur le papier

Guides

Repères