Léa Boccara et Pierre Petillault (Alliance) "81 éditeurs ont envoyé 240 mises en demeure à Common Crawl pour mettre fin au crawling de leurs sites par les IA"

L'initiative inédite vise à couper l'herbe sous le pied des fournisseurs de LLM et à les inciter à négocier des licences avec les éditeurs de presse. Pierre Petillault, directeur général, et Léa Boccara, responsable du pôle juridique et des affaires publiques de l'Alliance, livrent les détails de cette action en exclusivité.

JDN. L'Alliance de la presse d'information générale (Alliance) et le Syndicat des éditeurs de la presse magazine (SEPM) sont en mesure de prouver que Common Crawl est un important chemin d'accès aux contenus de leurs membres pour les fournisseurs d'IA. Pouvez-vous nous en dire plus ?

Pierre Petillault est directeur général de l'Alliance. © Alliance

Pierre Petillault. Les principaux fournisseurs de LLM ont tous déclaré à plusieurs reprises qu'ils n'ont pas besoin de payer d'accès aux contenus des éditeurs de presse vu que leurs IA s'entraînent sur les bases de données publiques, dont notamment Common Crawl. C'est comme cela qu'ils éludent toute ouverture de négociations avec les éditeurs pour le droit d'accéder aux informations que ces derniers produisent. Or, l'Alliance peut désormais prouver que Common Crawl rassemble une masse considérable de contenus de nos membres. Avec l'aide d'experts techniques et d'avocats, notre travail a consisté à prouver qu'il existe bel et bien des articles de presse dans Common Crawl. Les fournisseurs d'IA ne peuvent par conséquent plus nier le fait que leurs moteurs s'entraînent sur des contenus de presse de nos membres. Le lien est établi.

Arrivez-vous à quantifier le volume et à qualifier les contenus de vos membres présents sur Common Crawl ?

Léa Boccara. Nous avons trouvé près d'un milliard de contenus d'éditeurs de presse membres de l'Alliance et du SEPM qui ont pris part à cette initiative, distillés du fait du Common Crawl. Nous sommes face à un crawling de masse d'articles et d'extraits d'articles, qui contourne les paywalls. Common Crawl collecte les contenus de nos membres depuis 2007. Toutes ces archives sont accessibles. Nous le faisons constater par huissier.

Quelle est la prochaine étape ?

Léa Boccara est responsable du pôle juridique et des affaires publiques de l’Alliance. © Alliance

L. B. Chacun des éditeurs membres de l'Alliance et du SEPM qui participent à cette initiative ont envoyé cet été des mises en demeure à Common Crawl et ses distillats C4 et Oscar leur demandant de retirer tous leurs contenus, de supprimer toutes les archives et d'arrêter de crawler leurs sites. Pour les seuls membres de l'Alliance, 240 mises en demeure ont été envoyées par 81 éditeurs.

P. P. Forts de ces constats d'huissier qui prouvent que les contenus des éditeurs sont présents dans Common Crawl et forts aussi de leur suppression totale, nous pourrons réinviter ces fournisseurs d'IA à la table de négociations.

L. B. Pour ceux qui continueront de refuser de négocier les conditions d'accès de leurs IA aux contenus des éditeurs de presse et qui ont utilisé Common Crawl pour l'entraînement de leur modèle, forts de leurs constats, les éditeurs pourront les assigner en justice pour contrefaçon.

Quelles autres mesures avez-vous mis en place pour favoriser une négociation entre les fournisseurs d'IA et les éditeurs ?

P.P. Dès septembre 2023, certains des éditeurs membres de l'Alliance ont mis en place l'opt-out pour signaler aux LLM qu'ils ne souhaitaient pas que leur contenu soit utilisé. Six mois plus tard, au printemps 2024, l'Alliance et le SEPM ont envoyé à 25 fournisseurs d'IA (dont Amazon, Anthropic, ByteDance, Google, Meta, Microsoft, Mistral, OpenAI et Perplexity, ndlr) un courrier commun de demande d'ouverture de négociations. Nous n'avons eu que peu de suites favorables à ces invitations. En parallèle nous avons démarré avec le SEPM des travaux pour essayer de prouver l'utilisation par les LLM des contenus des éditeurs de presse.

L. B. Nous avons notamment constaté qu'il est très compliqué voire impossible de prouver que ces IA viennent directement chez nos éditeurs pour se nourrir de leurs contenus. En revanche nous avons compris que la preuve pouvait s'établir via Common Crawl, qui est de loin la base publique de données la plus importante d'Internet.

Common Crawl explique sur son site comment bloquer son crawler en configurant le fichier robots.txt. Cela ne suffit pas pour éviter qu'il vienne se nourrir des contenus de vos membres ?

L. B. Cette note d'information sur leur site est très récente, elle date de quelques mois, sans doute parce qu'ils se trouvent confrontés aux demandes de suppression de leurs contenus par de nombreux autres éditeurs dans le monde.

P. P. Les contenus des éditeurs de presse sont d'une grande valeur pour les IA, comme le montre leur crawling massif et le fait que ces dernières tentent d'échapper à toute obligation de respecter le droit de la propriété intellectuelle. Il est fondamental que les fournisseurs d'IA acceptent de payer des licences aux éditeurs de presse pour accéder à leurs contenus.