Face à l'assaut des IA, les éditeurs bloquent pour mieux négocier

Pour Le Monde, Le Figaro, Les Echos-Le Parisien et Le Devoir, les solutions anti-crawlers sont un moyen de forcer la conclusion d'accords de licence et d'identifier des opérateurs dissimulés. Mais les stratégies diffèrent.

Face à l’assaut des entreprises d’IA, accusées de pomper les contenus des éditeurs en ligne sans aucune contrepartie financière ni autorisation, les éditeurs sont de plus en plus nombreux à s’équiper de solutions de filtrage et d’identification de crawlers. Mais ils n’appliquent pas la même stratégie de blocage.

Le Monde, par exemple, a fait le choix de prendre le temps de l’observation avant de bientôt passer au blocage par défaut des crawlers sur son site, et ce afin de ne pas bousculer ses clients ou prospects BtoB. "Nous avons souscrit en début d’année à la fonctionnalité de détection de robots (Signal Sciences, ndlr) de notre CDN, Fastly, mais à des fins d’observation dans un premier temps. Il était important pour nous de bien analyser ce que l’outil détecte afin d’éviter le blocage de faux positifs, comme le trafic humain ou des crawlers clients de notre service diversification, que nous souhaitons laisser passer", explique Paul Laleu, CTO du groupe Le Monde. "Depuis un an environ, nous prenons contact avec les sociétés qui se trouvent derrière les crawlers pour tenter de trouver un terrain d’entente et mettre en place des accords", explique Arnaud Aubron, directeur de la diversification du journal Le Monde. Et c’est chose faite récemment avec Meltwater et Signal AI, sans parler évidemment d’OpenAI et Perplexity, avec lesquels Le Monde a signé des accords de licence respectivement en mars 2024 et en mai dernier. "Ce marché est en train de se créer et évolue très vite", ajoute Arnaud Aubron.

Un blocage par défaut mis en place d'emblée aurait également impacté négativement certains clients BtoB abonnés au Monde, comme les fournisseurs de revues de presse, qui se servent de crawlers pour classer et catégoriser leurs contenus et qui eux-mêmes se mettent à se servir des IA. "Ces clients devront bientôt se tourner vers des crawlers qui payent une licence technique pour accéder à nos contenus", ajoute Arnaud Aubron. Car le blocage par défaut, au moins sur tous les crawlers d’IA avec lesquels l’éditeur n’a pas d’accord, sera activé d’ici la fin de l’année sur le site du journal, où environ 30% du trafic est non-humain, tous crawlers confondus. "Avec la montée en puissance des agents conversationnels, le trafic non-humain va exploser sur les sites bien référencés comme Le Monde, ce qui pose le problème du modèle économique", explique Paul Laleu. "D’où l’importance des accords que nous signons afin de créer ce marché", rappelle Arnaud Aubron.

Intermédiaires peu scrupuleux

Il est de notoriété publique qu’au-delà des IA connues et officielles, des intermédiaires aspirent ces données sans aucune autorisation. "Pour le crawling non autorisé, nous avons beaucoup plus à faire à des intermédiaires qu’à des sociétés d’IA connues", confirme Brice Mancone, CTO du Figaro. Et même si le crawling n’est pas un phénomène nouveau, le problème a changé de dimension avec les LLM. "Le marché des agrégateurs de données se développe à toute allure avec des intermédiaires qui se spécialisent dans le scrapping des contenus des éditeurs pour les revendre aux IA", précise Sylvain Coutu, CTO du Devoir. "Il y a plus de 200 crawlers qui viennent sur le site du Devoir, et tous les jours de nouveaux se créent", confirme Karine Varela, responsable de la gestion de droits d’auteur chez le quotidien québécois.

Dans le lot, nombreux sont ceux qui avancent masqués. "Avec la montée en puissance des LLM, nous constatons que tous les jours émergent des acteurs moins scrupuleux, qui aspirent massivement les contenus des éditeurs de manière dissimulée", atteste Brice Mancone. "Le crawling non autorisé existe, c’est une certitude, nous le savons car nous pouvons retrouver nos contenus dans les réponses de certains acteurs. C’est pourquoi nous sommes toujours à l’affût de solutions innovantes pour le contrecarrer", déclare Grégory Marion, chief data et information officer du groupe Les Echos Le Parisien, qui mène en ce moment même un processus de réévaluation de ses prestataires et qui a donc préféré ne pas les citer.

Face à ces nombreux crawlers travaillant dans l’ombre, on comprend pourquoi le modèle d’un robots.txt, qui fonctionne selon du déclaratif, atteint ses limites. "Pour indiquer que l’accès lui est refusé, encore faut-il connaître l’existence du robot en question. Or, pour une entreprise d’IA, créer un crawler prend cinq minutes", rappelle Paul Laleu. La couche dite de bots mitigation (détection et blocage de bots), bien que précieuse et indispensable, ne suffit pas non plus. Brice Mancone explique : "La solution de bots mitigation dont nous nous servons, Akamai, permet d’analyser en permanence le trafic qui arrive sur lefigaro.fr afin d’identifier les IP ou groupe d’IP dont le comportement peut relever d’un robot. Nous fixons les règles de comportements que nous considérons comme étant anormaux et méritant d’être bloqués." C’est donc un réglage fin qu’opère Le Figaro.

Mais la bots mitigation ne met pas un nom sur ces robots : afin de savoir quelle est l’entreprise qui se cache derrière le robot, ne serait-ce que pour la pousser à la négociation, il est nécessaire d’aller plus loin. Entre en jeu Botscorner : "Nous transmettons à Botscorner l’ensemble de nos logs, c’est-à-dire toutes les données brutes relatives à l’activité sur lefigaro.fr. Cela inclut, pour chaque événement, l’adresse IP, la page consultée, le user agent déclaré, etc. A partir de cet ensemble d’événements, Botscorner analyse le trafic avec un niveau de finesse supplémentaire, car la solution fonctionne en veille permanente et croise les comportements qu’elle observe avec les profils de bots déjà identifiés ailleurs, y compris sur d’autres adresses IP. C’est un travail d’investigation", précise Brice Mancone. Le Monde et Le Devoir aussi se servent de Botscorner pour identifier les crawlers.

Rendre le crawl prohibitif

S’ajoute à tout cela le fait que depuis quelques mois, le besoin des IA a changé. "Les IA ont désormais besoin de fraîcheur pour alimenter les fonctionnalités de search qu’elles mettent en place, ce qui les oblige à venir de plus en plus fréquemment chez les sites des éditeurs, qui produisent énormément de contenus chaque jour", explique Brice Mancone. Une aubaine pour ce professionnel qui voit dans ce nouveau besoin et dans les obstacles mis en place pour empêcher les IA d’accéder librement aux contenus le combo parfait pour les inciter à prendre place à la table de négociations. "Nous arriverons à un niveau où le coût du crawl, c’est-à-dire le coût des moyens que ces IA devront mettre en œuvre pour contourner les obstacles, deviendra prohibitif. C’est bien cela l’objectif pour nous : d’amener ces acteurs à la contractualisation de licences, les équipes techniques, juridiques et commerciales du Figaro travaillant de concert", conclut le CTO du Figaro.

Grégory Marion rappelle également l’importance de la mise en place d’un cadre législatif pour accompagner les éditeurs dans ces négociations : "Les technologies nous aident mais nous avons besoin également d’un cadre législatif pour nous permettre de préserver la valeur de nos contenus et pour nous garantir que l’accès, une fois autorisé, débouche sur une utilisation responsable et maîtrisée de notre or noir."

Et c’est là où le bât blesse pour les petits éditeurs, qui ont compris que ce sera compliqué pour eux d’amener chaque plateforme d’IA sur la table de négociations. Ces derniers misent plutôt sur l’émergence du pay per crawl que des intermédiaires technologiques comme Cloudflare ou TollBit, partenaire de Fastly, cherchent à pousser. Ou encore dans les places de marché des contenus d’éditeurs pour les IA que des acteurs comme Microsoft entendent mettre en place. "Les plus petits éditeurs ne peuvent à eux seuls construire des plateformes de monétisation, ils doivent s’appuyer sur ces solutions qui émergent. Les IA sont gourmandes en données faisant autorité et ce nouveau marché ouvre plein d’opportunités pour les éditeurs. Demain, on fera le commerce de contenus de machine à machine", déclare Sylvain Coutu. "Il nous faudra en revanche nous assurer que nos contenus soient rémunérés à leur juste valeur", martèle Karine Varela. Et dans ce domaine, tout reste encore à construire et notamment la méthode de définition de la valeur du crawl.