Comment Common Crawl indexe des milliards de pages web

Comment Common Crawl indexe des milliards de pages web L'organisation à but non lucratif prend une photographie de sites de référence partout dans le monde. Elle met ensuite gratuitement à disposition ces données d'exploration à destination de la recherche et de la data science.

Pour entraîner leurs modèles et améliorer leurs performances, les IA génératives explorent en continue le web et en particulier les contenus textuels. A cet effet, ChatGPT d'OpenAI a lancé, début août, son propre crawler. Baptisé GPTBot, il explore, à l'instar des robots des moteurs de recherche, les pages web pour recueillir de précieuses données. Ce qui n'a pas plu aux sites d'informations qui s'estiment pillés de leurs contenus. 

Il existe toutefois des dompteurs de crawler qui affichent une approche plus éthique. C'est le cas de Common Crawl. Fondée en 2007 par l'entrepreneur, investisseur et philanthrope américain Gil Elbaz, cette organisation à but non lucratif se consacre à la collecte et à la mise à disposition gratuite de données d'exploration issues de plus de 5 milliards de pages web. Depuis 2008, une fois par mois et pendant une semaine, son robot, dénommé CCBot, se lance à l'assaut du web pour créer de gigantesques archives de plusieurs téraoctets.

Une mine d'or pour chercheurs et développeurs

Common Crawl n'a, bien sûr, pas vocation à indexer la totalité du web mais à en offrir une vue représentative en prenant régulièrement des photographies (snapshots) de sites de référence situés partout dans le monde et, ce, dans 160 langues. Ces archives contiennent les métadonnées (URL, langues, dates de création et de modification…) des pages web indexées et de leurs contenus, essentiellement des éléments textuels.

Avec Common Crawl, les chercheurs, les universitaires, les entrepreneurs ou les développeurs bénéficient d'un accès illimité à cette masse d'informations à des fins d'analyse. Ils peuvent aussi s'en servir pour créer des applications et de nouveaux services ou entraîner leurs modèles d'apprentissage automatique. "Les petites start-up ou même les particuliers peuvent désormais accéder à des données d'exploration de haute qualité qui n'étaient auparavant disponibles que pour les grandes sociétés de moteurs de recherche", se réjouit la fondation.

L'accessibilité à ces immenses data sets est jugée d'autant plus indispensable avec la montée en puissance de l'intelligence artificielle qui transforme de manière indélébile la société et l'économie. Des IA génératives comme celles du générateur d'images numériques photo-réalistes Stable Diffusion ou du français LightOn, dont la plateforme se destine aux entreprises, se servent d'ailleurs des données remontées par le robot de Common Crawl.

De la création de corpus à l'analyse prédictive

Pour Common Crawl, l'exploitation des données de crawl offre des possibilités infinies. Parmi les principaux cas d'usage, elles peuvent servir à créer des corpus multilingues, à prédire de nouvelles tendances sur un marché donné, à suivre la propagation de maladies ou à améliorer des outils qui utilisent le traitement du langage naturel (NLP) comme les logiciels de traduction automatique. Plus généralement, des entreprises commerciales peuvent s'appuyer sur les données remontées pour optimiser leur référencement naturel (SEO) et des médias pour lutter contre la désinformation (fake news) ou bâtir des enquêtes de data journalisme.

CCBot est basé sur le moteur de recherche open source Nutch, sous licence Apache. Les données d'exploration sont stockées au format WARC (Web ARChive) sur le service S3 d'Amazon Web Services (AWS). Ce qui permet de les télécharger depuis le cloud de l'hyperscaler ou d'utiliser son service Amazon Elastic MapReduce pour les traiter et les analyser. Les données sont accessibles depuis le site de Common Crawl ou le registre open data d'AWS. L'exploitation commerciale des archives appelle à la vigilance, des contenus textuels pouvant être protégés par le droit d'auteur et des œuvres artistiques par la législation sur la propriété intellectuelle. Common Crawl explique d'ailleurs sur son site comment bloquer son crawler en configurant le fichier robots.txt.

Du fait de son positionnement, Common Crawl a peu d'équivalents. On peut citer Internet Archive, une autre organisation à but non lucratif fondée en 1996 qui, comme son nom l'indique, se consacre à la préservation des contenus web et dont les archives sont gratuites et ouvertes au public. Le projet GDELT (pour Global Database Event Language and Tone) assure, lui, la veille de sites d'information dans plus de cent langues afin de "mieux comprendre le monde". Sa base de données est également ouverte et gratuite. Il existe ensuite des robots d'exploration (web crawlers) commerciaux ou open source comme Scrapy qui permettent la collecte de données web à grande échelle.