Google Story : les bonnes feuilles

PageRank : technologie qui associe un niveau de pertinence à chaque page et lien du Web, afin de pondérer son positionnement lors de l'affichage des résultats.

Brin travaillait sur les moyens d'extraire des informations d'énormes quantités de données. Il avait créé un groupe de recherche appelé MIDAS, pour Mining Data at Stanford. Le Data Mining est une technique utilisée pour déterminer quelles combinaisons d'articles les clients achètent dans un magasin afin que les chefs de rayon puissent améliorer l'agencement de leurs produits. Brin cherchait à appliquer ces mêmes techniques à Internet, qui commençait à percer, mais manquait d'organisation. Au milieu des années 90, le Web était un Far-West virtuel sans loi ni contrôle. La performance de toutes les entreprises censées aider les internautes à trouver de l'information sur Internet, y compris WebCrawler, Lycos, Magellan, Infoseek, Excite et HotBot, était notoirement insuffisante. (...)

A la même époque, Page, qui avait travaillé sur un projet de bibliothèque numérique, utilisait un nouveau moteur de recherche appelé AltaVista. Même s'il fournissait des résultats un tantinet meilleurs et plus rapides, Page avait remarqué quelque chose de radicalement nouveau. En plus d'une liste de sites Web, les résultats de recherche d'AltaVista incluaient des informations apparemment obscures sur ce qu'on appelait des "liens" et qui faisaient s'afficher instantanément une autre page Web. Au lieu de se concentrer sur les principaux résultats de recherche d'AltaVista, Page commença à réfléchir à ce qui pouvait être retiré de l'analyse sur les liens.

Cependant, pour tester ses théories, Page avait besoin d'une grosse base de données. Comme il ne manquait pas d'ambition, il fit rapidement quelques calculs, puis déclara qu'il allait télécharger la totalité du Web sur son ordinateur. Dans le courant de l'année 1996, Page et Brin s'associèrent pour télécharger et analyser les liens du Web. Brin était attiré par le projet car il aurait la possibilié de travailler avec Page, mais il était aussi intéressé par l'extraction d'information à partir de gigantesques bases de données aléatoires.

Page avait une théorie : compter le nombre de liens pointant vers un site Web était un moyen de mesurer la popularité de ce site. En développant cette idée, il fit une découverte : tous les liens n'étaient pas égaux et certains avaient plus d'importance que d'autres. Il fallait attribuer plus de poids à des liens en provenance de sites plus importants. En faisant un jeu de mot sur son nom et les pages Web qu'il parcourait, Page appela son système le "PageRank".

© Google Story, Dunod, Paris, 2006.

Le PageRank