Bonnes feuilles : Google, l'entonnoir Le secret du PageRank
" ... Si les détails de l'algorithme PageRank sont maintenus secrets, les documents originaux publiés par Sergey Brin et Larry Page (16) à l'époque du lancement du moteur, les analyses afférentes (17) et l'étude du brevet déposé (18) nous renseignent sur sa logique générale. Mais il est en revanche difficile d'évaluer le poids exact de l'indicateur relationnel dans l'algorithme de pertinence réellement utilisé par le moteur.
Un certain nombre d'éléments constitutifs de l'algorithme opérationnel ne sont pas brevetés, et les recherches documentaires restent très sensibles aux coefficients de pondération utilisés. Le marché des moteurs de recherche est le terrain d'une immense bataille commerciale, dont le projet de fusion Yahoo!-Microsoft est un symbole. Dès lors, le succès de Google repose sur sa capacité d'innovation permanente, qui ne peut se résumer à l'application du PageRank originel.
Quand le calcul permet de représenter des valeurs qualitative, il est tentant d'utiliser les données pour accentuer la précision et l'efficacité de la pertinence des recherches. Il s'agit par exemple de prendre en compte les logiques qualitatives en amont (nature et sémantique des backlinks), et d'instaurer de puissantes procédures de filtrages en aval pour atténuer les usages détournés. Ces calculs récursifs sont très gourmands, et imposent la création d'une infrastructure technique permettant de travailler à une échelle statistique et computationnelle hors-norme. Google est ainsi devenu le principal propriétaire de nuages de serveurs dans le monde (19) ... "
16 What can you do with a Web in your pocket? Sergey Brin, Rajeev Motwani, Larry Page & Terry Winograd, Data Engineering Bulletin, vol. 21, p. 37-47, 1998. The anatomy of a large-scale hypertextual Web search Engine, Sergey Brin et Larry Page, Computer Networks and ISDN Systems, vol. 30, pp. 107-117, 1998. The PageRank citation ranking: bringing order to the Web, Sergey Brin, Larry Page, Rajeev Motwami, Terry Winograd, Technical Report 1999-0120, Computer Science Department, Stanford University, 1999.