"La Face Cachée de Google" : les bonnes feuilles

Journal du Net > e-Business > Le Net > Untitled Document "La Face Cachée de Google" : les bonnes feuilles

Untitled Document

Sommaire

Le spider de Google est éternellement engagé dans la tâche difficile de copier l'Internet dans sa base de données ; toutefois, on ne peut pas croire qu'à chaque interrogation le moteur de recherche feuillette ponctuellement toute sa base de données pour trouver les résultats les plus pertinents. Le facteur clé qui permet d'obtenir des résultats presque immédiats dépend d'une série occulte de limitations dans les sélections générales, c'est-à-dire, concrètement, de l'application de filtres particuliers. À partir d'une interrogation (query), le filtre assure la vitesse du résultat final au moyen d'une série d'écarts et de choix étudiés expressément pour limiter l'intervalle (range) des possibles blocs de données à analyser.

De cette manière, Google peut fournir des résultats aux interrogations en des temps exceptionnellement courts. Toutefois, la recherche est aussi peu transparente qu'elle est rapide, c'est-à-dire pas du tout cohérente avec l'ensemble des données présentes sur la portion de réseau indexé. En d'autres termes, les résultats de la recherche seront obtenus rapidement pas seulement grâce à la puissance de calcul disponible, mais aussi et surtout parce que les filtres permettent de réduire le bassin d'informations où l'on puise.

La tâche d'un filtre consiste à opérer une sélection drastique sur les noeuds du réseau de manière à les exclure (ou à les valoriser) de pair avec d'autres liaisons éventuellement associées. L'application de ces dispositifs vise à exclure (ou inclure) des blocs entiers parmi les résultats globaux.

Tout cela est possible grâce à l'usage de banques de données de recherches préfabriquées, où des réponses standard sont fournies à des interrogations standard, mais aussi grâce au profil de l'utilisateur. Celui-ci est défini à partir de ses recherches précédentes, sa langue, sa position géographique, etc. De cette manière, un utilisateur qui accomplit habituellement des recherches en français n'interrogera pas toute la banque de données de Google, mais seulement la partie qui est en français, ce qui permet une évidente économie de temps.

Étant donné le nombre très élevé de données, il est impensable d'employer des algorithmes transparents, c'est-à-dire qui aillent toucher tous les noeuds du réseau ; il est nécessaire d'introduire des manipulations, des simplifications ou des réductions dans les possibilités d'analyse, tant pour des raisons techniques de computabilité mathématique au sens strict, que pour des raisons économiques évidentes. De plus, sans tomber dans une médisance injustifiée, on peut facilement concevoir, dans un système reposant sur des approximations déjà imposées par des filtres, l'insertion d'autres filtres pour ajouter ou mettre en bonne position, avec la meilleure visibilité, les résultats commerciaux, payants, ou simplement chargés d'un message de propagande.

Toutefois, il faut observer que du point de vue de Google, les filtres ajoutés ne sont pas directement liés à un intérêt économique, puisqu'ils ne servent pas à vendre un produit. Ils sont liés à l'utilisateur, à ses habitudes et à ses intérêts personnels. Google vend en effet de la publicité, non des produits (ou seulement dans une faible mesure, comme les produits hardware tels que Google Minium et autres systèmes d'indexation pour entreprises). Son intérêt principal est donc d'obtenir des données associées en fonction de paramètres qui permettent de réaliser les campagnes publicitaires avec précision. La personnalisation des résultats en fonction du destinataire est possible selon les informations que Google même fournit et rassemble de la manière la plus discrète possible. Par exemple, le courrier électronique, les blogs, les disques durs virtuels et autres services similaires représentent autant de banques de données beaucoup plus utiles au profilage des utilisateurs qu'eux-mêmes ne l'imaginent.

Les services annexes mis à disposition par Google en plus du simple moteur de recherche, sont donc utiles à l'entreprise pour expérimenter de nouvelles voies, mais aussi et surtout parce qu'elles remplissent un rôle fondamental de "centralisateurs des informations personnelles" sur les utilisateurs.

Les filtres sur les algorithmes : banques de données préfabriquées et contrôle des utilisateurs