Google veut indexer le "Web invisible"

Google a annoncé être en train de développer une technologie lui permettant d'indexer des données habituellement non recensées par les moteurs de recherche traditionnels, souvent dénommé le "Web invisible". Cette annonce a été faite sur le blog du moteur dédié aux webmasters, dans un billet signé de deux ingénieurs, Jayant Madhavan et Alon Halevy.

Le Web invisible est la partie du web accessible aux internautes via des pages dynamiques dont le contenu est généré à partir de bases de données en réponse aux renseignements demandés dans un formulaire. Leur contenu est difficilement indexable par les moteurs. Les deux ingénieurs de Google, travaillent justement à l'élaboration d'un algorithme permettant d'indexer cette partie dite "profonde" du Web pour permettre d'améliorer les résultats de recherche. Le Web invisible contiendrait 500 fois plus de ressources que le Web indexé par les moteurs, d'après des estimations réalisées en 2001 par le cabinet américain BrightPlanet.

Ces ressources sont d'ailleurs en général de très bonne qualité. Jayant Madhavan et Alon Halevy se défendent pour autant de vouloir outrepasser les restrictions d'indexation imposées par les éditeurs de sites Web. Chaque éditeur peut indiquer aux robots des moteurs quelles sont les sections de son site à ne pas indexer, via un fichier standardisé baptisé robots.txt.