Google explique ce qui aide ses robots à mieux parcourir les sites

En détaillant le fonctionnement du crawl de ses robots, le groupe donne des leviers que peuvent actionner les sites pour faciliter leur exploration. De quoi aussi améliorer leur SEO.

Google vient de poster un intéressant billet expliquant comment fonctionnent ses robots, et surtout comment les sites web peuvent aider ces derniers à mieux parcourir leurs pages. Certains professionnels avaient déjà pu observer certains des phénomènes décrits, mais le billet a le mérite de confirmer officiellement certaines hypothèses et de clarifier le fonctionnement des Googlebots. Voici ce que l'on peut en retenir.

Un site rapide accélère le crawl

Google admet que le crawl sera plafonné pour certains sites, afin qu'il ne "dégrade pas l'expérience des visiteurs". Une page d'aide apporte des précisions bienvenues sur ce sujet : en effet, il y est écrit que les Googlebots ne doivent pas "surcharger la bande passante", et qu'"une vitesse d'exploration optimale" est déterminée "pour chaque site".

Une vitesse d'exploration optimale est déterminée pour chaque site.

Or, c'est clairement dit dans le billet posté récemment, un site rapide va accélérer le crawl de Google : "si le site répond très rapidement pendant un certain temps, la limite [de la vitesse d'exploration NDLR] augmente, ce qui signifie que davantage de connexions peuvent être utilisées pour l'exploration." L'inverse est aussi vrai, bien sûr : "si le site ralentit ou répond par des erreurs de serveur, la limite diminue et Googlebot réduit son exploration."

Les sites peuvent donc travailler la rapidité des réponses données aux requêtes des robots (mais ce sont aussi celles des navigateurs et des utilisateurs), s'ils veulent voir leurs pages mieux crawlées, et leur site plus profondément parcouru…

La rapidité n'est pas la seule façon de stimuler le crawl

Outre la rapidité, plusieurs facteurs "jouent un rôle important" aux yeux du moteur, et vont motiver ses robots à parcourir plus fréquemment une page. La popularité est l'un d'entre eux. "Les URL les plus populaires sur Internet ont tendance à être explorées plus souvent pour être le plus à jour possible dans l'index", explique Google. Autre facteur mis en avant : l'obsolescence. "Nos systèmes s'efforcent d'empêcher que les URL ne soient pas actualisées dans l'index", indique sur ce point le moteur.

C'est surtout le premier facteur qui peut être exploité. Il peut être utile de savoir que les robots accorderont une attention plus grande aux pages populaires, c'est-à-dire, on le comprend, aux pages bénéficiant d'un fort trafic SEO. Un lien sur de telles pages aura donc, ainsi, toutes les chances d'être rapidement parcouru…

Certaines URL vont gêner le crawl

"La multiplication d'URL à faible valeur ajoutée peut nuire à l'exploration et à l'indexation d'un site", prévient aussi Google. C'est compréhensible : il ne veut pas gâcher ses ressources (ses robots) pour du contenu qui intéressera peu les internautes (et donc les utilisateurs de son moteur).

Des URL peuvent nuire à l'indexation d'un site

Les responsables des sites doivent donc éviter de nourrir les robots avec du mauvais contenu, sous peine de les "dégoûter" du site, ce qui les motivera peu à mieux parcourir le site.

Contenu dupliqué, page d'erreur soft 404, pages piratées, liens sans fin, contenu de faible qualité figurent, classés par ordre d'importance, dans la liste des contenus que Google n'aime pas – et qui vont donc avoir un impact négatif sur le crawl. La navigation à facettes est le premier facteur cité, donc censé être le plus gênant, mais pourtant, certains sites arrivent bien à faire remonter très haut certaines pages résultant de cette navigation à facettes… L'idée à retenir est qu'il faut éviter que les robots de Google perdent du temps sur des URL qui n'auront aucun intérêt SEO.

Le crawl de Google doit avant tout intéresser les sites volumineux

Le moteur le précise dès le début de son billet, optimiser le crawl est plutôt une problématique de sites ayant de nombreuses pages. Bon nombre de sites ne doivent pas s'en préoccuper. "Si un site dispose de moins de quelques milliers d'URL, il sera exploré correctement la plupart du temps", prévient Google.

Le crawl n'est pas un signal utilisé par Google pour classer les pages (mais il y a un "mais")

La vitesse avec laquelle les robots explorent les pages pèse-t-elle au moment de les classer dans les résultats ? En un mot, s'agit-il d'un critère utilisé dans l'algorithme de Google ? Le moteur répond clairement par la négative à cette question dans ce billet, mais il faut sans doute nuancer.

En effet : si Google écrit aujourd'hui qu'"une vitesse d'exploration supérieure n'aboutit pas nécessairement à un meilleur classement dans les résultats de recherche", il avait pourtant déjà affirmé le contraire… De plus, faciliter l'exploration peut clairement aider le SEO d'un site. Car étudier et faciliter le parcours des robots permet d'éviter qu'ils perdent du temps à explorer des pages sans intérêt, et ainsi, qu'ils se concentrent sur des pages au potentiel SEO plus grand… C'est donc un levier qui peut être très utile au SEO.