Mais comment fonctionne le robot Google (Googlebot) exactement ?

Découvrez comment fonctionne le Googlebot afin de mieux comprendre le SEO et ainsi de mieux optimiser le référencement de votre site internet.

Avec environ 40 millions de visiteurs uniques par mois en France, Google pulvérise la concurrence. Et pour cause, sa part de marché ne cesse de grignoter ses concurrents historiques, Yahoo et Bing. Elle est aujourd’hui de plus de 90 % dans l’Hexagone. 

Alors oui, Google, nous l’utilisons chaque jour. Mais comment fonctionne exactement la firme de Mountain View qui, depuis des années, trône en pôle position sur le fameux Big Four des entreprises de technologie (Google, Apple, Facebook et Amazon) ? Nous allons aborder ce sujet ensemble afin d’éclaircir son mode de fonctionnement et tenter de comprendre l’action et le fonctionnement de son robot. N'oubliez pas de vous rendre sur la page formation de chez Let's Clic pour en apprendre d'avantage sur le SEO.

Mais tout d’abord, un moteur de recherche, c’est quoi exactement ? Car, oui, c’est bien plus qu’une simple page d’accueil… et pour cause ! C’est un service en ligne qui permet aux internautes de trouver des ressources numériques telles que des pages web, des images, des vidéos ou encore des forums et des réseaux sociaux. C’est l’édition de mots-clés sur un moteur de recherche qui permet de trouver ces pages. Ceci est possible grâce au travail minutieux d’un robot logiciel communément appelé « Crawler ». Son rôle ? Parcourir le web et archiver sans cesse les pages trouvées au sein de son index de référencement. Le crawler de Google, qui est certainement le plus connu, se nomme « Googlebot » mais il y en d’autres comme le Bingbot de Bing par exemple. 

L’étape du Crawl ou l’exploration des contenus du web 

Pour pouvoir fonctionner correctement, la première étape consiste à collecter les données.  On appelle cela l’étape du « crawl ». Googlebot va explorer Internet en visitant les pages web et les liens qui y sont présents pour récolter toutes les données possibles. Pour cette première phase, il est important de bien comprendre que Googlebot - tout comme l’ensemble des robots d’indexation - a tendance à rendre plus fréquemment visite aux sites proposant du contenu original. Proposer du « nouveau » permet donc à un site web d’attirer les robots plus fréquemment et, donc, d’avoir plus de chance de référencer sa page sur le moteur de recherche. Il s’agit d’une politique basée sur la priorité et le renouvellement de l’information. Celle-ci est en général partagée par l’ensemble des moteurs de recherche. 

L’indexation, c’est quoi ? 

La base de données de Google se nomme l’index et on évalue sa taille à plusieurs dizaines de milliers de milliards d’URL. En 2010, « Caffeine » une nouvelle infrastructure technique apparaît chez Google et apporte certaines nouveautés avant tout liées à l’accélération de l’Index (ex: les actualités sont par exemple intégrées seulement quelques minutes après leurs publications). L’indexation est donc en marche lorsque les données récupérées par Googlebot lors de son analyse sont étudiées et organisées dans ses centres de données. En effet, Google va classer ces dernières dans son « Index principal » tandis que les mots-clés susceptibles de correspondre aux URL de ces pages seront classés dans son « Index inversé ». Cet index possède un rôle essentiel puisqu’il permet de déterminer le nombre de fois où un mot-clé apparaît dans une page par rapport à une autre page et, de ce fait, l’y associer. Il ne s’agit bien entendu pas d’une condition unique au référencement de cette page mais, néanmoins, d’un critère relativement important.  

Place au Ranking ! 

Une fois que l’indexation d’une page web est achevée, l’objectif est de lier les mots-clés pertinents qui correspondent à cette dernière et, bien sûr, diriger les internautes vers elle en fonction de leurs requêtes. C’est la phase du traitement des données et du ranking. De nombreux critères sont nécessaires à cela mais ces derniers répondent néanmoins à trois grandes catégories : il y a la qualité du trafic et le comportement de cette audience sur le site (temps passé sur le site, nombre de pages visitées etc.), la pertinence des pages du site avec la qualité des mots-clés édités, leur poids et son lien avec la recherche de l’internaute. Pour finir, Google prend aussi en compte le succès de votre site internet en termes de Backlink (lien édité sur un site extérieur vers le vôtre) de façon aussi bien quantitative que qualitative. C’est un excellent moyen de mesurer la popularité de votre site internet.

Indexation / Google