4 techniques d'analyse des logs pour booster son SEO

4 techniques d'analyse des logs pour booster son SEO Dans le SEO technique, l'analyse des logs ne livre pas seulement des informations brutes sur le crawl et les visites des internautes.

Les logs exploités en SEO servent à l'origine à suivre le comportement des robots des moteurs de recherche et des utilisateurs. Ils se trouvent dans des répertoires spécifiques sur les serveurs d'accès et y accéder est plus ou moins compliqué selon la configuration de ces serveurs. Certains hébergeurs mutualisés, comme OVH, facilitent l'accès de leurs clients aux logs, voire les aide à y parvenir avec un guide. Cependant, le parcours n'est pas toujours balisé et il vaut parfois mieux faire appel à un spécialiste. Par ailleurs, il est difficile de traiter et d'interpréter ses logs sans utiliser un outil spécifique tel que Elasticsearch, Kelogs ou Logstash. A qui sait les décrypter, ils livrent des informations périphériques utiles pour le SEO et l'optimisation du budget marketing.

1. Analyser son maillage interne

Le maillage interne d'un site sert de guide aux robots des moteurs de recherche. Lorsqu'un robot commence une exploration, il suit systématiquement tous les liens possibles. On a coutume de le comparer à un internaute fou, qui naviguerait sans repos sur Internet. Seul peuvent l'arrêter des erreurs ou des incohérences. "Suivre les logs des robots sur un site revient à analyser son maillage interne", analyse Aymeric Bouillat. Puis il précise : "Si les robots s'arrêtent ou ne parviennent pas à parcourir par ce biais toutes les pages souhaitées, cela indique qu'il y a des failles à réparer dans le maillage".

"Envoyer le contenu trop tard est tout aussi préjudiciable que l'envoyer trop tôt"

2. Connaître sa "fenêtre de crawl"

Des experts, parmi lesquels Philippe Yonnet, directeur chez Search Foresight, ont théorisé le concept de "fenêtre de crawl". Il s'agit du nombre de jours moyen nécessaires pour qu'un pourcentage maximal des URLs d'un site soit crawlé au moins une fois par les bots des moteurs de recherche. "Concrètement, une fenêtre de crawl de 21 jours signifie qu'il faudra attendre trois semaines pour que Google ait crawlé tout le site et pris en compte des modifications", illustre l'expert SEO. En référencement, cette information permet de prédire combien de temps un changement met à se propager et donc à avoir un impact sur le positionnement du site. Quentin Adt, fondateur de l'agence d'analyse de logs Kelogs, considère que dans un contexte très concurrentiel, connaître ce délai permet de publier son contenu au bon moment et de se positionner avec des pages fraîches exactement quand la demande est là. "Envoyer le contenu trop tard est tout aussi préjudiciable que l'envoyer trop tôt : dans les deux cas, il ne rencontre pas son lectorat à temps et n'apporte pas le trafic escompté", précise-t-il.

Dimitri Brunel, data stratégiste chez Botify, voit deux avantages à l'analyse de sa fenêtre de crawl via les logs. Premièrement, c'est un moyen d'anticiper les marronniers en prévoyant "des silos pour les soldes, par exemple, construits et permanents, munis d'URLs fixes mais vides une partie de l'année. Connaître sa fenêtre de crawl permet d'injecter le contenu à temps. C'est ce que fait la Fnac". Deuxièmement, l'un des objectifs des référenceurs est d'obtenir le meilleur taux de crawl possible. C'est-à-dire que les robots visitent toutes les pages utiles et pertinentes du site, sans perdre de temps sur des pages qui ne rapportent rien. Observer les logs dans la fenêtre de crawl donne une vue du "budget de crawl" (temps alloué par les moteurs pour crawler un site), dont les ressources sont limitées. "Il vaut mieux supprimer des pages inutiles plutôt que laisser les moteurs gaspiller du temps à les visiter aux dépens des pages utiles. Un bon élagage permet d'optimiser le passage des robots et d'augmenter le pourcentage de pages du site visitées sur une fenêtre de crawl."

3. Repérer le hotlinking

"Il est possible d'identifier le budget adwords gaspillé à cause d'erreurs de serveur ou de pages trop lentes"

Sur la plupart des CMS, les utilisateurs choisissent s'ils veulent intégrer leurs images par téléchargement ou insertion de l'URL d'une image sur le web. Afficher des images sur son propre site à partir d'URL d'images de sites externes est une pratique bordeline appelée "hotlinking" par les informaticiens. Or, cette technique laisse des traces dans les logs du site externe qui a produit l'URL de l'image. A chaque fois que l'image apparaît sur l'écran d'un internaute, il reçoit un appel sur son serveur, contenant le référent, c'est-à-dire le nom du site à partir duquel l'image a déclenché l'appel. Aymeric Bouillat, consultant chez SEO Hackers, utilise régulièrement cette méthode pour réclamer des backlinks en contactant les sites en questions pour leur demander un lien en bonne et due forme.

4. Tracker les erreurs

Enfin, Quentin Adt fait partie des analystes de logs orientés ROI : il mesure les manques à gagner dus à des erreurs, et donc une mauvaise expérience client sur les pages. Une méthode qui s'adresse aussi bien aux utilisateurs du référencement payant que naturel. Pour les premiers, elle permet d'identifier le budget adwords gaspillé à cause d'erreurs de serveur ou de pages trop lentes et la perte de chiffre d'affaires due à ces erreurs ou à d'autres erreurs sur le canal SEO. Pour ce faire, les logs sont triés en ligne de commande ou grâce à un outil spécifique afin d'isoler les pages qui répondent par un statut d'erreur HTTP (en 4XX ou 5XX) et dont l'URL contient les lettres "gclid" (Google Click Identifier, présent sur toutes les URL d'adwords). Pour chercher les pages lentes, il faut avoir préalablement ajouté le temps de réponse du serveur dans les logs.

Ces informations permettent de mesurer, par page, le nombre de visites issues du SEA ayant débouché sur une erreur. Par exemple, si un site augmente significativement son budget Adwords lors des soldes, entraînant une hausse de trafic supérieure à ce que le serveur peut supporter, l'analyse des logs peut révéler que sur 10 000 visites d'une page, 1 000 ont conduit l'internaute vers une notification d'erreur. En multipliant ce nombre par le CPC moyen des annonces sur Adwords, l'analyste obtient le budget gaspillé sur la page en question. L'opération renouvelée pour chaque page d'erreur donne une idée du budget total perdu. Ces chiffres peuvent être pondérés avec le taux de rebond, qui n'atteint pas systématiquement 100% lorsqu'une page est en erreur, certains utilisateurs retentant leur chance quelques minutes plus tard.

Pour calculer le coût des erreurs sur le canal SEO, la formule est la même, mais il faut supprimer le filtre "glcid" dans l'analyse de logs et aller chercher la "valeur par session" dans l'onglet e-commerce, dans la partie "tout le trafic" de la catégorie "acquisistion" de Google Analytics.

Annonces Google