Petite recette pour une analyse de logs maison

Les logs sont une source d'informations brute accessible à tous les référenceurs. Encore faut-il savoir s'y prendre pour les affiner et les rendre lisibles.

Chaque fois qu'un robot ou un utilisateur passe sur les pages d'un site web, celui-ci accumule des lignes de logs. A partir de ces données conservées par l'hébergeur, il est donc possible de retracer le parcours des robots de crawl des moteurs de recherche. Le référenceur qui souhaite les consulter a deux options : faire appel à une solution payante clé en main, qui met à sa disposition les données qu'elle a choisies, ou importer lui-même ses logs et analyser ce qu'il souhaite. Voici comment mettre en place cette seconde solution rapidement.

Importer et présenter ses logs

Stockés par le serveur, les logs ne sont pas accessibles directement. Sur un serveur mutualisé, comme OVH ou 1&1, il suffit de se rendre sur l'interface d'hébergement, de faire la demande au serveur et de télécharger les fichiers (un par jour) en format zippé. Sur un serveur non mutualisé, Hafid Mermouri, CTO France chez Performics rappelle qu'une fois connecté au serveur SSH, il faut "aller chercher dans le fichier de configuration du serveur web (par exemple apache2) une ligne du type CustomLog /chemin/vers/le/fichier/de/logs et suivre le chemin du fichier".

Par défaut, apache2 est configuré pour utiliser le format de fichier "common" mais Hafid Mermouri recommande le format "combined", car "il ajoute l'information sur le référer et le user-agent, qui sont très importantes pour le SEO". Selon lui, renouveler cette opération une fois par mois est suffisant pour la plupart des sites.

Une fois en possession de ses logs, le référenceur peut les intégrer sur Excel dans un tableau croisé dynamique ou sur DataStudio en passant par un spreadsheet de Google. "La première solution permet de travailler sur ses données brutes, la seconde d'obtenir des visuels aisément compréhensibles pour des collaborateurs qui ne sont pas des spécialistes du SEO", ajoute le CTO de Performics.

Organiser ses logs pour la lecture

Sélectionner les logs de Google est la première information pour qui veut mesurer le crawl de son site par les robots des moteurs de recherche. Quentin Adt, fondateur du logiciel SaaS de suivi de logs Kelogs, rappelle que "chaque bot est supposé disposer d'un user-agent spécifique". Or, Google fait régulièrement passer plusieurs robots sur chaque site présent dans son index. Et parmi eux, il y en a deux qui passent plus souvent et intéressent particulièrement le référenceur : Googlebot mobile et Googlebot desktop, dont Google donne les user-agent complets sur son site.

Googlebot Desktop:

● Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)

● Mozilla/5.0 AppleWebKit/537.36 (KHTML, par exemple Gecko ; compatible ;

Googlebot/2.1 ; +http://www.google.com/bot.html) Safari/537.36

● Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot Mobile:

● Mozilla/5.0 (Linux ; Android 6.0.1 ; Nexus 5X Build/MMB29P) AppleWebKit/537.36

(KHTML, comme Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible ;

Googlebot/2.1 ; +http://www.google.com/bot.html)

Pour les isoler, Quentin Adt conseille de "filtrer les IP qui commencent par 66.249 ou les user-agent contenant "Googlebot".

"Recomposer l'arborescence du site sur Excel permet de mener une analyse par répertoire"

Savoir que les robots passent sur son site est une chose, connaître leur parcours sur l'arborescence du site en est une autre. D'où la nécessité de recomposer cette arborescence sur Excel. Quentin Adt recommande de copier la colonne URL, de la coller après la dernière colonne pour la scinder en utilisant le "/" comme élément de séparation. Il faut encore nommer ces colonnes selon le type de pages qui s'y trouvent : les pages catégorie, sous-catégorie, produit, etc. "Dans le tableau croisé dynamique, conclue le fondateur de Kelogs, cela permet de mener une analyse par répertoire".

Connaître la fréquence de crawl de son site par les robots de Google est une autre information utile, en particulier pour les e-commerçants qui veulent vérifier que leurs pages produit sont suffisamment souvent vues. Après avoir sélectionné les logs de Google, il faut rendre la colonne des dates plus lisible. Là encore, Quentin Adt recommande de placer en dernier la colonne date et de la scinder sur le caractère ":", qui sépare la date des heures et des minutes, moins utiles.

Au final, ces filtrages permettent des analyses fines. En croisant les URLs par catégorie et le passage des robots sur une durée de quinze à trente jours, Hafid Mermouri peut ainsi apprendre que "lorsque le googlebot crawle mon site cent fois, il passe 10% de son temps sur les produits, 20% sur les catégories et 70% sur les pages dupliquées ou avec paramètres (ndlr : URLs généralement dupliquées embarquant des paramètres de tracking ou de tri)". Dans cet exemple, il s'aperçoit donc que beaucoup de budget de crawl est gaspillé.

Il est aussi possible de détecter un pic d'erreur menaçant de nuire à la qualité de l'expérience client. La donnée à observer est le status code de l'erreur, la plus fréquente étant l'erreur 404. Pour s'assurer qu'elle ne se propage pas de façon incontrôlée, Quentin Adt donne la marche à suivre : "Dans le graphique croisé dynamique, nous pouvons mettre en abscisse la date, et en ordonnée les status code. On prendra soin de retirer les codes 200, afin de rendre davantage visibles les potentielles erreurs".