C’est quoi le SEO technique ? Crawl, pagerank interne, structure...

Le contenu est ROI… Ok, c’est important mais cette vision manichéenne du référencement naturel cache une réalité bien plus complexe surtout lorsqu’il s’agit d’optimiser de gros sites sur un secteur concurrentiel.

Pour moi et ceux qui ont une certaine maturité dans le domaine, il est évident que la technique SEO est indispensable, c’est même les trois quarts du boulot d’un bon référenceur. Quand je parle de technique, je parle pas des H1, H2, des metas ou autres basiques mais de la manière dont Google perçoit un site, des pages explorées par Googlebot (Crawl de Google), de la manière dont sont organisées les pages, de déséquilibre de la structure, de répartition du pagerank interne, d’efficacité crawl/visites, etc…

Pour expliquer ces expressions un peu barbares, je vais illustrer avec des cas pratiques les principales techniques SEO pour comprendre un site comme Google et ainsi pouvoir l’optimiser avec des méthodes efficaces.

Mini glossaire du SEO avancé

Au fur et à mesure, j’essaierai d’expliquer avec des mots simples des données qui le sont peut-être un peu moins, mais avant voici quelques termes qui font partie du jargon SEO et que j’utilise souvent :

Profondeurs : nombre de clics pour atteindre une page depuis la page d’accueil
Crawl : c’est l’action d’explorer une page par un crawler. Ce crawler peut être un outil de crawl ou le robot d’un moteur de recherche. Googlebot est le robot de Google et c’est un crawler, il passe son temps à explorer, scanner les pages du web.
Noindex : règle qui interdit à une page d’être indexée sur Google.
Page active : page qui fait au moins une visite sur une période donnée.
Catégories de pages : L’ensemble des graphes que vous allez voir résulter d’une catégorisation préalable des pages. Pour simplifier la lecture et la compréhension des graphes, il est indispensable de regrouper les urls de même type.

Structure

La structure d’un site représente les pages liées depuis une ou plusieurs autres pages du site. C’est à distinguer des pages connues de Google qui est une autre donnée intéressante à connaitre. En effet, Google peut connaitre des pages qui ne sont pas ou plus dans la structure et il peut aussi ne pas connaitre des pages dans la structure, simplement car Google a la « flemme » d’explorer (crawler) l’ensemble des pages d’un site, à cause d’une profondeur trop importante par exemple.

Dans ce cas précis, il y a 2 222 083 pages uniques connues au total (dans la structure et connues de Google) contre 999 855 pages uniquement dans la structure du site.

L’intérêt de connaitre la répartition des pages dans la structure est multiple :

Les pages hors structure sont moins efficaces en terme de visites
Les pages hors structure peuvent être responsables de pénalités, il s’agit peut-être d’anciennes pages correspondant à une ancienne version d’un site et qui sont dupliquées avec la version actuelle du site
Ça permet d’identifier des pages inutiles qui n’ont rien à faire là. Dans cet exemple, on voit certaines catégories de pages dupliquées que j’ai identifiées avec le préfixe « dup »

Crawl de Google

Ici, on voit les pages explorées (crawlées) par Googlebot sur une période d’un mois de logs. On voit tout de suite qu’il y a une différence entre les urls qui sont dans la structure et les urls que voient Google.

Cette différence entre les pages présentes sur le site et les pages connues de Google s’appelle le taux de crawl, soit le Ratio des pages qui ont été crawlées par Google sur les pages présentes sur le site. Pour ce site au global, le taux de crawl est de 19%, pour les pages annonces en particulier, il est de 32%. Ça signifie que Google connait uniquement 32% des annonces présentes sur le site.

On voit aussi par exemple que Google passe 19% de son temps à crawler des redirections « redir-old-listes » qui ne sont plus dans la structure. J’ai nommé cette catégorie d’urls comme ça car il s’agit d’anciennes pages de listes de produits qui ne sont plus dans la structure (old-listes) mais qui sont encore explorées par Google.

Google passe aussi 12% de son temps sur des pages dupliquées « dup-isprofessionnal ».

Au total, Google passe 49% de son temps à explorer des pages inutiles.

Le crawl de Google est la première étape pour permettre à une page d’être indexée sur Google puis de faire des visites : Pas de crawl pas de visites.

La fréquence de crawl sur une page favorise aussi les chances qu’elle soit active. Il s’agit d’une autre histoire que je démontrerai plus tard.

Google a un temps alloué à explorer les pages d’un site, on parle aussi de « crawl budget ». En gros, plus il passera du temps à explorer des pages inutiles, moins il en passera à explorer les pages utiles et génératrices de trafic.

Répartition des visites

Contrairement aux autres, c’est un indicateur simple mais peu de gens connaissent de manière fine la répartition des visites d’un site. On voit ici que les pages de listes (listes de produits) brassent beaucoup de visites, 67 000 visites sur un mois uniquement depuis Google, ce qui est peu en réalité au vu du potentiel réel de ces pages.

Il est intéressant de constater ici que 39% des pages inutiles font des visites, « dup-isoffer » et « redir-old-listes » par exemple. C’est compliqué de rentrer dans le détail ici surtout que j’essaye de rester simple, mais pour les redir-old-liste, il s’agit d’anciennes pages redirigées vers des pages en noindex, google continue donc à crawler les redirections. Et il se trouve que ces redir-old-liste correspondaient en fait à des pages qui faisaient beaucoup de visites. En fait, le webmaster a eu la bonne idée de rediriger des pages qui faisaient des visites vers des pages en noindex… Et oui ça arrive.

Pagerank interne

Le pagerank (PR) interne est un score de popularité qui détermine le potentiel d’une page pour se positionner sur des mots clés. Le pagerank interne est calculé en fonction du nombre de liens que reçoit une page et du pagerank de la page liante.

La répartition du pagerank interne est une simulation du « vrai » pagerank attribué par Google aux pages du site. Le « vrai » pagerank d’une page est connu seulement de Google, simplement car il prend en compte l’ensemble du web (inenvisageable à calculer), c’est pour ça qu’ici, je ne parle que de pagerank interne au site. Il ne faut pas confondre avec le PR toolbar qui était une indication grossière de 1 à 10 représentant le poids d’une page et dont l’affichage public n’est plus mis à jour.

Le Pagerank est à l’origine de l’algorithme de classement du moteur de recherche, et même si les critères de positionnement sont nombreux et ont évolué, il reste et restera un indicateur fondamental pour permettre à une page de se positionner correctement.

A noter que chaque page a son propre pagerank, indépendamment du reste du web, on peux en conclure que mécaniquement, plus un site est gros plus son potentiel de pagerank est important. Mais c'est surtout les liens entrants qui apportent du "jus".

Ce qui est surtout intéressant de constater avec ce graphe c’est la manière dont est distribuée l’énergie du site et sur quels type de pages. Cette information permet de faire du PR sculpting, une technique d’optimisation qui consiste à déséquilibrer la structure du site pour favoriser les pages qui ont un objectif SEO (trafic, exploration).

Pour faire simple, Il s’agit d’apporter plus de liens vers des pages stratégiques au référencement. Face à cette vision purement quantitative, il faut aussi ajouter une dimension plus qualitative et notamment sémantique, soit de lier des pages proches thématiquement. Et il faut même rajouter une dimension expérience utilisateur, c'est-à-dire ajouter des liens utilisées par les internautes. En cela, cette méthode de PR sculpting joue à la fois sur le pagerank traditionnel et sur d’autres types de « rank » comme le pagerank sémantique.

Synthèse

Là où ça devient vraiment intéressant, c’est lorsqu’on met en parallèle tous ces indicateurs. Pour plus de clarté, j’ai mis uniquement les pages utiles dans le tableau.

J’ai ajouté deux nouveaux indicateurs : visites/pri, et visites/crawl qui permettent de mieux évaluer l’efficacité ou pas d’une catégorie de pages.

Si on synthétise les quelques données qu’on a à disposition, voici ce qu’il y a de remarquable :

49% des pages crawlées par Google se font sur des pages inutiles
Sur les pages inutiles, 55% sont des pages dupliquées, soit 20% des pages du site
18% des urls dans la structure du site sont connues de Google
53% du pagerank du site favorise les pages ville pour seulement 14,7% de visites
16% du pagerank interne est perdu dans des pages inutiles
39% des visites du site sont générées par des pages inutiles (pas si inutiles que ça)
Les listes actualités sont les plus efficaces (0,3% visites/pri et 21,8% visites/crawl), elles génèrent 27,7% des visites du site alors que seulement 28% sont connues de Google

Et sur le plan des objectifs opérationnels, on peux en déduire que :

Il faut nettoyer le site pour libérer le crawl de Google vers les pages utiles
Nettoyer les pages dupliquées pour le sortir de Panda (ah oui, je l’avais pas dit, le site est pénalisé)
Mieux répartir la structure du site pour favoriser les pages efficaces et qui ont du potentiel (par exemple lier plus les pages de listes et un peu moins les pages villes)
Permettre une meilleure accessibilité des pages par Googlebot afin d’améliorer le taux de crawl et au final le taux de pages actives.
Récupérer les visites sur les pages inutiles et les ajouter à la structure (ex :redir-old-liste)

Il ne s’agit là que d’une vision macro pour bien comprendre un site et ainsi dresser les pistes principales d’un audit de référencement par exemple. Il faudra ensuite rentrer dans le détail afin de pouvoir apporter des recommandations concrètes et opérationnelles. L'avantage de connaitre ces données techniques, c'est de pouvoir prioriser et d'identifier des problématiques SEO qu'on ne pourrait identifier autrement.

Aussi, ce n’est qu’une partie de facteurs techniques SEO, je n’ai pas abordé par exemple la problématique des profondeurs ou encore des performances. Et bien sûr, ces techniques SEO n’abordent pas tout ce qui inclut un audit SEO avancé avec ses aspects sémantiques, expérience utilisateur, réseaux sociaux, marketing de contenu, etc…

Ce type d’analyses prend tout son sens sur des gros sites bien sûr mais à partir de plusieurs centaines, plusieurs milliers de pages, ce type d’analyse trouve son intérêt.

Donc, la prochaine fois qu’on vous dira que maintenant le SEO ce n’est qu’une histoire de contenu, j’espère vous avoir démontré que c’est plus compliqué que ça. Ça se saurait si c’était aussi simple de référencer un site.