Comment se faire "dépénaliser" de Google Panda

Même si certains types de sites ont plus de chances de se faire pénaliser que d’autres, personne est à l’abri de Google Panda. Je vais vous donner ma méthode non seulement pour sortir de cette pénalité mais aussi pour l'éviter.

Certains propriétaires de sites sont étonnés d’être pénalisés car ils pensent faire exactement ce qui est préconisé par google, mais souvent la sanction survient suite à une méconnaissance de leur propre site et de sa perception réelle par Google.
En lisant certains articles traitant du sujet, je me suis rendu compte de plusieurs choses étonnantes :
  • Manque d’expérience de l’auteur qui traite le sujet uniquement sous l’angle théorique.
  • Panda ou la pénalité fourre tout, sur-optimisation, vitesse de chargement, pages profondes.
  • Des solutions radicales pouvant aggraver le peu de trafic du site, du type désindexer les pages avec un fort taux de rebond même si ça représente plus 50 % de votre contenu.
D’après les sites que j’ai pu dépénaliser suite à des audits SEO, c’était toujours suite à un nettoyage de pages pauvres en contenu, dupliqués ou de pages inutiles. Ce nettoyage consiste en une ou plusieurs des actions suivantes :
  • Désindexation.
  • Enrichissement du contenu.
  • Optimisation du crawl de Googlebot
Mais il n’y a pas de recettes miracles ou définitives, les recommandations dépendent de la nature et de la structure du site. Une page avec peu de contenu, partiellement dupliquée, qui fait peu ou pas de visites n’est pas forcément vouée à être simplement désindexée. Elle peut avoir du potentiel pour générer des visites après optimisations ou avoir un rôle majeur dans l’exploration des pages par Googlebot, je pense par exemple aux pages de catégories.
Et avant de désindexer une page, il y a des étapes à respecter sous peine de créer des effets néfastes au bon référencement du site.

Qu’est ce que Google Panda ?

Avant de rentrer dans le vif du sujet sur les méthodes permettant de se faire dépénaliser, faisons un petit flashback pour mieux comprendre :
Depuis la mise en place de la nouvelle infrastructure de Google en 2010, connue sous le nom de Caffeine, l’index de Google a énormément grossit et s’est vu pollué de pages peu pertinentes. Parmi celles-ci, il y avait ce qu’on appelle des fermes de contenu, des sites qui agrègent du contenu depuis plusieurs sources, du contenu souvent volé uniquement dans le but de créer un volume important de pages et pouvant se positionner sur un large éventail de mots clés. C’est pour ça que les critères de google Panda, du nom d’un des ingénieurs à son origine « Navneet Panda », vise à l’origine les spécificités de ce type de site :
  • Des pages avec un ratio important de liens par rapport au contenu,
  • Des pages dupliquées,
  • Des pages avec peu de contenu,
  • Beaucoup de publicités au dessus de la ligne de flottaison,
  • Une part anormalement élevée de trafic provenant de Google.
L’objectif de Google Panda est de favoriser les sites de qualité  tout en baissant les positions de ceux qui ne le sont pas. Les différentes mises à jour vont donc dans ce sens mais les critères d’origine qui sont la duplication de contenu, les pages pauvres en contenu et le ratio de liens relatif au contenu, restent les éléments majeurs à considérer pour se faire dépénaliser.

L’autre explication c’est que « agréger du contenu depuis d’autres sources », c’est exactement ce que fait Google … ;) Il a donc peut-être pas envie qu’on marche sur ces plates-bandes. C’est pas pour rien que des comparateurs de prix comme Twenga ou Leguide ont été les premiers à se faire pénaliser.
La monétisation de ses services fait clairement parti de l’équation. Ceci dit, je ne pense pas que ce soit prépondérant dans l’évolution de ses algorithmes, mais si il est possible de faire d’une pierre deux coups, pourquoi se priver ?

Comment savoir qu’un site est pénalisé ?

La pénalité Panda touche soit toutes les pages du site, soit une partie du site. La première forme est la plus souvent rencontrée mais il arrive que seul un template de pages avec des caractéristiques identiques soit touché.
Il est facile de détecter qu’un site a été pénalisé lorsqu’il s’agit d’une mise à jour majeur, la chute brutale de positions qui suit ne laisse aucun doute. Mais depuis mars 2013, les mises à jour de Panda sont peu à peu intégrées dans l’algorithme de Google et les effets sont plus continues et donc moins perceptibles. Seuls les mises à jour majeurs, comme le dernier en date, Panda 4 sorti le 21 mai 2014, ont un effet réellement perceptible sur les positions et la chute de trafic organique. 

Identifier les pages dupliquées

1/ Connaitre les pages du site

La première étape pour sortir de Panda est d’analyser les pages connues de Google. Pour cela plusieurs méthodes :
  • Crawler les pages avec un crawler, un outil qui explore l’ensemble des pages accessibles d’un site (screaming frog, botify…),
  • Analyser les logs afin d’extraire les URLs explorées par Googlebot,
  • Extraire les pages indexées du site sur Google avec la commande site:votresite.fr.
La dernière méthode pourrait être la meilleure car on va chercher directement les pages indexées par Google mais ce n’est pas la plus évidente, ni la plus fiable surtout si le volume de pages est important.
L’outil de crawl n’est pas non plus suffisant car Google peux connaitre des pages qui ne sont pas ou plus liées sur le site, dans ce cas le crawler ne pourra pas les connaitre.
J’ai l’habitude de recouper à la fois les pages crawlées par mon crawler et celles crawlées par Googlebot pendant une période d’un mois. De cette manière, je suis à peu près sûr d’extraire l’ensemble des pages connues du moteur, même celles qui ne sont pas indexées.

2/ Catégoriser les pages extraites

Ensuite, afin d’identifier clairement le ou les types de pages responsables de la pénalité, il faut les catégoriser. La catégorisation consiste à identifier des nomenclatures d’url type afin d’organiser les pages connues. Lors de cette phase, il est dors et déjà possible de reconnaître des causes probables de pénalisation, des pages dupliquées ou partiellement dupliquées, des pages « vides » ou pauvres en contenu, des pages qui se cannibalisent entre elles (qui se positionnent sur des expressions trop proches) et aussi tout un tas de pages inutiles.

3/ Comparer crawl et visites

On a les URLs connues de Google, elles sont catégorisées, il faut maintenant comparer les différentes données à disposition c'est-à-dire comparer pour chaque catégorie le nombre de pages crawlées par Googlebot et visitées depuis le moteur afin de quantifier l’importance de chaque problème.

Ce graphe montre les catégories de pages uniques crawlées que j’ai classé comme dupliquées ou très pauvres en contenu. Ces pages représentent 50 % des pages inutiles et 20 % de toutes les pages du site étudié. Parmi les pages dupliquées ou en partie, la catégorie « profils_membres » est la plus volumineuse, suivi de « dup-php-user-id » (pas toujours facile de donner des noms à des urls ? ).
L’idée est de prioriser les actions SEO.
Il est intéressant aussi de faire le même travail avec les pages visitées et de faire le ratio crawl sur visites afin de juger de l’efficacité d’une page. Par exemple, si une page est crawlé 1 fois pour 10 visites , elle peux être considéré comme efficace, en revanche, si une page est crawlé une fois pour une visite, l’efficacité de la page est plus faible. Et ce manque d’efficacité est souvent dû à la faible qualité de la page au niveau contenu.

4/ Comparer l’unicité des pages

Après tout ça, il reste à analyser le taux d’unicité des pages car on ne voit pas tout avec la catégorisation, une catégorie de pages utiles peux contenir des pages dupliquées.
Premièrement, Il faut analyser le title et les titres H1, ce qui est relativement simple avec un tableau croisé dynamique sur Excel par exemple. Pour le contenu visible des pages, ça l’est un peu moins, mais avec de bons outils c’est possible. J’en parlerai pas car il faut des outils spécifiques.
L’autre solution plus accessible et que tous les bons crawlers sont capables d’extraire est la taille du contenu texte. En général, en dessous d’une certaine taille de texte, on peux considérer qu’une page est pauvre en contenu et donc pénalisable par Panda :

Ici, j’ai analysé la catégorie de pages utiles la plus volumineuse, près de 300 000 pages, et j’ai considéré qu’en dessous d’une taille de 5600, les pages avaient trop peu de contenu unique. 25 % des pages sont donc très pauvres en contenu et potentiellement responsables d’une pénalité Google panda.

La taille du contenu est variable car ça dépend du modèle de page, des blocs de contenu identiques comme les widgets par exemple. C’est pour cela que ce type d’analyse est valable pour une catégorie de pages donnée. Pour analyser l’ensemble de la pauvreté en contenu d’un site, c’est intéressant aussi de faire le ratio « contenu html sur le contenu texte » et faire le même type d’analyses. 

Les solutions pour sortir de Panda

Pour agir sur le contenu dupliqué et/ou pauvre en contenu, deux solutions :
  • Enrichir le contenu des pages pénalisantes,
  • Désindexer les pages inutiles, similaires, sans valeur ajoutée et sans potentiel pour en avoir.
En fonction des pages, on choisira l’une ou l’autre des solutions.

Avant de désindexer

il faut au préalable vérifier que la page à désindexer n’est pas interdite au crawl dans le fichier robots.txt. Une page peut être indexée et interdite au crawl, dans ce cas il faudra supprimer la ligne qui interdit le crawl des pages à désindexer. C'est seulement une fois après avoir vérifié leur bonne désindexation qu'il faut remettre "réinterdire" ces pages dans le robots.txt.
Idéalement il faut aussi supprimer ou modifier les liens pointant vers les pages en question. L’objectif est ici, plus dans une perspective SEO globale, qui consiste à limiter la perte de crawl et de Pagerank.

Pour désindexer

Plusieurs solutions :
  • Le traditionnel <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> à placer dans le code source des pages.
  • Utiliser le X-Robots-Tag "noindex, nofollow" dans l’entête http,
  • Utiliser Google webmaster tools pour supprimer url par url ou tout un répertoire,
  • Utiliser la balise noindex dans le robots.txt. A ne pas confondre avec la meta noindex.
Mis à part la méthode via Google webmaster tools, qui n’est pas toujours possible selon les URLs à désindexer, il faut attendre que Google repasse sur ces pages pour qu’il prenne connaissance de la directive de sortir cette page de son index. Cela peut être long, surtout qu’en général, la fréquence de crawl sur ce type de pages est assez espacée dans le temps.
L’astuce pour accélérer le processus de désindexation est de forcer google à revenir explorer les pages en question. Et la meilleure façon pour se faire est de créer un sitemap.xml avec les urls contenant une balise meta noindex ou autre. Dès que vous avez vérifié que c’est bien désindexé, vous pouvez enlever le sitemap.

Les bonnes pratiques de prévention

Pour ne pas se faire pénaliser ou repénaliser par Panda, il est préférable de suivre les quelques conseils qui suivent :
  • Éviter de répéter les mêmes blocs de contenu sur chaque template de pages, les colonnes de gauche ou de droite, les footers,… Essayer de personnaliser et contextualiser au maximum ces contenus, voire de les supprimer si ils sont superflus.
  • Ajouter un rel="canonical" sur vos pages afin de bien spécifier la version de la page à privilégier et qui pourrait avoir des versions au contenu identique. Attention aux effets de bords lors de cette mise en place. C’est souvent sujet à des erreurs si c’est mal implémenté.
  • Bien sûr, évitez le contenu scrapé, dupliqué, les pages avec beaucoup de liens et peu de contenus uniques.
  • Diversifier vos sources de trafic. Pensez à renforcer la visibilité de votre marque.
  • Ne pas abuser des publicités, surtout celles placées en haut de page
  • Panda vise à optimiser la qualité et la pertinence des résultats et s’oriente naturellement dans une démarche de plus en plus expérience utilisateur. Au delà de Panda, Optimiser l’ergonomie, la facilité de navigation est bénéfique pour le bon référencement du site.
  • Désindexer les pages n’est pas toujours la solution optimale.
  • Faites analyser le site par un professionnel, surtout si il a beaucoup de pages. Il n’est pas évident, voire impossible de percevoir son site comme le fait Google et sans l’aide d’un consultant SEO senior.

Google / Référencement naturel