Le Panda update expliqué par les brevets de Google

Articles scientifiques, brevets... Certains travaux de recherche d'employés de Mountain View recèlent de nouveaux indices sur la fameuse mise à jour Panda et apportent un éclairage inédit sur le fonctionnement du moteur.

Biswanath Panda. C'est bien le patronyme de cet ingénieur Google qui a donné son nom à la mise à jour qui ébranle actuellement le web. Bill Slawski, fondateur du site SEO by the Sea, expert investi dans le référencement depuis des années, a trouvé les travaux scientifiques réalisés par cet ingénieur. Ils prennent aujourd'hui tout leur sens pour éclairer sur le fonctionnement de l'actuel de l'algorithme et surtout de sa mise à jour, ou plutôt de son filtre Panda.

 

 

L'arbre de décision et l'importance des différents types de sites Web

L'un des articles cosignés par Biswanath Panda est intitulé Planet. Un travail de recherche scientifique assez complexe, mais dont l'une des idées fortes pourrait ainsi être résumée et vulgarisée : en utilisant des technologies de calcul distribué, Google utiliserait un système d'auto apprentissage pour séparer les bons sites des mauvais. A la base, le système serait "nourri" de bons et de mauvais exemples identifiés par des humains. Il serait ensuite capable de déterminer si une page donnée se rapproche plutôt du mauvais ou du bon côté de manière purement algorithmique. La puissance de calcul nécessaire étant très importante, une grande partie du brevet concerne l'utilisation de technologies de calcul distribué (Map Reduce en particulier)

Toutefois, comme une "bonne" page d'un site d'e-commerce ne présente pas les mêmes caractéristiques qu'une "bonne" page d'un site média par exemple, les processus du moteur pourraient être capables de catégoriser les sites selon un modèle d'arbre de décisions. Chaque branche de cet arbre étant un genre de site distinct, pour lequel Google appliquerait une grille d'évaluation, et donc de décisions, différente.

"Selon le type de site, les signaux de qualité diffèrent"

Blogs, e-commerce... Google serait en effet en mesure de distinguer les différents genres des sites. Par exemple, seuls les sites de e-commerce mettront en avant certains certifications que les blogs n'afficheront jamais.

L'idée revêt une dimension particulière avec Panda, car chaque genre de site, soit chaque branche de l'arbre, dispose de sa propre grille d'évaluation qualitative. Selon le type de site (ecommerce, blog) les signaux de qualité diffèrent.

 "Sur un site d'actualité où les articles courts sont de rigueur, un très long bloc de texte, même précédé d'une photo, donnera alors un mauvais signal et aura sans doute un taux de rebond élevé. Mais s'il s'agit d'un article d'un chercheur scientifique, le même signal est interprété différemment" pense Bill Slawski.

Pour un site de e-commerce, le raisonnement supposé de Google serait le même : "Si quelqu'un est à la recherche d'une nouvelle paire de chaussures, et il arrive sur une page avec dix paragraphes de texte et seulement quelques petits boutons cachés permettant l'achat de chaussures, c'est également un signe présageant un fort taux de rebond, explique Bill Slawski. Et donc aussi, en l'occurrence, un mauvais signal envoyé à Panda.

 

Quand la forme donne des indices sur le fond

Ce raisonnement suppose que Google puisse se baser sur la forme d'une page, pour y associer sa qualité. Or, rappelle Bill Slawski, qui a publié de nombreuses analyses sur l'impact des brevets de Moutain View sur le fonctionnement de son moteur, Google a justement protégé des technologies qui lui permettent de bien associer la forme et le contenu, et notamment celui appelé "Determining semantically distinct regions of a document " soit comment "déterminer par la sémantique les différentes zones d'un document"...

Précision utile, réhaussant l'importance de ces correspondances à l'heure de Panda, Google vient de déposer un autre brevet portant sur un processus plus détaillé de segmentation des pages il y a environ un mois.

Ces brevets montrent les capacités de Google à exploiter au maximum les simples lignes de  code que "voient" ses robots pour avoir une idée assez précise du contenu, du rendu final... et même de sa pertinence. 

"Si vous avez une page où il y a de bonne balise H1, une rubrique principale en haut de la page, plusieurs sous-titres, et d'autres éléments qui semblent tous avoir un sens précis et attendu, il s'agit alors d'une page bien construite. Elle est pensée et lisible pour le Web. Il est facile de localiser ses différentes sections, et leurs différentes fonctionnalités. Cela rend la page plus intéressante, plus attrayante... Est-ce que les internautes resteront plus sur cette page ? Il y a de fortes chances", répond Bill Slawski. Ce qui enverra clairement un signal positif à Google et son Panda.

 

Ce qu'il faut en retenir de manière opérationnelle

 Contrairement à ce qu'on aurait pu penser, Panda n'exploiterait pas le taux de rebond réel sur les pages, mais le taux de rebond estimé par l'algorithme à partir d'une grille d'analyse établie par un système d'apprentissage. Si des facteurs favorisant le taux de rebond sont présents sur la page, celle-ci peut être pénalisée... même si elle ne présente pas un taux de rebond élevé en réalité !

 Les mesures à prendre ne s'appliquent pas de manière uniforme à l'ensemble des sites car Panda serait capable de catégoriser les sites. Il convient donc de trouver les critères importants pour la catégorie de site dans laquelle on se situe et de vérifier si ces critères sont remplis sur le site analysé.

 Les indications données par Google sur son blog, et notamment la liste de questions doivent être étudiées de près. Car même si elles peuvent porter à sourire, il s'agit sans doute des questions qui ont été posées à des auditeurs humains pour constituer le "corpus" d'analyse de bons et de mauvais exemples sur lequel se base le système d'auto apprentissage. Cela éclaire dès lors mieux pourquoi les questions sont floues. Elles ne s'appliquent en effet pas à des caractéristiques techniques précises (balises, éléments présents dans la page) mais à un sentiment humain qui est ensuite modélisé de manière algorithmique.