La sémantique, c'est presque automatique !

En référencement, les écoles du linking et du contenu tendent à se confondre pour structurer un profil optimal. Si les liens sont les prescripteurs de textes de qualité, trop d'acteurs qui visent les meilleures places dans les serps proposent des contenus textuels pauvres.

Le manque de finesse de cette prose est nettement lisible à l'oeil nu. Les textes spinnés étant le paroxysme du genre, il existe pourtant de nombreuses fiches produits par exemple où les mots sont fades et froids. La fluidité laisse à désirer, les répétitions forment des redondances pénibles et le vocabulaire est réduit au strict minimum.
Et si la pertinence des pages web était aussi une question de diversité lexicale ?
Pour étayer cette hypothèse hautement probable, il suffit de se pencher sur ce que Google veut bien nous montrer. Une correction orthographique intégrée, des suggestions, des recherches associées ... Autrement dit : les mots les plus utilisés sont connus, les sites qui y figurent aussi.
On sait aussi que Google fonctionne par l'application successive de divers filtres. Une pondération sur le contenu devrait probablement aller bien plus loin que la simple densité de répétition des mots clé souvent évoquée ici et là par les webmasters pour éviter les sanctions pour sur-optimisation. Il faut probablement voir les choses en creux et se positionner comme une page web qui se différencie des pages semblables tierces. Les balises de structuration des titres de type Hn sont une manière efficace d'identifier, globalement, la thématique d'une page.
A partir de là, il est facile pour un robot de compter le nombre de mots générés par le HTML d'une page web, compter les occurrences voisines de la thématique principale, éliminer les "stopwords" (mots communs) et établir ainsi un ratio mathématique qui dégage clairement une marque de style littéraire, sans bien entendu l'apprécier au sens humain du terme.
Quelle conclusion tirer de ces données qui pourraient qualifier, avec une valeur numérique et des indices moyens, la valeur relative d'un contenu textuel ? On est en droit de penser qu'une bonne écriture et une maîtrise soutenue du langage sont des gages de qualité pour l'internaute. C'est ce que tentent de détecter et valoriser l'équipe de Matt Cuts en charge de la qualité des résultats.
On a pu constater ces dernières semaines qu'une partie au moins des algorithmes en charge des notions sur le langage ont permis de disqualifier certains sites dont la pertinence douteuse a été détectée. La logique appliquée pourrait être : on ne peut pas obtenir beaucoup de liens de manière naturelle avec un contenu incompréhensible ou faible du point de vue de l'engagement intellectuel.
Au vu de la quantité d'informations qui transitent sur les espaces numériques, il est impossible de penser sérieusement que ces déclassements sont le fait de seuls humains sans assistances informatiques. Nous sommes vraisemblablement déjà dans l'ère d'une forme d'intelligence artificielle avancée qui sera certainement l'un des enjeux stratégiques majeurs du search dans les années à venir.