Contenu dupliqué et Google Discover : Google répond à vos questions

Grâce au JDN, les professionnels du search peuvent interroger Google sur les sujets qui les préoccupent. Chaque mois, Vincent Courson, outreach specialist chez Google, répond à leurs questions. Voici la sélection de décembre.

Pour comprendre ce que Google veut, il ne suffit pas de bien le connaître, il faut parfois lui parler. C'est ce que le JDN et Vincent Courson, outreach specialist chez Google, vous proposent dans un nouveau rendez-vous mensuel. Postez à tout instant vos questions via notre formulaire, les plus représentatives des thématiques qui intéressent les professionnels seront sélectionnées et envoyées à l'expert. Voici ses réponses du mois de décembre 2018, sans filtre. Retrouvez ses réponses du mois dernier ici.

Vincent Courson, outreach specialist chez Google. © VC

Google Discover est-il réservé aux sites inscrits dans Google Actualités ?

Vincent Courson. Non. Par exemple, Reddit.com est inclus dans Google Discover mais pas dans Google News. Et il existe d'autres exemples. De manière générale, Discover se concentre sur l'utilisateur et veut lui apporter du contenu pertinent pour lui, même si ce contenu n'est pas nouveau sur le web. Fournir des documents peut-être plus anciens mais plus pertinents est une addition qualitative aux documents servis par Google News, ce dernier mettant souvent l'accent sur la fraîcheur de ses contenus.

J'ai un document PDF sur mon site, qui est référencé depuis quelques années. D'autres sites Web ont copié le contenu intégral, mais en format HTML. Si je publie à mon tour une version HTML du contenu intégral de mon document PDF, est-ce que mon site sera pénalisé, puisqu'il y a déjà le même contenu sur une autre page Web ?

Vincent Courson. Déjà, un rappel général : lorsque Googlebot accède à un document hébergé sur une URL, il va essayer d'interpréter le contenu de ce document quelle que soit sa forme : un beau HTML 5 tout neuf, une page générée en full-JavaScript, ou un fichier PDF. Googlebot va ensuite décider d'indexer ou non le contenu qu'il a réussi à lire sur le document. Et lorsqu'un utilisateur effectue une recherche, Google classera les documents présents dans son index en fonction de la pertinence de leurs contenus par rapport à la requête, quelle que soit la forme du document ; un fichier PDF a les mêmes chances de ranker qu'une page HTML.

Du coup, pour revenir à la question, il s'agit alors de savoir si le contenu du PDF concerné avait été indexé proprement depuis des années. Nous avions publié des recommandations il y a bien longtemps maintenant, et ces dernières sont toujours valides dans les grandes lignes. Si ce PDF avait été effectivement bien lu et compris par Google, alors vraisemblablement nous le traitons comme n'importe quel autre document au moment du classement des pages à montrer à nos utilisateurs.

Cela-dit, il peut y avoir de bonnes raisons de vouloir héberger un contenu en HTML plutôt qu'en PDF, notamment l'aspect "les PDF, c'est illisible sur smartphone !" On a alors deux options : remplacer l'ancien PDF par une nouvelle page en HTML, ou bien poster le contenu en HTML tout en gardant le PDF en parallèle.

1. Si on choisit de garder les deux documents en parallèle, il faut préciser aux moteurs de recherche quelle est la version canonique : utiliser les en-tête HTTP rel="canonical" pour le fichier PDF.

2. Si on veut transférer le contenu du fichier PDF vers une page HTML unique, il faudra créer des redirections 301 côté serveur. Cela permettra de :

N'avoir qu'une seule version du contenu à maintenir.
Guider vers la bonne page les utilisateurs qui auraient pu mettre le fichier PDF en favoris.
Donner des indications à Google sur "l'historique" du contenu : ce contenu de qualité uploadé historiquement sur l'ancienne URL existe désormais sur la nouvelle URL, et c'est celle-là qu'il faut indexer.

Dans les SERPs, comment sont générées les recherches associées que l'on retrouve en bas de page ?

Vincent Courson. Lorsqu'un utilisateur arrive en bas de la page de résultats de recherche sans avoir trouvé de réponse à sa requête, il a deux options : tenter de trouver une réponse sur la page suivante, ou entrer une nouvelle requête plus précise qui pourrait lui apporter des résultats plus précis également. Les "recherches associées" existent pour répondre à ce second scénario : indiquer à l'utilisateur quelle autre recherche il pourrait effectuer pour affiner ses résultats. Nous pouvons générer ces recherches associées de différentes manières : en regardant quelles sont les requêtes "populaires" dans le même domaine, en ajoutant des éléments de personnalisation si l'utilisateur est connecté à son compte (localisation, historique de recherche, etc.), ou encore en proposant d'ajouter des termes qui permettent de changer le niveau de détail de la requête (passer de "meilleure équipe de foot" à "classement meilleures équipes de foot").

Si vous voulez plus d'informations sur comment Google voit l'intention de ses utilisateurs et façonne son moteur de recherche en fonction, je recommande de lire l'article publié récemment sur le blog Google anglophone à propos de Google Discover : la recherche sans requête, hyper-visuelle, et se basant sur des "journeys" (le parcours utilisateur).

Comment optimiser le SEO d'un site dont le rendu se fait sur le navigateur du client et non sur le serveur, comme avec Vuejs par exemple ?

Vincent Courson. Le mois dernier, nous avons évoqué l'interprétation du JavaScript par le moteur de recherche. La question de l'optimisation est complémentaire.

Ensuite, il est vrai qu'il existe des "obstacles SEO" auxquels il faut faire attention lorsque l'on travaille avec ce genre de frameworks. Voici quelques bonnes pratiques fondamentales :

Utiliser des URLs propres, sans fragment identifier (Identificateur de fragment). Préférer la History API.
Faire des liens avec des balises <a> dont l'attribut href contient une URL complète, et pas juste href="" ou href="#", et ne pas utiliser l'attribut onclick tout seul.
Gérer les erreurs 404 peut être compliqué. Il faut utiliser le JavaScript pour rediriger vers une page qui renvoie réellement un code 404, ou au minimum ajouter une balise meta noindex à la page générant une 404 en JavaScript lorsque le contenu n'existe pas;
Ne pas utiliser le JavaScript pour enlever une balise meta noindex..
S'assurer qu'on a bien lu la documentation pour développeurs.

On voit bien que ces recommandations sont beaucoup plus du côté du "SEO technique" que du "SEO Marketing." Et c'est fait exprès ! Une fois que les pages sont bien interprétées par googlebot et indexées, les optimiser relève des même mécanismes que pour des pages en "HTML simple" : faire beaucoup de tests, utiliser les outils du métier (notamment la Google Search Console :D ), et faire transparaître son expertise dans le contenu fourni aux visiteurs potentiels de son site.

Si je développe un forum en sous-domaine de mon site, est-ce que le SEO qu'il va générer va contribuer à faire monter mon site ou seulement le sous-domaine ?

Vincent Courson. Un forum est simplement un moyen comme un autre de créer et de publier du contenu sur votre site. Or, il est toujours difficile de dire à l'avance si un contenu va aider ou non un site particulier à bien se positionner. J'aimerais cependant noter qu'il est compliqué de contrôler le contenu créé sur les pages d'un forum. Dans le meilleur des cas, ces pages pourront se retrouver à ranker (se positionner, ndlr ) sur des requêtes qui ne vous intéressaient pas ou auxquelles vous n'aviez pas pensé. Et dans le pire des cas, cela peut représenter des centaines ou des milliers de pages à contenu de faible qualité, voire même du spam.

Mais ce forum peut aussi vous aider indirectement ! Si les pages du forum rankent sur des requêtes sur lesquelles vous ne travaillez pas, c'est une excellente occasion d'identifier une "opportunité SEO" et de créer du contenu de qualité vous-même pour placer votre site sur cet espace. Ce qui peut être positif pour le trafic organique du site principal sur le long terme.