SEO : gare aux contenus générés par l'IA

Si la publication de textes générés par l'IA est tentante vu le nombre d'outils proposés, les fruits récoltés au niveau SEO restent discutables, si ce n'est contre-productif

La pénalisation ou non des contenus générés par l'IA fait depuis quelque temps du bruit dans le landerneau des spécialistes des moteurs de recherche. La communication de Google dans ce domaine est sujette à interprétation de la part des SEO. De façon générale, le moteur de recherche demande aux auteurs de contenus de "créer des contenus utiles, fiables et axés sur l'humain." "Si vous utilisez l'automatisation, y compris la génération par IA, pour produire des contenus dans le but principal de manipuler les classements de recherche, cela constitue un non-respect de nos règles concernant le spam," précise la firme de Mountain View.

La sanction peut être forte, selon elle. "Nous détectons les contenus et comportements qui enfreignent les règles, à la fois à l'aide de systèmes automatisés et, si nécessaire, d'un examen manuel pouvant aboutir à une action manuelle. Les sites qui ne respectent pas nos règles peuvent être moins bien classés dans les résultats ou ne pas y figurer du tout."

Watermarks, duplicate content et dénonciation

Face à cela, les SEO interrogés, qui prennent généralement les communications de Google avec des pincettes, admettent que la publication de textes générés par l'IA comporte de vrais risques. Plusieurs indices signaleraient en effet au moteur de recherche la présence d'un texte généré par l'IA, selon les SEO interrogés.

"Google ne s'est pas officiellement exprimé sur sa capacité à détecter automatiquement le contenu généré par l'IA", rappelle Vincent Terrasi, co-fondateur de DnG.ai. "Cependant, il est certain que le moteur de recherche utilise un ensemble de signaux pour repérer le contenu qui semble avoir été généré par l'IA. Parmi eux : les textes à faible valeur ajoutée ou les connaissances trop spécifiques aux IA. Notons que ces signaux ne sont pas publiquement connus, pour éviter de les contrer facilement. Une méthode simple en cas de doute est de générer des textes avec différents IAs sur le même sujet et d'identifier le nombre de points communs."

Christian Méline, créateur des Metamots, développe : "Google n'est pas très fiable dans sa communication, donc je ne sais pas quelle méthode il utilise. Mais au final, ils ont l'embarras du choix. Ils peuvent utiliser des méthodes à base de probabilité avec des bouts de phrases qui reviennent sans cesse. L'utilisation d'un ton insipide, l'absence d'internaute précis visé, des informations qui datent ou incohérentes peuvent aussi servir. Certaines IA semblent mieux écrire que d'autres car elles "pompent" du contenu entier d'articles, et se font détecter par le duplicate content. La présence d'erreurs grossières est aussi un indice. Il y a également la dénonciation…"

David Groult, head of SEO chez Noiise, admet aussi n'avoir aucun doute sur le fait que Google puisse reconnaitre ou non l'origine d'un contenu. En effet, les IA génératives comme GPT-4 fonctionnant à partir de calculs de probabilités, c'est grâce à une force de calcul gigantesque que les textes en apparence "intelligents" sont créés. "Pour autant, ces calculs laissent nécessairement des traces qu'on appelle des watermarks, aussi appelées footprints. Ces traces sont parfois imperceptibles pour l'humain, mais elles peuvent permettre à des algorithmes comme ceux de Google de reconnaitre l'origine humaine ou artificielle d'un contenu."

Un arrière-goût de Panda

Ainsi, pour les SEO questionnés, la publication de textes générés par l'IA, si elle a lieu, doit être réalisée avec mesure et précaution. Le risque de pénalisation est en effet grand et la sanction possible possiblement forte. "Si l'équipe de lutte contre le spam de Google estime que le contenu a été généré par l'IA, elle peut déclencher des pénalités manuelles, susceptibles d'influer sur le positionnement d'un site dans les résultats de recherche de Google, voire sa complète désindexation, comme nous avons vu ces dernières semaines", avance Vincent Terrasi. "En cas de sanction, cela peut entraîner une baisse de la visibilité et du trafic organique, voire même porter préjudice à la réputation du site. Et compromettre sa capacité à bien se positionner à l'avenir. Indiquons que dans les techniques de Negative SEO, il faut bien faire attention aux commentaires purs IA qui peuvent être mis en masse sur certaines pages."

Christian Méline pense, de son côté, qu'il "faut comprendre que Google a trop de sites aujourd'hui. Pourquoi perdrait-il son temps avec un site qui ne joue pas le jeu ? Pourquoi revenir plus tard ? Google n'est pas dans le caritatif !" Pour lui, "ce qu'il faut retenir, c'est que cela constitue probablement un jeu dangereux. Mais même si la rédaction est plus chère, mettre en péril son entreprise pour économiser sur le moment, devant les risques encourus, cela frôle la faute de gestion !".

Pertinence du contenu

Autre point important amené par la génération de textes par l'IA : si le contenu n'est pas sanctionné, est-il pour autant bon pour l'utilisateur, même avec l'utilisation de différents scripts ? Se pose ainsi la question de la valeur ajoutée de ces contenus. "L'important n'est pas de savoir s'il s'agit d'un contenu généré par l'IA ou par un humain, mais plutôt s'il est pertinent ou non pour l'utilisateur", pense David Groult. "A cette question, ce n'est pas tant l'outil mais la façon de s'en servir qui va compter. L'IA est tout aussi bien capable de faire un contenu pertinent, qu'un contenu de mauvaise qualité."

Certains SEO s'interrogent sur l'intérêt d'un texte généré par l'IA pour le lecteur. Pour Christian Méline, "il existe différentes variables : déjà au niveau de ce que cherche le lecteur lui-même et du fait que le sujet soit courant ou pas. L'IA va faire une sorte de moyenne de ce qu'il se dit sur le sujet, sans garantie que les informations soient vraies. A mes yeux, si c'est full IA, cela peut tromper le lecteur sur certains des points importants. J'aime bien l'IA pour certaines applications, la médecine par exemple, mais pas sur les contenus où on ne fait que du remplissage sans opinion, sans âme, uniquement pour Google le plus souvent."