Gain d'information : comment créer du contenu que l'IA ne peut pas répliquer ?
La production de contenu a encore accéléré avec l'introduction de l'IA générative. Celle-ci produit rapidement une quantité astronomique de contenus. Les textes générés répliquent ce que disent d'autres articles, avec d'autres mots. "Les LLMs ont une limitation structurelle : ils ne peuvent que synthétiser l'existant. Ils ne créent pas d'information nouvelle", souffle Olivier de Segonzac, associé fondateur de l'agence Resoneo. "Quand on demande à ChatGPT d'écrire sur un sujet, il produit une sorte de moyenne probabiliste de ce qui a déjà été dit. C'est du contenu correct, mais à gain d'information nul." Or, les moteurs de recherche comme Google ont besoin d'un contenu pertinent, original avec de la valeur ajoutée, notamment pour faire marcher à plein son système d'annonces.
Hasard ou coïncidence ? C'est dans ce contexte que le brevet US12013887B2, accordé en juin 2024, évoque le score de gain d'information. "Le timing n'est pas anodin, en pleine explosion des contenus générés par IA", lance Olivier de Segonzac. Pour lui, ce brevet est potentiellement l'arme anti-uniformisation de Google. Son principe est simple : attribuer un score entre 0 et 1 à chaque contenu, selon la quantité d'information nouvelle qu'il apporte par rapport à ce qui existe déjà. Il doit améliorer l'expérience utilisateur en proposant des documents contextuellement pertinents, en évaluant leur potentiel informatif réel en tenant compte de leur historique de consultation. "Ce mécanisme permettrait à Google de détecter algorithmiquement la redondance sémantique, même quand les mots sont différents", développe Olivier de Segonzac. "C'est un outil puissant pour filtrer le "consensus content" qui envahit les SERPs."
Une nouveauté qui n'est d'ailleurs pas à confondre avec le Helpful Content. Rappelons que ce dernier, lancé en aout 2022 par Google, vise à amener la création de "contenus utiles, fiables et people first." "Ils se ressemblent tous les deux car leur timing et leurs objectifs convergent", pointe Olivier de Segonzac. "Mais en réalité, le Helpful Content Update va plus cibler des sites dans leur ensemble, dans les résultats search classiques. Le gain d'information vise des contenus précis, dans le cadre d'une session utilisateur. Le score mesure le gain d'information par rapport à ce qu'il a déjà vu avant dans sa session. D'ailleurs, c'est pour cela qu'on peut penser qu'Information gain, s'il est implémenté, le serait plus au niveau des réponses IA et assistants de Google."
Attention également de ne pas amalgamer le gain d'information avec l'EEAT, pour "Expertise", "Authoritativeness", "Experience" et "Trustworthiness", en anglais. "Ce sont des approches complémentaires qui opèrent sur des dimensions differentes", analyse Olivier de Segonzac. "EEAT évalue la qualité globale d'un contenu à travers plusieurs prismes. Il regarde l'expérience de première main du créateur, son expertise, sa reconnaissance par d'autres sources, et surtout la fiabilité et l'exactitude de l'information. Google précise d'ailleurs que Trust est l'élément central du framework. L'information gain, lui, mesure spécifiquement la nouveauté sémantique, ce que le contenu apporte de différent par rapport à ce qui existe déjà." Autrement dit : l'EEAT garantit que le contenu est fiable et provient d'une source crédible. L'information gain mesure s'il apporte réellement quelque chose de nouveau à l'écosystème informationnel. Pour Olivier de Segonzac, "Le pont naturel entre les deux reste le premier E d'Experience. Quelqu'un qui a vécu une expérience terrain produit mécaniquement du contenu à fort gain d'information : données propriétaires, retours clients réels, tests effectués, perspectives impossibles à générer par une IA qui ne fait que synthétiser l'existant."
Augmentation du trafic organique marquée
Après la mise en place du brevet, les stratégies délivrées pour optimiser le gain d'information peuvent être partiellement mesurées. Sa mesure implique en effet une architecture complexe. Elle pourrait se constituer d'un moteur de scoring, qui analyserait en temps réel les contenus et l'historique de l'utilisateur. Les données de gain d'information (scores, clics sur liens annotés) seraient transmises vers une plateforme analytics appropriée. "On peut aussi utiliser des outils d'analyse de content gap, comme celui qu'on a développé chez Resoneo", évoque Olivier de Segonzac. "Il compare automatiquement une page avec les leaders Google sur la requête cible. Il identifie les axes d'enrichissement sémantique et UX manquants. Cela permet de repérer précisément où apporter de la valeur ajoutée par rapport à l'existant."
En attendant, une récente étude de Stratabeat permet d'y voir plus clair. Elle porte sur l'analyse de 300 sites B2B SaaS, sur plus de 15 000 data points. Les AI Overviews étaient présents dans les SERPs pour 17,1 % des requêtes. Ces résultats représentent bien entendu une corrélation, pas nécessairement une causalité, mais peuvent donner quelques indications. D'après le rapport, de janvier 2024 à janvier 2025, les sites proposant des recherches originales ont vu leur trafic organique progresser de 18,7% en moyenne, contre 11,2% pour ceux sans recherche originale. Côté backlinks, 97% des sites publiant des recherches originales ont gagné des domaines référents, avec une augmentation moyenne de 80%, soit 3,4 fois plus que les autres.
Dans cet ordre d'idées, l'entreprise allemande Arbeitsschutz GmbH, spécialisée dans la fabrication et la distribution de chaussures de sécurité, a par exemple investi dans des études de cas, étayées par des chiffres et des résultats réels. Son but était d'augmenter ses ventes en montrant l'efficacité de son produit. Cela lui a permis de générer du contenu unique, de renforcer sa crédibilité, et d'augmenter sa visibilité externe. Une autre entreprise qui conçoit des meubles assistés par l'intelligence artificielle a réussi à faire publier son histoire dans un grand journal national. Cela lui a notamment permis de gagner en audience.
"Concrètement, il faut puiser dans des sources inaccessibles aux LLMs : les données clients (feedbacks, tendances d'usage, verbatims support, etc.), les expériences terrain (tests réels, études de cas vécues, échecs instructifs), les données propriétaires (sondages originaux, benchmarks internes…), ou encore les interviews exclusives avec des experts, des professionnels, ou encore des praticiens", avance Olivier de Segonzac. "En résumé, la question à se poser avant de publier est : est-ce qu'un LLM aurait pu écrire exactement ça ? Si oui, le contenu n'apporte probablement aucun gain d'information."