Google connaît 120 milliards d’URL, la majorité avec du contenu dupliqué !

Le nombre d'URL connues par Google est en expansion forte depuis deux ans, mais la part du contenu dupliqué dans ces adresses augmente encore plus rapidement !

Combien de pages le moteur de recherche Google connait-il ? Combien d’adresses URL sont présentes dans son moteur ? Selon Gary Illyes, Webmaster Trends Analyst chez Google, le moteur de recherche a connaissance de plus de 120 000 milliards d’URL. Un nombre incroyable, mais la majorité est constituée de contenu dupliqué…

Le contenu dupliqué en forte progression

C’est à l’occasion de la conférence State of Search, organisée à Dallas (Texas) en novembre, que l’analyste Gary Illyes a livré un nombre très secret, celui des URL que connaît son moteur. Mais au-delà du vertige provoqué par ces 120 000 milliards, ce qui choque, c’est la proportion de contenus dupliqués au sein de ces URL. 60% ! Oui, 60% de ces contenus sont en fait des doublons. Un problème ? Pas vraiment. En effet, Illyes n’indique à aucun moment que l’intégralité des 120 000 milliards d’URL connues soit indexée. Il y a fort à parier que le moteur Américain, qui a identifié ces contenus dupliqués, ne l’affiche pas dans son ranking.

Google ne communique pas tous les jours sur le nombre d’URL indexées. Les dernières statistiques dataient de 2013, avec un nombre total d’adresses connues de 30 milliards, et un pourcentage de contenu dupliqué de 30%. Ainsi, si l’on se fie aux statistiques du géant de Moutain View, la part du contenu dupliqué est en forte hausse (72 000 milliards d’URL aujourd’hui contre 9 000 milliards il y a seulement deux ans). Alors que le nombre de pages connues de Google a été multiplié par 4 en seulement deux petites années, la part du contenu dupliqué est, elle, multipliée par 8 sur la même période.

Le mirage de la performance avec le contenu dupliqué

Comment expliquer cette forte croissance de la part de contenu dupliqué sur la toile ? Plusieurs facteurs sont à combiner. Le contenu est poussé comme un axe de développement fort, et les entreprises y sont sensibles. Toutefois, certaines ont bien compris l’intérêt du contenu, mais se limitent à du copier / coller par facilité et économie. Bon diagnostic, mauvais traitement. Mises à jour après mises à jour, keynote après keynote, Google rappelle que le contenu dupliqué, c’est mal. Pourtant, sa part progresse. Pourquoi ?

Car Google a parfois envoyé des signaux contradictoires. Matt Cutts, lorsqu’il était à la tête de la division anti-spam chez Google, confiait que le contenu dupliqué n’était pas un problème car Google savait le gérer et l’identifier. Faux. Google sait reconnaître le contenu dupliqué d’une façon non-intentionnelle : les pages de catégorie d’une boutique e-commerce au contenu très proche, des pages « légales » qui sont assez voisines. Mais il est fréquent de voir des sites qui se livrent à des pratiques irrespectueuses en matière de contenu être régulièrement bien rankés. Google en sait toujours plus, mais ne semble pas en faire toujours plus. Pourtant, le contenu unique est bien la voie à suivre. Même si le « duplicate content » peut booster le référencement d’un projet pendant un temps, c’est bien le contenu unique qui assure un positionnement durable. Oui, le référencement aussi doit s’envisager sous un nouveau jour, et devenir un « référencement durable ».