Référencement 2.0 : les bonnes feuilles - Pourquoi les moteurs indexent mal les sites dynamiques ?

Le fait que les urls dynamiques aient un format spécifique ne nous explique pas pourquoi elles sont refusées par les moteurs de recherche. Il y a en fait plusieurs explications à cela :

- Le nombre de pages créées à la volée par un site dynamique peut être quasi infini. En effet, prenez un catalogue du type de ceux d'Amazon ou de la Redoute, multipliez le nombre d'articles par le nombre d'options possibles (délai d'envoi, couleur, taille pour des vêtements, autres possibilités diverses et variées) et vous obtenez rapidement, pour un seul site, plusieurs centaines de milliers, voire millions de pages web potentielles présentant chaque produit de façon unique. Difficile, pour un moteur, de les indexer toutes ou, en cas contraire, de savoir où s'arrêter.

- Un site web dynamique a la possibilité de créer, en quelques secondes, des milliers de pages à la volée. Il s'agit également là d'un système à haut risque pour ce qui concerne le spam contre les moteurs. Dans ce cas, ces derniers se méfient et, parfois, optent pour l'option la moins risquée... Ils préfèrent ne prendre en compte aucune page plutôt que de courir le risque de devenir un réservoir à spam au travers de techniques de création incessante de pages... un peu trop optimisées...

- Une même page, proposant le même contenu, peut être accessible à l'aide de deux urls différentes (ce problème est notamment crucial en ce qui concerne les identifiants de session, voir plus loin). Cela risque d'être problématique pour un moteur, qui devra alors mettre en place des procédures de dédoublonnage qui peuvent s'avérer complexes...

- La longueur excessive de certaines urls, passant de nombreux paramètres, peut également poser des problèmes aux moteurs. D'autre part, certains caractères apparaissant dans ces adresses (#, {, [, |, @, etc.) peuvent parfois être bloquants, tout comme les lettres accentuées, peu fréquentes dans les urls statiques, qui peuvent causer des soucis de codage.

Certains problèmes posés par les sites web dynamiques sont appelés spider traps : il s'agit de pages mal reconnues par les spiders des moteurs, qui s'y perdent parfois dans des boucles infinies et indexent alors des milliers de documents différents représentatifs de quelques pages web uniquement.

© Olivier Andrieu. Référencement 2.0. Abondance.com, 2006.

De la difficulté d'indexer les sites dynamiques