|
Le fait que les urls dynamiques aient un format spécifique ne nous explique pas
pourquoi elles sont refusées par les moteurs de recherche. Il y a en fait plusieurs
explications à cela :
- Le nombre de pages créées à la volée par un site dynamique peut être quasi
infini. En effet, prenez un catalogue du type de ceux d'Amazon ou de la Redoute,
multipliez le nombre d'articles par le nombre d'options possibles (délai d'envoi, couleur,
taille pour des vêtements, autres possibilités diverses et variées) et vous obtenez
rapidement, pour un seul site, plusieurs centaines de milliers, voire millions de
pages web potentielles présentant chaque produit de façon unique. Difficile, pour
un moteur, de les indexer toutes ou, en cas contraire, de savoir où s'arrêter.
- Un site web dynamique a la possibilité de créer, en quelques secondes, des milliers
de pages à la volée. Il s'agit également là d'un système à haut risque pour ce
qui concerne le spam contre les moteurs. Dans ce cas, ces derniers se méfient et,
parfois, optent pour l'option la moins risquée... Ils préfèrent ne prendre en compte
aucune page plutôt que de courir le risque de devenir un réservoir à spam au travers
de techniques de création incessante de pages... un peu trop optimisées...
- Une même page, proposant le même contenu, peut être accessible à l'aide de
deux urls différentes (ce problème est notamment crucial en ce qui concerne les
identifiants de session, voir plus loin). Cela risque d'être problématique pour un
moteur, qui devra alors mettre en place des procédures de dédoublonnage qui
peuvent s'avérer complexes...
- La longueur excessive de certaines urls, passant de nombreux paramètres, peut
également poser des problèmes aux moteurs. D'autre part, certains caractères
apparaissant dans ces adresses (#, {, [, |, @, etc.) peuvent parfois être bloquants,
tout comme les lettres accentuées, peu fréquentes dans les urls statiques, qui peuvent
causer des soucis de codage.
Certains problèmes posés par les sites web dynamiques sont appelés spider
traps : il s'agit de pages mal reconnues par les spiders des moteurs, qui s'y perdent
parfois dans des boucles infinies et indexent alors des milliers de documents
différents représentatifs de quelques pages web uniquement.
© Olivier Andrieu. Référencement 2.0. Abondance.com, 2006.
|
|