Si Internet est pour bon nombre
de chercheurs un facilitateur en cela qu'il simplifie
grandement la recherche d'information et leur évite
souvent de passer de longues heures à fureter dans
les rayons des bibliothèques universitaires, il
se révèle aussi être un casse-tête.
Deux scientifiques spécialisés en dermatologie
en ont fait l'expérience au cours d'une de leur
étude, relate le Washington Post dans son
édition de lundi 24 novembre. En voulant relayer
dans leurs notes de bas de pages et dans leur bibliographie
des adresses de sites Internet ou de pages utiles pour
la compréhension de leurs travaux, ils ont pu percevoir
à quel point le Web est éphémère.
La rédaction de cette étude ayant nécessité
deux ans de labeur, au terme de ce travail, la plupart
des liens cités étaient devenus erronés
: soit les sites avaient disparu, soit la localisation
des pages avait changé.
Fort
de ce constat, les deux hommes ont décidé
de scruter les notes de bas de pages présentes
dans trois journaux scientifiques majeurs. Ils ont testé
la validité des URL présentes trois, quinze
et vingt-sept mois après la publication des articles.
Les liens inactifs sont passés de 3,8 %
à 10 % puis 13 % à chacune de
ces trois périodes. Ce constat confirme une récente
étude qui indique qu'un cinquième des
adresses Web utilisées dans les rapports scientifiques
des lycéens américains disparaissent au
bout de douze mois.
Une autre enquête sur
fugacité des URL, publiée en janvier dernier,
souligne que 40 à 50 % des adresses référencées
dans les articles de deux journaux informatiques étaient
devenus inaccessibles en quatre ans. "C'est un
grave problème, a déclaré au Washington
Post Brewster Kahle, bibliothéquaire aux
achives Internet de San Fransisco et éditeur
de Archive.org. Le temps de vie moyen d'une page Web
est aujourd'hui de cent jours. Il n'est pas possible
de créer ainsi une culture."
Ce qui est surtout inquiétant,
c'est que les gens sont de plus en plus dépendants
du Web pour se tenir informés, notamment auprès
des services administratifs en ligne. Or, sur les 2.483
sites web que recense le gouvernement britannique, envrion
25 % changent leur URL chaque annnée, soit
parce que les fichiers sont supprimés ou parce
qu'ils sont déplacés.
Une "sauvegarde"
des pages disparues peut cependant être retrouvée
grâce à différents services présents
en ligne, à commencer par la fonction "cache"
de Google. Le site de Brewster Kahle, Archive.org, est
également une mine d'information. On peut ainsi
retrouver des éditions
du JDN datant d'avril 1999. Ce site a déjà
archivé 200 terabytes d'information (soit 200
milliards de bytes), l'équivalent de 200 millions
de livres. Chaque mois, 20 terabytes sont ajoutées
mais, comparées aux 7 millions de pages Web créées
chaque jour, il est indéniable qu'une large partie
du Net demeure éphémère.
Pour résoudre une partie
du problème, certains songent à attribuer
à chaque page une sorte de code barre unique
(DOI : Digital Object Identifier) qui permettrait
de la localiser même si elle change d'URL. A suivre.
|