|
|
|
|
Voyage au coeur de la mémoire du Web |
L'archivage de l'Internet est un défi technologique majeur. La France, un des pays les plus engagés dans ce travail de collecte, a confié cette mission à la Bibliothèque nationale de France depuis 1998. Reportage.
(22/05/2006) |
|
|
|
En
savoir plus |
"Sont soumis au dépôt
légal les signes, signaux, écrits, images, sons ou messages
de toute nature faisant l'objet d'une communication au
public par voie électronique."
Projet de loi relatif au droit d'auteur et aux droits
voisins dans la société de l'information, Titre IV, "Dépôt
légal", article 21. |
La loi
DADVSI, actuellement en seconde lecture à l'Assemblée nationale,
prévoit une exception au profit des organismes en charge du
dépôt légal. Le choix du législateur d'intégrer l'archivage
de la Toile au dispositif juridique du dépôt légal s'inscrit
dans la tradition française visant à enrichir et étendre à tout
nouveau support les collections patrimoniales. L'essentiel de
cette mission revient à la Bibliothèque nationale de France (BNF),
hormis les sites administratifs et gouvernementaux - qui
relèvent des Archives nationales - et les sites audiovisuels,
confiés à l'INA (Institut national de l'audiovisuel).
En charge du dépôt légal des imprimés depuis François 1er, puis
progressivement à travers les siècles des estampes, des partitions
musicales, des photographies, depuis 1975 des documents multimédia
et depuis 1992 des produits électroniques, la BNF n'aura pas
attendu le vote de la loi DADVSI pour s'attaquer à l'Internet français. Car le travail est titanesque : les archives
d'Internet, même réduites à leur portion "d'intérêt national",
constituent un défi technologique du fait de leur masse, de
leur architecture et de leur temporalité.
Depuis maintenant huit ans, la BNF mène des tests et des expérimentations
de capture, stockage, conservation et visualisation des contenus
produits et diffusés sur la Toile française. La BNF a adopté
une démarche qui conjugue trois modes de collecte : des
collectes massives et automatiques réalisées au moyen de robots,
des collectes thématiques et événementielles et la mise en place
d'un circuit de dépôts à l'unité pour un nombre limité de sites
qui ne peuvent être archivés autrement.
Plus
de six milliards de fichiers |
A ce jour, les données collectées par la BNF représentent un
volume de 60 Teraoctets (60.000 Gigaoctets), soit plus de six
milliards de fichiers URL, stockés sur une tour de deux mètres
de hauteur : la Pétabox. Intégrant les serveurs des disques
durs comportant des données, leur index et un logiciel d'accès,
la Pétabox dispose d'une capacité de mémoire de plus d'un million
de Gigaoctets.
Les collectes automatiques sont effectuées en partenariat avec
l'organisme américain à but non lucratif Internet Archive, pionnier
- dès 1996 - dans l'archivage de la Toile mondiale. Les données
collectées sont transportées par avion depuis le siège d'Internet
Archive à San Francisco jusque dans les sous-sols de la BNF.
Le chantier prioritaire de l'Institution en 2006 est de réaliser
sa propore structure de collecte. Un projet doté d'un budget
annuel de 200.000 euros. |
|
|