ANALYSE 
Sommaire Infrastructure 
Les bibliothèques numériques face aux contraintes techniques
Réveillés par Google à grands renforts de publicité, les grands projets de numérisation de documents en masse rentrent en phase industrielle. Mais les coûts restent pour le moment très élevés.   (30/01/2006)
  En savoir plus
Dossier Numériser, gérer et publier ses contenus
Fin 2004, Google défrayait la chronique par l'annonce de son projet de bibliothèque numérique (Google Book Search). Un projet dont l'ambition est de mettre en ligne, à la disposition de tous, 15 millions d'ouvrages, en les numérisant.

L'ouverture de la version béta s'est faite mi-2005. D'une durée prévisionnelle de six ans, ce projet pourrait coûter au moteur de recherche jusqu'à 200 millions de dollars.

Au-delà du projet de Google, la création de bibliothèques numériques rentre dans des problématiques plus larges, liées à la préservation du savoir et du patrimoine intellectuel. Les projets sont nombreux à travers le monde. Celui de la BNF (Bibliothèque nationale de France) porte le nom de Gallica ; il donne accès à 70 000 ouvrages numérisés et à plus de 80 000 images.

Dans la perspective de créer une véritable bibliothèque numérique, les documents de Gallica devront cependant être au préalable convertis en mode texte (mode OCR) par un procédé optique de reconnaissance des caractères. Cela permettra par la suite de réaliser des recherches plus fines dans ces documents.

Citons également la bibliothèque de Voltaire, projet commun entre la BNF et la Bibliothèque nationale de Russie, visant à mettre en valeur la bibliothèque de... Voltaire, conservée en Russie. La Bibliothèque des rapports publics regroupe quant à elle le texte intégral de rapports sur tous les thèmes de l'action publique (rapports officiels commandés par le gouvernement, rapports d'activité des institutions administratives, des hautes juridictions, etc.).

A noter aussi le projet Amalfi (Alsace-Moselle Application pour un Livre Foncier Informatisé) - en cours de réalisation - qui consiste à numériser 40 000 ouvrages du Livre Foncier d'Alsace-Moselle sur une durée de 4 ans. Ces ouvrages remplacent la conservation des hypothèques en vigueur ailleurs en France et ce, depuis 1891. Coût total de l'opération : 60 millions d'euros, dont 23 pour la seule numérisation / reprise des données. Les scanners sélectionnés sont ceux de la société bordelaise i2S.

Si les projets sont nombreux, les contraintes techniques sont multiples
Enfin, citons le projet - en gestation - de Bibliothèque numérique européenne, lancé par Jacques Chirac en réponse à Google. Il a déjà rallié 23 bibliothèques nationales de l'Union européenne à sa cause.

Si les projets sont nombreux, les contraintes techniques sont multiples. La numérisation d'ouvrages ou de documents en masse, dont certains peuvent être très anciens, doit en effet répondre à certains prérequis.

Il faut tout d'abord investir dans des machines spécialisées, capables de numériser plusieurs milliers de pages à l'heure. Le scanner tourne-page de Kirtas peut, par exemple, sur des livres anciens, numériser 2 400 pages à l'heure, en noir & blanc ou en couleur. Ceux de la gamme Digitizing Line d'i2S peut atteindre 3 000 pages par heure. Qui plus, ces machines peuvent fonctionner en lumière ambiante ce qui est adapté aux livres très anciens.

Le scanner tourne-page
Kirtas BookScan APT 1200/2400

"Sur le projet Amalfi, nous numérisons 50 000 pages par jour, avec quatre machines. Ces machines coûtaient 300 000 euros pièce il y a plus de deux ans maintenant", déclare Christophe Rouesné, ingénieur d'affaires chez Infotechnique, filiale de Getronics spécialisée dans la numérisation de documents.

Avec IBM, Infotechnique a été chargée par le Ministère de la Justice et les élus du Bas-Rhin, du Haut-Rhin et de la Moselle de ce projet. Les 32 millions de pages à numériser représentent 320 To d'images TIFF produites en quatre ans.

Le centre de production Eurodema à La Walck (67)
dédié au projet Amalfi. Les scanners sont ceux de la société bordelaise i2S.

Une fois les images créées à partir des documents physiques, viennent les phases de traitement de l'image et de reconnaissance optique des caractères (OCR). Selon les critères de qualité voulus par le cahier des charges, les coûts et temps nécessaires à ces deux opérations ne sont pas du tout les mêmes.

"Le traitement de l'image consiste à la découper et à la redresser, les fonds des livres étant souvent de couleur crème ou beige. Il faut donc les convertir en noir et blanc. Si cela n'est pas fait proprement, la qualité de l'image initiale peut être détruite, tout comme la qualité du texte peut être affectée, ce qui affecte ensuite l'OCR. C'est une réaction en chaîne", détaille Lotfi Belhir, fondateur et P-DG de Kirtas Technologies.

La reconnaissance du texte s'accompagne de la définition du format du document. Un logiciel performant doit pouvoir donner ces sorties de format pour pouvoir utiliser le livre de plusieurs manières : en PDF pour l'imprimer, en XML, en texte ASCII, etc. "Tout cela doit être planifié car, une fois que l'OCR a été réalisé et que le format a été choisi, il est difficile de changer la donne, surtout sur des millions de livres", complète Lotfi Belhir.

Sans standard, la numérisation n'est pas
La question du stockage de toutes ces données est également critique. "Les documents audiovisuels représentent actuellement 80% des volumes mis à disposition des internautes sur le site Gallica. A une échéance de 10 ans, il est fort probable que nous atteignons 1,8 petaoctets", note Laurent Duplouy, expert fonctionnel au sein du département des systèmes d'information de la BNF.

"Les axes sur lesquels nous travaillons, dans le cadre des grands projets actuels de bibliothèques numériques, touchent à la virtualisation du stockage, à des systèmes de surveillance très sains - pour l'archivage -, aucune perte n'étant acceptable. Il faut de plus prévoir les migrations des technologies ou la mise à jour des supports car nous raisonnons à 70 ans, quand les droits seront levés, c'est une approche du patrimoine à long terme", ajoute Laurent Duplouy.

Enfin, la question des standards se pose, aucune norme précise n'ayant été clairement définie jusqu'à présent. Google œuvre de son côté avec son projet "Google Book Search". En riposte à Google, l'Open Content Alliance, qui regroupe Yahoo!, Microsoft, Internet Archive, HP et Adobe notamment, a été créée.

  En savoir plus
Dossier Numériser, gérer et publier ses contenus
La bataille entre ces deux groupes s'annonce intéressante, mais débouchera-t-elle sur des standards communs ? Rien n'est moins sûr à court terrme. "La numérisation sans standard équivaut à une absence de numérisation", rappelle, en conclusion, Lotfi Belhir.

Fabrice DEBLOCK, JDN Solutions Sommaire Infrastructure
 
Accueil | Haut de page
 
 

  Nouvelles offres d'emploi   sur Emploi Center
Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Toutes nos newsletters