Aurweb
: la recherche en texte intégral et à budget
réduit
La
consultation et la production doivent constituer des fonctions
distinctes
sur un site afin de garantir la performance des recherches.
En partant de ce principe, l'éditeur Auracom
propose son moteur Aurweb qui réalise la consultation des
données sans interfaçage aux outils de production. Issu du
monde du vidéotex, Michel Martinez, le concepteur du
moteur, estime que la mise en oeuvre de son outil est immédiate,
qu'elle ne nécessite aucun travail d'ingénierie.
Ce moteur se positionnerait ainsi comme une solution plus
avantageuse (même si la puissance est plus limitée)
qu'Oracle, Fulcrum ou Verity avec un coût d'acquisistion
réduit: de l'ordre de 40.000 F pour la licence d'utilisation
et un coût fractionné pour les hébergeurs
qui en font un usage parcellaire. "Et pas de coût
de fonctionnement, de programmation ou de facturation au nombre
d'accès qui peuvent alourdir la facture jusqu'au million
de francs", précise Michel Martinez.
L'outil indexe des données provenant de fichiers ASCII
ou ANSI ou de fichiers HTML exportés vers le moteur
d'indexation. Aurweb n'est pas interfacé avec un SGBD. Il
contient son propre système d'indexation. Les temps de réponse
sont
optimisés grâce à la mise à jour
différée des données qui sont triées
dans le fichier d'index et seraient donc disponibles plus
rapidement qu'avec des solutions concurrentes.
La mise à jour peut s'opérer la nuit ou à
des fréquences beaucoup plus espacées selon
les besoins du gestionnaire du site.
La seule manipulation consiste à remanier la charte
graphique générée par défaut qui
ne s'avère pas très conviviale. Les modes de
recherches vont de la recherche simple de données dynamiques
sous forme de fiches ou de listes à la recherche multi-critère
via le renseignement de champs par des listes déroulantes
ou des mots clés. Il est aussi possible de mettre en
place des dispositifs de consultation assez élaborés
avec une grille de recherche sur la gauche de l'écran
par exemple et les résultats à droite précisant
le nombre de réponses par champ et permettant d'affiner
la recherche suite à ces résultats (voir bulletin
analytique de l'Histoire Romaine). En mode full-text (c'est-à-dire
en texte non structuré), le moteur est capable d'extraire
des titres et des phrases à la volée en fonction
du contenu ou du contexte, et ce sur n'importe quel fichier."Cette
méthodologie (adoptée notamment sur le site
du cahier
des doléances) permet de découvrir le contenu
de façon dynamique, ce qui facilite sa recherche quand
on ne connaît pas précisément le contenu
d'un site", explique Michel Martinez. Il est aussi possible
de coupler des fiches signalétiques documentaires comme
cela a été effectué sur le site de l'Elysée
qui interroge simultanément les 1.500 discours, les communiqués
et les pages du site. La solution s'installe derrière
la couche HTTP et s'apparente à un script CGI, de taille
inférieure à 150 ko (sous Windows/NT). [Alexandra
Bissé, JI]
|
|