16/11/01
Albert
couple assistant de requête et indexeur
Les éditeurs d'outils
de recherche rivalisent d'inventivité dans la conception
d'opérateurs qui se veulent tous plus efficaces
les uns que les autres. Requêtes booléennes
(or, and,...) et internet (+, -,...), sans compter les
fonctions relationnelles, structurelles, de proximité
(etc.): les utilisateurs non-spécialisés
s'y perdent dans ce foisonnement de possibilités.
Malheureusement, c'est bel et bien à eux que
s'adressent le plus souvent les moteurs de recherche
ou d'indexation, et pas seulement aux professionnels
de la gestion documentaire et autres linguistes. Un
paradoxe que le suisse Albert
compte contribuer à effacer en lançant
une application qu'il définit comme "un
outil d'accès à l'information".
Lancé en mars 1999, l'éditeur helvétique
vient tout juste de conclure une période de 2
ans consacrée exclusivement au développement
puis au test
de sa technologie. Pour l'heure, deux filiales destinées
à la commercialisation de ses produits phares
ont d'ores et déjà été lancées
aux Etats-Unis et en Angleterre.
"Leur équivalent français est inauguré
aujourd'hui", nous confie Alain Beauvieux, directeur
général de l'entité hexagonale. Nom de baptême:
Go Albert France.
L'analyse
des demandes utilisateur
Concrètement, Albert
propose d'ajouter une couche de traitement supplémentaire
aux moteurs de recherche existants. S'adaptant à
divers solutions de ce type disponibles sur le marché
(Verity, Fast, etc.), celle-ci se charge en fait d'analyser
la demande de l'utilisateur final afin de constituer
une requête qui soit compréhensible par
le système d'indexation sous-jacent. Bref, il
s'agit d'un assistant requêteur.
Baptisé Albert Meaning Interpreter (AMI), le
module d'Albert commence par analyser la suite de termes
constituant la requête initiale. Une opération
qui passe par l'identification des concepts qu'elle
contient (mots et expressions), ainsi que leurs contextes
d'utilisation possible au regard d'une base de connaissance
personnalisée -qui est livrée avec AMI.
En cas de terme inconnu, des fonctions de recherche
floue entrent alors en jeu. Reposant sur des méthodes
phonétiques et heuristiques, elles chercheront
à traquer les fautes de frappe ou d'orthographe.
"Afin de restreindre le nombre de résultats,
un poids plus important sera donné aux termes
également présents dans la base de connaissance",
commente Philippe Albert, directeur commercial de la
société. Au total, cette phase préalable
assure la prise en compte de toute requête en
langage naturel "saisie sans contrainte de mots,
d'expressions, de formulations ou d'orthographe".
La
traduction sous forme de requêtes complexes
S'appuyant
sur ce décryptage, AMI construit ensuite une
requête complexe adaptée au(x) moteur(s)
de recherche utilisé(s). Principal avantage:
la base de connaissance de l'utilisateur assure la prise
en compte d'un contexte de recherche spécifique.
"Si celle-ci contient le concept 'canne de golf',
le mot 'golf' sera alors associé au domaine sportif",
cite pour l'exemple Philippe Albert. Schématiquement,
la solution génère une chaîne de
concepts intégrant des opérateurs booléens
(mais pas uniquement). "Un poids plus ou moins
important sera éventuellement donné aux
différents termes", ajoute Philippe Albert.
En cas de besoin, une demande pourra également
donner lieu à diverses formulations afin d'interroger
plusieurs moteurs de recherche simultanément.
Au final, la solution rapporte les réponses fournies
par le moteur ou les moteurs (titres, résumé,
etc.), en effectuant une fusion des flux d'informations
dans le dernier cas. "Ces données viennent
alimenter les bases de connaissance et de profils, ce
qui permet au système de poursuivre son apprentissage",
complète le porte-parole.
Un
produit d'indexation complémentaire
Développée
en C++, le produit tourne sous le système d'exploitation
UNIX ou Linux. Stockant
les informations analysées dans une base de données
mySQL, il est opérable en mode HTTP via le serveur
Web Apache. L'interface client restitue les informations
en les agrégeant au sein de pages HTML générées
dynamiquement. Pour les autres types de documents (bureautique,
etc.), une adresse d'accès sera fournie. Affichant
des temps de calcule de 1/3 de seconde, les tests de
l'application auraient mis en valeur des capacités
de traitement de l'ordre de 4 à 5 requêtes
par seconde sur une machine mono-processeur.
Au côté d'Albert Meaning Interpreter ,
Albert propose également son propre moteur de
recherche. Un produit sur lequel AMI pourra s'appuyer
au même titre que les outils cités plus
haut. Reposant sur la même architecture, celui-ci
inclut des fonctions d'indexation plein texte traditionnelles.
"Mais pas seulement" pointe t-on chez l'éditeur.
Philippe Albert explique: "ce moteur est capable
de repérer les passages les plus représentatifs
d'un texte, en se basant notamment sur des règles grammaticales
et des technique d'analyse de concepts." Mais,
la principale originalité de la solution réside
sans doute dans sa capacité à coupler
divers documents, ou divers tables de bases de données".
Bref, il s'agit d'une fonction d'analyse croisée.
Au final, celle-ci permettra par exemple de fournir
des réponses (sous la forme de pages dynamiques
par exemple) associant divers sources.
Une
suite adaptée aux intranet comme aux sites Web
Albert a choisi de scinder son offre en deux éditions:
l'une destinée aux environnements internet, l'autre
aux intranets. Leur prix d'entrée respectifs
s'élèvent à 40 000 et 50 000
euros.
|