27/07/01
Atomz,
un moteur de recherche en mode ASP
Utilisé par près
de 450 000 sites Web dans le monde, Atomz
occupe un créneau bien particulier dans la sphère
des solutions de recherche. Loin des logiciels diffusés
sous licences définitives, l'éditeur américain
propose une application en mode hébergé.
Disponible sous forme d'abonnement (fonction du nombre
de pages à indexer), elle est conçue à
l'origine pour s'intégrer à un site Web.
"Depuis, nous avons étendu nos capacités
de connexion à des réseaux privés
virtuels (VPN), ce qui nous permet de répondre
à des problématiques de type intranet",
précise Steve Weeks, responsable commercial de
la société.
Une indexation "plein
texte" des sites Web
Lancé
en juin 1999, le moteur présente toutes les caractéristiques
d'une solution de recherche de type plein texte. Capable
de prendre en compte aussi bien le corps des documents
que leurs méta données (titre, auteur,
etc.), il effectue également des recherches au
sein même des bases de données - et ceci
quelque soit la technologie sous-jacente (Orcale, SQL
Server, etc.). "Pour ce faire, nous nous appuyons
sur un système de requêtes HTTP",
explique le porte-parole de la société.
"Et s'il s'agit de base SQL, le visiteur pourra
alors lancer des demandes dans le format correspondant".
Assurant déjà le support des requêtes
Internet ("-", "+", etc.), le module
n'intègre pas encore le vocabulaire booléen
("and", "or", etc.). "Mais,
c'est prévu", promet-on chez Atomz. Parmi
les formats qui entrent dans son rayon d'action, Atomz
Search compte aussi bien les fichiers
HTML que Word ou PDF. Sans compter l'indexation des
mots clés attachés aux documents audio
en MP3.
Un mode de recherche en langage
naturel
Au-delà de son système d'indexation, Atomz
propose également des fonctions lui permettant
de jouer dans la cour des grands. A savoir : les
solutions de recherche en langage naturel. Il intègre
en effet des processus
d'analyse linguistique pour une quinzaine de langues
(dont l'anglais, le français, l'allemand, l'espagnol
et l'italien), l'éditeur travaillant actuellement
au support des langues à caractères spéciaux
(le japonais notamment). Pour l'heure, le moteur assure
la reconnaissance des singuliers et des pluriels, et
celle des lettres accentuées. "Dans la version
Entreprise, les dictionnaires de base sont complétés
par des thésaurus", ajoute Stephanie Kaul,
responsable produit de la société. Grâce
à cette technique, les administrateurs ont la
possibilité d'élaborer une structure hiérarchique
de termes parents/enfants afin de mettre en relation
termes connexes et synonymes
- notamment en vue de définir une mode de recherche
relatif à une thématique particulière.
Un rapport d'audience généré en
temps réel fournit quant à lui statistiques
d'audience et mots clés utilisés. "Un
outil très utile pour affiner le thésaurus",
souligne Stephanie Kaul.
La gestion de la montée
en charge à l'honneur
"Le
principal avantage de notre solution, comparée
à des produits comme Verity, Autonomy ou Hummingbird,
réside dans son mode d'utilisation (ASP)",
soutiennent de concert les deux responsables. Nécessitant
des compétences de webmaster, l'intégration
du service à l'interface finale ne demande que
quelques minutes. Développée à
100% en interne, la plate-forme serveur d'Atomz repose
sur une architecture en grappe, intégrant des
fonctions d'équilibrage de charge et de réplication
d'index. "Ce qui nous permet d'assurer des taux
de disponibilité de l'ordre de 99,9 %, et
des capacités de montée en charge de 400
requêtes simultanées par seconde",
assure Steve Weeks. Une audience que la firme aurait
atteint sur le site de CBS lors des précédentes
élections présidentielles aux Etats-Unis.
Parmi ses principaux clients, Atomz compte également
3M, ainsi que le site général de Macromedia.
|