Cinq puissants moteurs de recherche open source Xapian : jusqu'à 4 milliards de documents indexés

Issu de Muscat et Open Muscat, un projet initié par l'Université de Cambridge, Xapian est publié sous licence GPL. Ce moteur est populaire dans le milieu universitaire et très utilisé par les bibliothèques. Il est possible d'avoir un support commercial du moteur auprès de trois sociétés de services, toutes anglaises. Utilisant des identifiants de documents sur 32 bits, Xapian ne peut indexer plus de 4 milliards de documents par base de données. Raison pour laquelle le moteur ne sera pas adapté aux applications Big Data, ce qui explique son absence chez les géants du Web.

Le module d'indexation supporte les principaux types de fichier bureautique dont ceux d'OpenOffice/StarOffice, OpenDocument et de la suite Microsoft Office, ainsi que HTML, PHP, PDF, PostScript. Le module Perl DBI donne à l'indexeur accès aux contenus des bases SQL du marché. Xapian n'en présente pas moins des fonctions linguistiques intéressantes, dont une recherche par proximité, le support des synonymes, le stemming (racinisation) pour de multiples langues, dont le français, ou encore l'usage de métacaractères (wildcards) et d'opérateurs booléens dans les requêtes de recherche. Enfin, Xapian autorise la recherche par facettes.

Xapian en bref
Source : JDN
Licence GPL et MIT/X
Language C++
Plateformes Windows, Mac OS X, Linux Debian, Ubuntu, Fedora, Red Hat Enterprise Linux, Slackware, FreeBSD, NetBSD, OpenBSD, HP-UX, Tru64, IRIX
Interfaces / langagesSupport de Python, PHP, Ruby, C#
Principaux utilisateurs Debian, Die Zeit, Delicious, One Laptop per Child


Points forts / Points faibles
Source : JDN
Points fortsOutils de recherches puissants pour l'utilisateur, portable sur de multiples plateformes.
Points faiblesCommunauté restreinte, limité à... 4 milliards de documents