Cinq puissants moteurs de recherche open source Sphinx : indexer des milliards de documents

Moteur de recherche développé en C++, Sphinx est néanmoins disponible sur un grand nombre de plateformes, dont plusieurs Red Hat Enterprise Linux, Ubuntu et Debian, sur Windows 32 et 64 bits, et sur Mac OS X. Conçu pour la performance pure, Sphinx peut indexer des milliards de documents et des téraoctets de données en fonctionnant sur une ou plusieurs machines banalisées en mode distribué. L'éditeur revendique un débit de 10 à 15 Mbit/s par cœur de calcul et disque dur.

Créé par Andrew Aksyonoff et Peter Zaitsev, l'ex-responsable du groupe hautes-performances de MySQL AB, Sphinx fonctionne comme une base de données SQL, avec des schémas de données fixes. Il peut ainsi indexer en natif des bases de données SQL telle que MySQL, MariaDB, PostgreSQL ou toute autre base via ODBC. Il peut même jouer le rôle de moteur de stockage pour MySQL ou MariaDB. Outre ses API, Sphinx implémente un sous-ensemble du langage SQL, SphinxQL.

Sphinx en bref
Source : JDN
Langage C++
Plateformes supportées Linux, Windows, Mac OS et Solaris
Double licence GPL v2 ou commerciale
Interfaces SphinxAPI pour Java, PHP, Python, Perl, C, et JSON - qui est supporté depuis la version 2.1.1.
Principaux utilisateurs Craiglist, Dailymotion, Groupon, Tumblr
Points forts / Points faibles
Source : JDN
Points fortsVitesse d'indexation, adapté pour indexer le contenu de bases de données.
Points faiblesPas d'indexation des fichiers Microsoft Office par défaut, peu de dictionnaires de lemmatisation disponibles, communauté relativement restreinte.