Cinq puissants moteurs de recherche open source Sphinx : indexer des milliards de documents
Moteur de recherche développé en C++, Sphinx est néanmoins disponible sur un grand nombre de plateformes, dont plusieurs Red Hat Enterprise Linux, Ubuntu et Debian, sur Windows 32 et 64 bits, et sur Mac OS X. Conçu pour la performance pure, Sphinx peut indexer des milliards de documents et des téraoctets de données en fonctionnant sur une ou plusieurs machines banalisées en mode distribué. L'éditeur revendique un débit de 10 à 15 Mbit/s par cœur de calcul et disque dur.
Créé par Andrew Aksyonoff et Peter Zaitsev, l'ex-responsable du groupe hautes-performances de MySQL AB, Sphinx fonctionne comme une base de données SQL, avec des schémas de données fixes. Il peut ainsi indexer en natif des bases de données SQL telle que MySQL, MariaDB, PostgreSQL ou toute autre base via ODBC. Il peut même jouer le rôle de moteur de stockage pour MySQL ou MariaDB. Outre ses API, Sphinx implémente un sous-ensemble du langage SQL, SphinxQL.
Source : JDN | |
Langage | C++ |
Plateformes supportées | Linux, Windows, Mac OS et Solaris |
Double licence | GPL v2 ou commerciale |
Interfaces | SphinxAPI pour Java, PHP, Python, Perl, C, et JSON - qui est supporté depuis la version 2.1.1. |
Principaux utilisateurs | Craiglist, Dailymotion, Groupon, Tumblr |
Source : JDN | |
Points forts | Vitesse d'indexation, adapté pour indexer le contenu de bases de données. |
Points faibles | Pas d'indexation des fichiers Microsoft Office par défaut, peu de dictionnaires de lemmatisation disponibles, communauté relativement restreinte. |