Comparatif : quatre distributions Hadoop au crible Pivotal Data Suite : une offre attractive en termes de prix

"Start-up" créée par EMC et VMware, Pivotal aborde le marché du Big Data avec une offre, baptisée Pivotal Big Data Suite, qui marie des briques open source et des composants développés par Greenplum. EMC avait racheté ce spécialiste des bases de données hautes performances en 2010. L'offre inclut Apache Hadoop avec son système de fichiers distribué HDFS, le framework Map/Reduce, Hive, Pig, HBase, Zookeeper, Yarn et Mahout.

Des bibliothèques d'algorithmes préconfigurés

A ces composants open source, EMC a donc ajouté du code propriétaire venant de chez Greenplum dont Hawq, une base de données SQL qui s'appuie sur HDFS. La maitrise des environnements MPP par les équipes de Greenplum permettent à cette base d'afficher des performances très élevées en interrogation, des performances supérieures à Hive selon ses concepteurs. En parallèle à Hawq, Pivotal Big Data Suite intègre GemFire. Il s'agit de la technologie in-memory de l'éditeur. C'est la brique à exploiter pour donner les moyens aux utilisateurs de réaliser des requêtes temps réel sur le cluster Hadoop.

Enfin, autre atout de l'offre Big Data Pivotal, l'éditeur fournit des bibliothèques d'algorithmes préconfigurés pour les processus analytiques. Performante et riche fonctionnellement, l'offre Pivotal Big Data Suite a de quoi séduire, d'autant que l'éditeur mène une politique de prise de parts de marché extrêmement agressive. Son mode de licencing s'avère très souple grâce à une notion d'abonnement illimité. Reste à l'éditeur à poursuivre ses efforts dans l'intégration de ces différentes briques. Une solution à suivre.

architecture de la distribution hadoop pivotal data suite.
Architecture de la distribution Hadoop Pivotal Data Suite. © Pivotal

EMC / Big Data