Comparatif : quatre distributions Hadoop au crible Cloudera : une plateforme Big Data mature

Pionner du Big Data, Cloudera est aujourd'hui l'employeur de Doug Cutting, le créateur d'Hadoop. La société américaine a levé 900 millions de dollars en avril 2014, notamment auprès d'Intel, ce qui lui assure une confortable assise financière.

L'offre de Cloudera est probablement la solution Hadoop la plus mature du marché. Elle se compose de deux éditions, l'offre Express et l'offre Entreprise. La première est très limitée. L'éditeur n'assure un support que sur la seconde qui est sa version commerciale.

Une version maison du moteur Apache Solr

L'atout de la pile logicielle Cloudera : son interface unifiée de gestion, le Cloudera Manager. Il s'agit d'un outil propriétaire qui simplifie le déploiement des clusters Hadoop et assure un suivi des performances des nœuds de traitement. En version Entreprise, le Manager assure aussi les backups, reprises sur pannes, etc.

Avec Cloudera Search, l'offre dispose d'un moteur de requêtage spécifique parallélisé et temps réel pour les données stockées sur HDFS et Hbase. Il s'agit d'une version maison du moteur Apache Solr. En outre, la pile embarque les briques les plus performantes du moment que sont Impala et Spark notamment. Enfin, si l'éditeur a signé des partenariats avec IBM, HP, Oracle, Red Hat ou Microsoft, il reste peu présent dans l'Hexagone.

l'architecture de la distribution hadoop cloudera.
L'architecture de la distribution Hadoop Cloudera. © Cloudera