Comparatif Hadoop : Cloudera et Hortonworks font bloc face à MapR

Comparatif Hadoop : Cloudera et Hortonworks font bloc face à MapR Le match des principaux pure player d'Hadoop se limite à Cloudera, Hortonworks et MapR. Sachant que les deux premiers viennent de conclure un accord de fusion qui doit être bouclé début 2019.

En dix ans, Hadoop a connu une croissance exponentielle du nombre de ses services. Aux modules historiques du framework big data (gestionnaire de fichiers distribués HDFS, moteur Yarn et MapReduce pour le calcul réparti) sont venus se greffer de multiples composants visant à prendre en compte de nouvelles dimensions : traitement temps réel, machine learning... Avec cette inflation des composants, le déploiement d'Hadoop s'est complexifié. Il est rapidement apparu nécessaire pour les entreprises de disposer d'éditions packagées d'Hadoop, accompagnées d'outils d'administration, de sécurité, et de services d'accompagnement (support, conseil, formation).

Pour répondre à ces attentes, trois distributions commerciales d'Hadoop ont émergé : Cloudera, Hortonworks et MapR. Les éditeurs du même nom possèdent tous des bureaux en France, et équipent de grands noms du CAC40. Début octobre, les deux premiers annonçaient leur fusion. Valorisée à 5,2 milliards de dollars, l'opération doit être finalisée au premier trimestre 2019. Le nouvel ensemble représentera 720 millions de dollars de chiffre d'affaires. Les deux sociétés bénéficieront des spécificités de leurs offres respectives (voir le tableau ci-dessous). 

Comparatif des distributions des principaux pure player d'Hadoop
  Cloudera Hortonworks MapR
Année de création 2008 2011 2009
Positionnement Premier à avoir dégainé, Cloudera propose à côté du package Hadoop des outils pour faciliter configuration et administration. Hortonworks a fait le choix du "tout open source". Sa distribution ne comprend que des composants Apache.  Distribution la plus éloignée du projet Apache, qui s'appuie sur son propre système de gestion de fichiers
Points forts N°1 mondial, composants premium, configuration du cluster par cas d'usage Documentation riche, communauté dynamique, support de Windows, outil de sécurité performant Rapidité, robustesse et performance de la plateforme
Points faibles Plus lent que MapR, orientation grands comptes Plus lent que MapR, et manque de stabilité Coût relativement élevé, interface austère, absence d'outil de sécurité
Offres et tarifs Une édition gratuite, quatre versions payantes. Licence tarifée au nœud. De 4 000 à 10 000 dollars par an.  HDP (Hortonworks Data Platform) et HDF (Hortonworks DataFlow). Seul le support est payant. Une édition gratuite (Converged Community), une payante (Converged Enterprise). Licence tarifée au nœud.
Partenaires Oracle, HPE, NetApp, Intel et Cisco Red Hat, Microsoft, SAP et Teradata EMC, Google, Cisco et Amazon Web Services
Références en France Axa, PMU, Faurecia, Solocal, Saint-Gobain EDF, BNP Paribas, Société Générale, Banque de France Darty, Crédit Agricole, Cdiscount

Fondé en 2008 par des ingénieurs de Yahoo, Google et Facebook, Cloudera a été le premier à commercialiser une distribution Hadoop. Autre gage de légitimité, l'éditeur américain a fait de Doug Cutting, cocréateur d'Hadoop, son architecte en chef. C'est aussi la distribution Hadoop la plus utilisée dans le monde, mais pas en France où elle se classe jusqu'ici deuxième derrière Hortonworks.

Cloudera, prime au pionnier

Aux côtés de son édition gratuite, Cloudera propose des extensions payantes pour gérer les déploiements, la configuration, la sécurité. Dans ses déclinaisons payantes, on retrouve Cloudera Manager, une console d'administration qui automatise le déploiement et la supervision des clusters Hadoop, ou encore Cloudera Director qui gère les déploiements sur les clouds d'Amazon, de Microsoft et de Google. Autres modules commerciaux, Cloudera Navigator trace les différents statuts de la donnée et les traitements réalisés, et Cloudera Altus permet de designer les clusters pour des cas d'usage précis (BI, machine learning...), avec Spark par exemple et des librairies adaptées. "C'est important que les utilisateurs retrouvent leurs outils familiers, comme un outil de requêtage SQL pour les spécialistes de la BI, les langages Python ou Jupiter pour les data scientists", estime Mohamed Benaissa, big data solution architect chez Umanis, une société de services française experte en big data. Pour la data science, Cloudera propose une solution clés en main avec Data Scientist Workbench, et supporte le framework TensorFlow côté deep learning.

Pour Benoît Petitpas, expert big data pour l'ESN française SQLI, Cloudera est le meilleur compromis prix-performances. "La solution séduira les équipes métiers notamment grâce à son outil de requêtage SQL Impala, et l'interface Hue qui permet de naviguer dans les données, créer des modèles." Pour David Chassan, directeur de la communication pour le cloud français Outscale, la mise en place de la solution pour une PME s'avère compliquée. "Elle nécessite une équipe IT dédiée avec un savoir-faire dans l'administration de systèmes et de bases de données", argue-t-il

Hortonworks, le 100% open source

Numéro un d'Hadoop en France, Hortonworks est une spin-off de Yahoo et Benchmark Capital créée en 2011. Bien qu'il s'agisse de la dernière distribution en date, c'est aussi la plus fidèle au projet original. Elle est restée 100% open source et ne comprend que des composants Apache. "C'est la seule offre gratuite utilisable en production", précise Christophe Parageaud, expert en big data pour le cabinet de conseils Ippon Technologies. "Cloudera comme MapR  disposent certes eux-aussi d'éditions gratuites, mais qui manquent d'outils ou imposent une limitation en termes de nœuds."

Autre avantage du "tout open source", Hortonworks propose une importante documentation et une communauté de contributeurs dynamique. Alors que ses concurrents ne fonctionnent que sous Linux, Hortonworks supporte aussi Windows. "Avec ces atouts, Hortonworks convient à la fois aux grandes entreprises qui entendent profiter de l'agilité de l'open source et aux PME-PMI qui souhaitent s'initier au big data sans casser leur tire-lire", reconnaît David Chassan.

En termes d'administration, de supervision, de gouvernance, Hortonworks propose des outils équivalents à ceux de Cloudera mais issus du monde Apache (Apache Ambari, Apache Atla...). L'outil de requêtage SQL proposé, Hive, est en revanche à la traîne par rapport à Impala. Un retard qu'Apache Drill permet en partie de compenser.

Pour Mohamed Benaissa, Hortonworks se distingue sur la sécurité. "L'outil Ranger gère de façon centralisée l'authentification et les droits d'accès des différents outils Hadoop d'un utilisateur ou d'une application. On peut ainsi appliquer des paterns de sécurité", explique-t-il. Mohamed Benaissa salue également l'existence d'Hortonworks DataFlow, une plateforme de streaming temps réel basée sur Spark et Storm. Côté point faible, Benoît Petitpas pointe le manque de stabilité d'Hortonworks. "C'est la distribution qui plante le plus. Il faut la redémarrer quand des nœuds tombent, des outils crashent ou lors de changement de versions", souligne l'architecte data.

MapR pour la robustesse

Quant à MapR, c'est la distribution la plus éloignée du projet Apache initial. Elle a notamment pour particularité d'utiliser son propre système de gestion de fichiers distribués, MapR-FS, en lieu et place du HDFS d'Hadoop. MapR s'appuie aussi sur un moteur propriétaire de streaming d'événements (MapR-ES) et sur sa propre base en colonnes (MapR-DB). Fondé par des spécialistes du stockage distribué, MapR a particulièrement optimisé la performance de sa plateforme. "Ils ont essayé de gommer tous les défauts d'Hadoop", insiste Benoît Petitpas. "Cette distribution ne repose pas sur le une architecture maitre-esclave comme Cloudera et Hortonworks. Elle découpe les fichiers et les répliquent sur plusieurs nœuds voire plusieurs clusters." Alors que HDFS se structure en blocs de données de 128 Mo, ces chunks MapR-FS se limitent à 8 ko. Benoît Petitpas rappelle que l'environnement a été codé en C et non en Java comme Hadoop. Plus résilient aux pannes, MapR se montre en outre plus rapide que ses concurrents. Au-delà de la gestion temps réel, le framework permet par ailleurs d'orchestrer des containers Docker sur un cluster en s'adossant à Kubernetes.

Revers à la médaille, l'interface de MapR est austère. "Ce qui peut poser un problème d'appropriation côté métiers", relève Benoît Petitpas. Autre point faible : l'absence d'outils de sécurité. Contrairement à Hortonworks, l'éloignement avec Hadoop peut également créer un décalage entre la sortie d'une nouvelle version et sa prise en compte par le produit. "La version 3 d'Hadoop lancée fin 2017 n'est toujours pas supportée par MapR ", déplore Christophe Parageaud. Last but not least, MapR est aussi la distribution la plus chère avec un paiement au nœud, ce qui la rend d'ailleurs moins présente sur le marché français. A noter qu'Outscale a noué un partenariat avec MapR pour déployer son offre sous forme de big data as a service.