Comparatif : 4 offres de Big Data dans le cloud Amazon EMR, la prime au pionnier

Amazon Web Services a été le premier, en 2009, à proposer une offre de Big Data as a Service (BSaaS). Baptisé Amazon Elastic MapReduce (EMR), elle génère des clusters dont les données sont stockées sur Amazon S3 et provisionnés sur des instances EC2. Cette antériorité en matière de BSaaS offre à Amazon un périmètre fonctionnel inégalé.

EMR couvre quasiment tout le catalogue des outils open source de l'écosystème Hadoop. Il permet par exemple de recourir au moteur d'exécution Tez (qui peut être utilisé à la place de MapReduce), à Spark pour le traitement en mémoire, à Presto pour les requêtes SQL interactives, à Impala pour le requêtage en temps réel, au programmateur de flux de travail Oozie ou encore à l'entrepôt de données Hive. Les interfaces graphiques Hue et Zeppelin sont également présente à son portefeuille. Et la liste n'est pas exhaustive...

Une force : l'étendue fonctionnelle

"L'éventail de produits d'Amazon autour d'EMR est très complet. Il sera difficile pour les autres fournisseurs de le rattraper", estime Pablo Lopez chez Xebia. En matière de stockage, AWS offre également un choix plus étendu que Google ou Azure. Il fait appel au système de stockage distribué d'Hadoop, HDFS (Hadoop Distributed File System). Au-delà d'Amazon S3, il propose les bases NoSQL DynamoDB et HBase.

Enfin, EMR bénéficie de synergie avec d'autres services d'AWS comme l'outil décisionnel maison QuickSight, la plateforme AWS IoT ou encore Kinesis - centré, lui, sur le traitement du flux de données en temps réel.

Amazon EMR en bref

Points forts

Points faibles

- Le spectre des outils de l'écosystème Hadoop

- L'intégration aux autres services d'AWS

- La complexité tarifaire

- La facturation à l'heure