Big Data : comparatif des offres Hadoop en mode cloud Amazon EMR : MapR ou la distribution maison d'Amazon

C'est en avril 2009 qu'Amazon Web Services a dévoilé son offre "Hadoop as a Service". Baptisée Amazon Elastic MapReduce (EMR), celle-ci repose bien évidemment sur le services d'infrastructure (IaaS) de l'américain.

Le cluster Hadoop est provisionné sur des sessions Amazon EC2 tandis que les données sont puisées dans Amazon S3.

La base non relationnelle HBase, et la solution in-memory Spark

ecran de créations de processus mapreduce au sein de la console de gestion
Ecran de créations de processus MapReduce au sein de la console de gestion d'AWS. © Capture / JDN

Amazon s'est appuyé sur le framework Hadoop d'Apache pour mettre en place ce service.

Depuis, EMR s'est enrichi de multiples sources de données qui sont désormais disponibles dans AWS, de même que de nombreuses applications de l'écosystème Hadoop qui sont désormais supportées par le fournisseur américain. On peut notamment noter l'outil de requêtage en temps réel Impala, la base non relationnelle HBase, la solution d'exécution en mémoire Spark et son datawarehouse associé Shark, le langage R, etc.

Les outils d'administration en ligne permettent bien évidemment de choisir les types d'instances EC2 qui vont constituer le cluster. Le fonctionnement de ce dernier est monitoré via l'outil Amazon CloudWatch. A noter, Hadoop Streaming, supporté par EMR, permet de développer des exécutables MapReduce dans d'autres langages que Java. Enfin, Amazon donne le choix d'utiliser sur Amazon EMR soit sa distribution Hadoop soit celle fournie par MapR.