Panorama des solutions de big data Les composants Hadoop au crible
HDFS (Hadoop Distributed File System) est le système de stockage primaire utilisé par les applications Hadoop. HDFS permet de gérer la réplication de multiples blocs de données et leur distribution sur les nœuds de calcul à travers un cluster pour permettre des calculs fiables et extrêmement rapides.
MapReduce est une plate-forme de programmation conçue pour écrire des applications permettant le traitement rapide et parallélisé de vastes quantités de données réparties sur plusieurs clusters de noeuds de calcul.
HBase est un système de gestion de base de données non relationnelle, distribuée et orientée colonnes, prenant pour modèle Big Table de Google.
HCatalog est une couche de métalangage permettant d'attaquer les données HDFS via des schémas de type tables de données en lecture/écriture.
Hive est un système d'entrepôt de données facilitant l'agrégation des données, les requêtes ad hoc, et l'analyse de grands ensembles de données stockées dans les systèmes de fichiers compatibles Hadoop. Hive dispose d'un langage de type SQL appelé HiveQL.
Pig est une plate-forme d'analyse de vastes ensembles de données. Pig comprend un langage de haut niveau gérant la parallélisation des traitements d'analyse.
Oozie est un outil de workflow dont l'objectif est de simplifier la coordination et la séquence de différents traitements. Le système permet aux utilisateurs de définir des actions et les dépendances entre ces actions.
ZooKeeper est un service centralisé pour gérer les informations de configuration, de nommage, et assurer la synchronisation des différents serveurs via un cluster. Tous les services pris en charge par ZooKeeper peuvent être utilisés sous une forme ou une autre par les applications distribuées.