Hadoop 2 : l'infrastructure Big Data passe à la vitesse supérieure

La version 2 de l'infrastructure de Big Data open source est disponible. Au programme : la possibilité d'exécuter sur un cluster de données plusieurs applications de traitement en simultané.

La fondation Apache vient de lever le voile sur Hadoop 2. Conçu pour les projets de Big Data et l'orchestration de traitements de données distribuées en clusters, le framework permet désormais d'exécuter plusieurs applications en simultané. Objectif : améliorer les performances d'exécution des analyses réparties.

Pour l'occasion, la solution open source, notamment portée par Yahoo!, introduit une nouvelle version de MapReduce : son environnement de programmation de traitements distribués et parallélisés. Rebaptisée pour l'occasion YARN (pour Yet Another Resource Negotiator), cette mouture découpe dès lors les fonctions en deux démons : l'un regroupant le management des ressources, l'autre le monitoring et l'ordonnancement des tâches.

Et c'est bien grâce à sa nouvelle architecture qu'Hadoop peut d'exécuter de multiples applications sur son système de fichiers distribués HDFS (Hadoop Distributed File System). "Les utilisateurs pourront ainsi mixer les batchs, les charges applicatives en temps réel au sein d'un écosystème qui restera stable", conclut Apache.

Télécharger Hadoop 2