4 fondamentaux pour la mise en place d'Hadoop en entreprise

Les distributions Hadoop peuvent apporter les avantages d’une solution Open Source ainsi que les avantages de solutions d’entreprise, mais avec certaines différences.

Le framework Hadoop est aujourd’hui de plus en plus plébiscité par les entreprises qui souhaitent se doter d’une infrastructure informatique pour le traitement de leurs Big Data à des coûts optimisés. Toutefois, les entreprises rencontrent plusieurs obstacles qui les empêchent d’utiliser Hadoop en version Open Source. Les distributions Hadoop peuvent apporter les avantages d’une solution Open Source ainsi que les avantages de solutions d’entreprise, mais avec certaines différences. Les sociétés qui envisagent de déployer Hadoop doivent ainsi tenir compte de certains éléments.

1- La sécurité et la data gouvernance
Toute entreprise amenée à gérer d’énormes volumes de données doit accorder une importance capitale à la sécurité, qu’il s’agisse de protection, de fiabilité ou d’intégrité des données — et ce, d’autant plus lorsque les données transférées empruntent plusieurs clusters, ce qui est le cas du framework Hadoop. Si des problèmes surviennent en déployant la nouvelle version d’un logiciel, les fonctions de sauvegarde des clusters Hadoop garantissent le fonctionnement ininterrompu du système de production.

Cependant, les fonctionnalités de la version Open Source sont limitées par rapport à d’autres applications : alors que le système de fichiers distribué HDFS (Hadoop Distributed File System) pallie les défaillances des disques durs, les données corrompues sont reproduites de cluster en cluster. De plus, il est difficile de réparer des défaillances humaines, dans la mesure où le système HDFS dispose d’une fonction snapshot limitée, de sorte que les snapshots changent uniquement selon la taille des fichiers copiés. Si la solution choisie comporte un système de fichiers compatible POSIX avec lecture-écriture aléatoires (Random-Read-Write), les snapshots en temps réel ne constituent plus un problème. De même, en cas d’utilisation de modules d’authentification PAM (Pluggable Authentification Modules) pour Linux, tout transfert de grandes quantités de données entre nœuds est protégé par des systèmes de chiffrement supplémentaires. La version Open Source d’Hadoop assure uniquement une authentification de type Kerberos, sans aucun système de chiffrement multi-facteurs.

2- Montée en charge et fiabilité
Selon une hypothèse répandue, si vous pouvez stocker d’importants volumes de données, ils doivent être « échelonnables », c’est-à-dire être capables de monter en charge en fonction de la demande. Mais s’il l’on regarde de plus près, l’architecture Hadoop et son NameNode ressemble davantage à un goulot d’étranglement en matière d’évolutivité.

Les NameNodes d’Hadoop sont un élément essentiel des clusters ; or, un cluster ne peut monter en charge qu’en fonction de la taille du NameNode. Pour les administrateurs, un énorme effort de configuration est nécessaire pour éviter ce problème. De plus, les NameNodes créent un « point de défaillance unique » (Single Point of Failure) où un processus unique peut rendre un cluster totalement inopérant.

Le modèle de données fourni par HBase propose des fonctions supplémentaires par rapport au système de fichiers HDFS mais sans la fiabilité nécessaire, étant donné qu’il repose sur un code « condensé » et que la « condensation » des données peut — dans le pire des cas — provoquer un dysfonctionnement du cluster.

Les distributions Hadoop avec une architecture de métadonnées distribuées permettent de résoudre ce problème et d’éliminer les limitations liées à la taille des blocs. Résultat, ce n’est plus 100 millions, mais plusieurs milliers de milliards de données qui pourront être traitées ! Un haut niveau de fiabilité peut être atteint avec la fonction de lecture-écriture — laquelle n’est toutefois pas disponible dans toutes les versions du système de fichiers distribué HDFS.

3- Coût total de possession (TCO)
La plateforme Open Source est connue pour être gratuite, ou du moins nettement moins onéreuse que les alternatives sur le marché. Cette vision simpliste concerne uniquement le logiciel pur, et non le coût total de possession (TCO). Les solutions existantes qui viennent se greffer sur Hadoop utilisent moins de ressources matérielles pour des performances identiques tout en réduisant la consommation d’énergie. En outre, les tâches d’administration sont réduites grâce à la pré-configuration et à des services supplémentaires.

L’exemple d’un groupe de communications montre qu’une infrastructure Open Source ne doit pas forcément être plus rentable. Ce groupe a consolidé ses clusters HBase au sein d’un unique cluster MapR et réussi à réduire à l’essentiel la majorité des ressources. Dans le même temps, le concept de base de données permet d’exécuter en parallèle les tâches de fonctionnement et d’analyse sur une même plateforme, ce qui permet d’analyser immédiatement les snapshots d’une table. Quiconque se méfie de l’effet de « verrouillage » induit par l’utilisation de solutions déployées sur site optera pour un concept disposant des mêmes interfaces que la version Open Source et prenant en charge des composants Hadoop tels que Spark, Hive ou Flume. Avantage de cette approche, les solutions disponibles gratuitement peuvent être mises en œuvre de manière discrétionnaire et, le cas échéant, enrichies par d’autres fonctions. De plus, la prise en charge du système de fichiers en réseau NFS (Network File System) est tout à fait logique, compte tenu du grand nombre d’applications et d’outils de développement qui utilisent ce protocole.

4- Economiser les ressources en personnel
La pénurie de compétences informatiques explique la réticence des entreprises à déployer Hadoop. Cependant, un solide réseau de support accompagne la mise en œuvre de Hadoop dans sa version qui n’est pas 100% Open Source. Les administrateurs ne sont pas obligés de gérer les détails, tandis que des activités telles que la configuration de la taille des blocs ou la restauration des NameNodes ne nécessitent pas l’intervention de l’équipe informatique au grand complet.

Le framework Hadoop s’est imposé comme la plateforme idéale pour un grand nombre de scénarios critiques, que ce soit dans le domaine de l’analyse de données en temps réel ou de la gestion des données non structurées pour l’Internet des objets. Il n’existe pas de limites à l’utilisation de logiciels Open Source, dans la mesure où des développements commerciaux ont créé un écosystème Hadoop qui couvre l’ensemble des exigences métier et d’entreprise sans l’effet de « dépendance » qu’induit l’utilisation de solutions classiques et de licences onéreuses.