Hadoop et l'infrastructure de stockage : un nouveau paradigme ?

Une projection autour des usages en Entreprises pour l'environnement Open Source Hadoop.

L’environnement Hadoop est-il uniquement orienté vers des applications de Business Intelligence/Datawerehouse et de Big data ou peut-il impacter des applications d’autres flux de productions, de base de données, de sauvegarde et archivage, CRM, ERP, et autres outils de gestion documentaire ?
Les infrastructures digitales et numériques qui mettent en place une utilisation massive des technologies et des usages de l’Internet dans le système d’information d’une entreprise, ont démontré des nouveaux paradigmes tant sur le stockage, le traitement, les bases de données ainsi que sur les applications accompagnant les nouveaux terminaux (cas des pure players aujourd’hui).

Ces infrastructures ont été conçues en propriétaire au départ pour des usages intensifs (quelques millions d’utilisateurs), des nouveaux types de données (notamment des données non structurées), et avec une recherche de mise en place à moindre de coût des serveurs et autres composants classiques d’un SI d’une entreprise. Ceci a permis à des Framework applicatifs d’émerger et notamment d’être mis à disposition des entreprises dans un contexte Open Source.

L’environnement Hadoop amène cette dimension, et a enclenché dans des entreprises à partir de 2010-2011 la refonte d’applications de Business Intelligence (HSBC, Crédit Mutuel Arkea,  Verizon, …) ainsi que des nouvelles applications Big Data.

Les éditeurs traditionnels dans ce domaine (Terradata, Oracle, ..) ainsi que les constructeurs de stockage ont clairement évolué vers la convergence et l’intégration d’Hadoop dans leurs piles logicielles et matérielles.
Entre Cloud public et architecture Hadoop définissant un stockage à bas coût sans SAN/NAS, une élasticité sans fin, les architectures modernes passeront par l’intégration de ce type d’environnement, tant en mode Infrastructure qu’en mode Saas pour les métiers.
La particularité d’Hadoop Distributed File System (HDFS) en tant que système de gestion de fichiers moderne, capable de stocker et d’interroger de très grands volumes de données structurées et non structurées (HDFS 2 proposera des snapshot et autres mécanismes intelligents de réplication) est l’un des piliers de cette transformation.
Outre Hadoop, le stockage en bloc et objet Openstack introduit par Amazon S3, (Openstack), implique des nouveaux standards et une intelligence logicielle capable de gérer du stockage différemment dans des infrastructures de production. Il est probable que cela impactera les applications en terme d’architecture et de développement.

Quels sont alors les éléments clés qui définissent une infrastructure moderne orientée Données ?

  • La capacité : la faculté d’avoir un stockage « élastique » . Cette notion reste fondamentale à la mise en place d’infrastructure Big Data. Le cloud public y a contribué avec les architectures Objets. La capacité doit pouvoir être linéaire dans une architecture moderne de données, et non limitée comme dans la majorité des architectures de stockages traditionnels.
  • La latence : l’infrastructure doit permettre la gestion de flux temps réels, ainsi qu’un support d’IO disques importants. La virtualisation permettrait la mise en place de cette caractéristique.
  • La sécurité : l’accès aux données par les utilisateurs, le chiffrement, la haute disponibilité, et un plan de continuité sur un site distant sont des éléments clés à prendre en compte.
  • La flexibilité : la collecte de données et l’interconnexion vers des Cloud publics. L’orchestration de la collecte de données, ainsi que leur synchronisation en entrée et en sortie avec des systèmes existants de production (ETL, Base de données, ..) ainsi que des éditeurs de visualisation doit être pris en compte dans le choix de la plateforme.
  • Le coût : au delà des coûts inhérents au stockage physique nous incluons dans cette partie les coûts des opérations (humaines), les performances (il s’agit là aussi de proposer des architectures performantes au regard des contraintes d’architectures prônées par Hadoop).
  • La persistance des données : l’enjeu ici est de pouvoir proposer un stockage qui donne des garanties de conformité pour des normes et des processus de qualité afin de pérenniser dans le temps les données. En général cela implique des copies des données dans des environnements mono ou multi data center (copies incrémentales, snaphots, …).
  • La virtualisation : ne plus se reposer directement sur l’infrastructure physique mais choisir la virtualisation de ses clusters Hadoop apporte les bénéfices suivants :
         > La facilité de paramétrages (provisioning) des clusters
         > La rapidité de déploiement
         > Le multi-tenant et la sécurité associée
         > La haute disponibilité
         > L’utilisation optimale des ressources (élasticité)

A mesure de l'évolution des usages autour des plateformes numériques, les applications dites traditionnelles seront éligibles à ces nouvelles architecture de stockages. C'est un sujet de masse critique et d'innovation dans les systèmes de gestion de bases de données qui sont en train de fleurir autour d'Hadoop, et qui permettront sans aucun doute cette migration.

Big Data