Big data : vers une industrialisation d’Hadoop ?

Hadoop se démocratise, mais il reste encore de nombreux obstacles à une adoption de masse : seule une poignée de « geeks » sont à ce jour en mesure d’en maîtriser la complexité ; ce qui freine les projets et alourdit les budgets.

La vague du big data a commencé à déferler depuis quelques temps déjà, mais les promesses qui en découlent tardent à se réaliser faute de solutions pragmatiques de mise en œuvre.
La question peut sembler étonnante, pourtant on peut légitimement se  demander si les initiatives Hadoop menées aujourd’hui sur le marché peuvent réellement se traduire par une adoption en masse.
En effet, même si de nombreuses entreprises ont réalisé d’importants investissements dans ce domaine, en dehors des sociétés du monde internet et de quelques rares entreprises technophiles, la plupart des projets Hadoop n'en sont encore qu'au stade de l'expérimentation. L'immense valeur ajoutée que les entreprises pourraient dériver de l'analyse des données reste à ce jour en grande partie inexploitée.
La révolution digitale est en marche et rien ne peut l’arrêter.  L’Internet des objets représente à lui seul une nouvelle économie : à l’horizon 2020, certains analystes prédisent que 99 % des objets fabriqués seront connectés. Une déferlante de données va toucher toutes les industries,  mais la question est à présent de savoir comment les entreprises vont pouvoir exploiter au mieux ces données pour en tirer le meilleur parti dans leurs secteurs d’activité respectifs.  
C’est une certitude, le big data devrait bientôt influencer toutes les décisions stratégiques des entreprises, et il est par ailleurs largement admis que les infrastructures actuellement en place ne permettront pas d’absorber le volume de données attendu. Hadoop représente en ce sens une formidable opportunité pour les entreprises.
Toutes les sociétés semblent voir le potentiel du big data mais seules celles armées d’un commando de « geeks » peuvent s’attaquer à la technicité de l’environnement Hadoop. Map Reduce, composant essentiel d’Hadoop avec HDFS, est considéré par beaucoup comme trop complexe. Pour mettre le big data à la portée de tous, il faut simplifier Hadoop. Avec l’évolution d’Hadoop que représente YARN et un écosystème d’éditeurs qui se constitue, Hadoop entre dans sa phase de maturité.
D'après une récente étude menée par Sand Hill Group, les principales utilisations d'Hadoop s'orientent à l'heure actuelle principalement vers la préparation, la transformation ou la qualité des données. En production, les très gros déploiements supérieurs à 1000 serveurs sont rares. La plupart des implémentations en sont au sont au stade du projet pilote.
Mais nous avançons à grand pas vers l’industrialisation d’Hadoop. Grâce à des éditeurs indépendants, une couche solide autour d'Hadoop, une sorte d'exosquelette, permet d’accélérer toutes les étapes de l’exploitation des données du big data stockées dans Hadoop.
Hadoop est une sorte de réservoir de données, et il est important pour faciliter la mise en œuvre de projets big data, entrer rapidement en production et en tirer une valeur ajoutée, de faire le choix d’une plateforme permettant de graviter autour de ces données.
Grâce à de telles technologies, il est aujourd’hui possible d'obtenir instantanément un environnement accessible depuis une interface graphique proposant des fonctionnalités permettant de charger, de transformer et d’analyser les données dans Hadoop. Des bases de données SQL en colonnes massivement parallèles fonctionnent maintenant nativement sur Hadoop pour pallier les performances médiocres observées jusqu’ici.
Pour tirer parti des promesses d’Hadoop en matière de traitement des données, il faut  impérativement s’extraire de la complexité technologique qui lui est actuellement associée. Map Reduce, malgré son aspect rudimentaire, a largement démontré le potentiel d’Hadoop. De nouvelles solutions existent pour accélérer les projets big data en faisant appel aux compétences techniques que l’entreprises possède déjà.
En adoptant cette démarche, Hadoop ne sera bientôt plus une plateforme réservée à une minorité d’experts techniques, mais deviendra bel et bien ce réservoir inépuisable d’informations, source d’optimisations opérationnelles et d’innovation.

Big Data / Hadoop