Les entreprises hésitent encore à laisser l’éléphant des Big Data approcher de leurs données de porcelaine

Un téraoctet de stockage coûte aujourd’hui moins de 100 $. Pour autant, dans la plupart des entreprises, le coût de traitement d’un téraoctet reste encore très élevé.

« Quand j’étais en Afrique, j’ai tué un éléphant en pyjama. Comment un éléphant a-t-il fait pour mettre un pyjama... Je ne saurai jamais !» racontait Groucho Marx avec son humour décapant. L’histoire ne précise pas si ce pyjama était à «pattes d’éléphant», mais qu’on ne s’y «trompe» pas, le puissant pachyderme, depuis Hannibal jusqu’à… Babar, n’a plus à prouver l’étendue de ses puissantes ressources. Du moins, en dehors des magasins de porcelaine.
A l’heure des big data c’est désormais avec un pyjama jaune qu’il faudrait réécrire l’histoire. Hadoop a su imposer un nouveau style «pattes d’eph », mince des genoux et large des pattes, qui se concrétise, au premier abord, par ce clivage étonnant entre une puissance potentielle inégalée et des coûts de mise en œuvre plutôt modestes.
Un téraoctet de stockage coûte aujourd’hui moins de 100 $. Pour autant, dans la plupart des entreprises, le coût de traitement d’un téraoctet reste encore très élevé : selon certaines estimations, entre 100 000 et 200 000 $ dans les contextes massivement parallèles des « appliances » de bases de données. Ce même volume peut désormais être traité dans un cluster de serveurs banalisés (« commodity hardware ») pour moins de 5 000 $. Hadoop redéfinit ainsi le champ des possibles dès lors qu’on stocke et traite une très grande quantité de données quel qu’en soit le format ou la structure. Un seul cluster Hadoop peut désormais comporter 10 000 serveurs, et exécuter plus de 100 000 tâches simultanées.
Telle est la principale proposition de valeur d’Hadoop, un projet de l’Apache Software Foundation, largement médiatisé par les expériences et les succès très concrets des plus grands acteurs de l’économie numérique tels que Yahoo, Google et autres Facebook, qui y ont trouvé une partie des secrets de leur efficacité : stockage et calcul distribué en mode « shared nothing », architecture haute disponibilité tolérante aux pannes, absence de schéma prédéfini pour le stockage de données structurées et non structurées qui, de ce fait, délègue l’organisation effective des données au traitement qui les exploitera.

« Le vieil éléphant sait où trouver de l’eau »

Pour les entreprises plus traditionnelles, le modèle Hadoop peut aussi s’avérer pertinent, notamment pour démultiplier les possibilités des solutions analytiques les plus sophistiquées, et plus particulièrement pour les données «multi-structurées» qui se prêtent mal à l’utilisation de bases de données traditionnelles. Une enquête récente de TDWI Research montre que près de 88 % des entreprises considèrent Hadoop comme une réelle opportunité pour leurs systèmes d’information et la plupart des analystes estiment que d’ici 5 ans plus de la moitié des données mondiales seront traitées par Hadoop.
Pour autant, les entreprises hésitent encore à laisser ce puissant animal approcher de leurs datamarts de porcelaine. Les principaux freins sont connus : difficultés de mise en œuvre, nécessité de développements spécifiques, utilisation en batch, besoins en compétences particulières, écosystème en développement semblant manquer de maturité, de pérennité, de support.

“It makes no difference if it's sweet or hot. Just give that rhythm everything you've got” (1)

Pour la plupart d’entre elles, Hadoop n’a pas, au moins pour l’instant, vocation à se substituer aux datawarehouses et datamarts existants mais plutôt à les compléter pour traiter au quotidien, et pour un coût abordable, de vastes ensembles de données nouvelles, le plus souvent de qualité incertaine et qu’il ne serait pas raisonnable, ni souhaitable, d’intégrer d’emblée dans les systèmes d’information sans investigation ou modélisation préalable. On pense tout naturellement aux promesses des big data : données des sites web, des réseaux et médias sociaux, données de capteurs, données des systèmes embarqués, données de mobilité qui n’ont pas vocation à être stockées dans leur intégralité dans les entrepôts de données et qui forment pourtant le cœur de nouveaux gisements de valeur.

Dans cette perspective, les premiers usages d’entreprise pourraient bien être ceux d’espaces de transit (« staging area ») et/ou d’analyse permettant à des utilisateurs d’explorer ces données, à l’aide de solutions analytiques et de data visualisation, d’en dériver des informations qui iront éventuellement compléter utilement les systèmes existants ou resteront disponibles pour des analyses ultérieures.
Le coût d’appropriation, relativement modeste, permet ainsi de travailler sans échantillonnage sur l’intégralité et la diversité des données disponibles, structurées ou non, sans a priori sur leurs volumes, leurs contenus, leurs structures, leurs formats. Cette souplesse pourrait aussi être synonyme d’agilité pour les utilisateurs.
Mais la principale difficulté est que Hadoop reste un écosystème faisant appel à de nombreux outils dont la prise en main peut constituer un réel obstacle à une large diffusion dans l’entreprise. Pour dépasser ces limites, il est essentiel que l’ensemble des profils concernés, du « business analyst » au « data scientist », puissent collaborer autour de solutions innovantes de business intelligence appropriées à leurs besoins en termes de data visualisation, de reporting, mais aussi de modélisation, de data et de text mining.
Une convergence entre les environnements décisionnels existants et ce nouvel écosystème pourrait bien être la recette du succès d’Hadoop dans l’entreprise.
Les utilisateurs pourraient ainsi de manière très réactive, analyser de nouvelles formes de données, les modéliser, obtenir très rapidement des résultats, faire plusieurs itérations ou simulations sans dépendre de la lourdeur des projets traditionnels et sans cannibaliser les systèmes d’informations existants.
Les big data imposent clairement un nouveau rythme aux directions des systèmes d’information. Pour celles qui entonneront la « marche des éléphants » il faudra impérativement mettre la valeur ajoutée de l’environnement Hadoop en perspective des environnements existants et donner aux utilisateurs des solutions qui leur donnent une autonomie et une agilité équivalentes dans les deux contextes.

------------------
(1) Irving Mills