Comment tirer parti de votre data lake ?

Plusieurs personnes souhaiteraient que le data lake soit une simplification des entrepôts de données. La pensée en silos nous orientent vers cette tendance mais la réalité technologique et organisationnelle impose une plus grande prudence.

Data warehouse et data lake

Tout d’abord, que désignent un data lake et un data warehouse ? Selon Wikipédia, le data lake désigne un référentiel au sein duquel des données de nature variée sont stockées en volume et dans leur état brut sans qu’un schéma d’organisation préalable ne leur soit imposé, alors que le data warehouse, autrement appelé entrepôt de données ou base de données décisionnelle, désigne une base de données dédiée au stockage de données, provenant de bases de données opérationnelles, afin de fournir un socle à l’aide à la décision en entreprise.

Pour des raisons évidentes de simplification, plusieurs personnes souhaiteraient que le data lake soit une simplification des entrepôts de données. La rationalisation et la pensée en silos nous orientent naturellement vers cette tendance mais la réalité technologique et organisationnelle impose une plus grande prudence.

Le data warehouse est conçu et organisé au préalable pour le stockage de données dont l’usage est connu tandis qu’un data lake est destiné à accueillir des données sans organisation prédestinée et sans usage immédiat. L’un et l’autre sont donc conçus pour des usages bien distincts. Techniquement, il est possible de mettre sa comptabilité dans un data lake mais, en termes d’usage, cela est inadapté.

Le data lake n’a donc clairement pas vocation à remplacer le data warehouse.

Le data lake est en pleine effervescence

Hadoop, la technologie la plus associée au data lake, existe depuis 15 ans, on ne peut donc pas dire qu’elle soit très nouvelle. La raison de cet intérêt est plutôt à chercher du côté des usages :

Les analyses de données externes se sont fortement accrues. Or, ces données viennent des réseaux sociaux ou de l’Internet des Objets. Des sources dont on contrôle beaucoup moins le format des données et le volume. Le data lake est un bon candidat pour supporter l’analyse de ces nouveaux flux.
Un usage largement mis en exergue est l’accès libre aux données qui répond à une forte attente des data scientists. De plus, disposer d’une puissance de calcul associée au stockage de données conforte ce choix pour la mise en œuvre d’algorithmes plus pertinents pour les utilisateurs métiers.
Le data lake est très agile et peut être configuré ou reconfiguré à volonté. Les modèles, les requêtes, et les applications peuvent être aisément modifiées par les développeurs, les data scientists et les analystes.

Le développement de nouveaux usages légitime le recours au data lake, mais cela n’est pas le seul facteur. Avec un data lake, le coût de possession de la donnée est 15 à 20 fois inférieur à celui du data warehouse. Du fait que de plus en plus d’entreprises considèrent que valoriser les données est un enjeu stratégique et que le coût est plus faible avec les data lakes ; le volume peut donc rapidement devenir important. Les entreprises pourraient de manière irraisonnée stocker des données, sans connaître en avance leur usage, juste dans la perspective de demandes futures. Néanmoins, un stockage non maîtrisé dans le data lake crée des problèmes de gouvernance de la donnée, avec des coûts cachés possibles en retour. Il faut évidemment se méfier de cette tendance, ce n’est pas parce qu’il est possible de tout stocker en vrac que nous devons le faire… Voilà pourquoi il est important de gagner en rigueur dans l’alimentation du data lake.

La réalité des projets des entreprises de nos jours

Pour l’heure, on voit beaucoup de projets de data lake pour stocker les données, moins pour les analyser. Ce n’est pas surprenant, c’est le début logique de l’histoire. En outre, la collecte des données n’est pas aussi simple qu’on le croit. Des problèmes légaux se posent aussi et peuvent freiner ces projets, notamment en Europe, où il est difficile de démarrer même un simple maquettage sans avoir vérifié préalablement la conformité réglementaire.

D’ores et déjà, des acteurs pétroliers réduisent quotidiennement leurs coûts en analysant en temps réel les informations émises par leurs équipements de pompage, les banquiers répondent aux besoins de traçabilité demandés par une norme telle que BCBS 239 en comparant à grande échelle les versions de leurs données, les services marketing engrangent davantage de données pour des analyses plus détaillées de leurs campagnes… Ce que l’on voit émerger, c’est un vrai besoin d’analyse et de modélisation sur de grands volumes mais aussi sur des événements en temps réel.

De nouvelles solutions s’imposent pour analyser les données stockées dans les data lakes

Les outils traditionnels de business intelligence sont conçus pour travailler sur des univers structurés et se montrent peu adaptés aux data lakes. Pour ces derniers, il faut des outils plus agiles qui se prêtent à l’interactif et à l’itératif pour créer un vrai dialogue entre les utilisateurs et les données :

Mise à disposition des utilisateurs métiers une interface puissante et simple
Exploration de données doit être intuitive afin de tirer profit de l’accès simplifié aux multiples données disponibles
Accès à de multiples sources de données en simultané car toutes les données ne sont pas forcément dans le data lake
Fonctions de manipulation des données disponible à tous les utilisateurs à tout moment du cycle de vie de l’analyse
Grands volumes de données certes mais aussi un plus grand nombre de profils utilisateurs, avec des niveaux de technicité et de maturité analytique différents, d’où l’intérêt de bénéficier de fonctions collaboratives intrinsèques pour travailler de concert sur les applications, les analyses et les données.
Accès aux environnements jusqu’ici réservé aux data scientists pour partager les bénéfices des algorithmes mis en place et accélérer les solutions de prises de décisions.
Avec la croissance de l’IoT, les données froides et en temps réel seront de plus en plus mélangées, il faudra donc repenser les modèles d’analyse mais aussi optimiser en conséquence l’accès aux informations. Des solutions qui, le machine learning aidant, intègrent des capacités innovantes d’apprentissage automatique pour rendre la navigation dans les données d’entreprise aussi simple que la recherche de contenus sur le Web.

La mise en œuvre de data lake est souvent la réponse technique à des exigences métiers provenant d’utilisateurs ayant besoin d’accéder au fil de l’eau et rapidement aux données pour réaliser en totale autonomie des analyses, tableaux de bords et autres applications. Mais le data lake doit également répondre à différents niveaux de maturité analytique dans la mesure ou les différents groupes utilisateurs n’auront pas tous les mêmes besoins et contraintes. Les solutions tirant profit des data lakes ne doivent pas entraver son agilité et permettre aux entreprises de faire évoluer le data lake et les solutions afférentes au rythme de l’entreprise : tous ces curseurs sont à considérer avec une vision large pour englober les besoins présents et à court terme.