Comment intégrer les technologies big data aux architectures décisionnelles ?

De plus en plus d’entreprises cherchent aujourd'hui à faire évoluer leurs architectures de business intelligence de manière à intégrer des technologies big data, synonymes de plus de souplesse et de potentialités de traitement.

Ce n’est plus un effet de mode : les technologies big data s’installent dans les feuilles de route des DSI comme des outils pertinents permettant de répondre à leurs problématiques de traitement de données. Sans pour autant complètement bouleverser leurs architectures, de nombreuses directions informatiques s’interrogent sur la possibilité de s’appuyer sur ces technologies pour faire évoluer leurs infrastructures décisionnelles.

Face à l’explosion du volume de données, l’information est devenue le nerf de la guerre économique. Elle permet de gagner en compétitivité et de trouver des relais de croissance. Pour cette raison, les entreprises cherchent à s’équiper des moyens les plus efficaces de traitement et de gestion de données afin de se positionner dans un marché où la concurrence est de plus en plus féroce et où celui qui possède l’information est le plus fort.

Aujourd’hui, les organisations doivent agir vis-à-vis de l’augmentation exponentielle du volume de données produites (structurées, semi structurées et non structurées). De plus, elles doivent assurer une bonne gouvernance de ces données tout en les analysant le plus rapidement possible, dans le but d’en tirer des renseignements sur leur environnement actuel, son évolution et de se doter ainsi, d’un solide avantage concurrentiel unique.

La business intelligence & le Big data, deux familles technologiques au service des mêmes usages ?

L’informatique décisionnelle désigne l’ensemble des infrastructures, applications, outils mais aussi les bonnes pratiques qui vont permettre aux business managers de prendre des décisions en se basant sur des informations fiables. Le suivi de KPI, la production de rapports et de tableaux de bords regroupant les données sont des besoins clés auxquels répondent les outils de business intelligence.

Le terme big data, beaucoup plus générique, n’englobe pas uniquement les technologies au service du SI décisionnel. Il comprend l’ensemble des technologies, outils, bonnes pratiques et infrastructures qui vont permettre de traiter et / ou stocker des données massives.

Il faut entendre par « données massives » : grand volume de données, injectées à grande vitesse, de source et nature variées. Il peut s’agir de données structurées ou non structurées. De fait, le décisionnel n’est qu’un des use case pour lequel on peut utiliser des technologies big data.

Comment tirer parti des avantages du big data dans les architectures décisionnelles ?

Le modèle d’architecture décisionnelle, rôdé, montre aujourd’hui ses limites, par exemple dans la mise en place des datawarehouse. Leur paramétrage requiert une approche très structurée et descendante, qui implique de définir en amont les besoins du client afin de concevoir l’architecture de l’entrepôt de données la plus appropriée. Cette structure est en général assez peu évolutive et ne permet pas de traiter un plus grand volume de données que celui pour lequel il a été conçu. A l’inverse, le data lake offre une plus grande souplesse tant dans la conception que les volumes de données traités.

De plus en plus d’entreprises cherchent aujourd’hui à faire évoluer ces architectures de manière à intégrer des technologies big data, synonymes de plus de souplesse et de potentialités de traitement.

Les modifications peuvent intervenir à plusieurs niveaux de l’architecture :

L’architecture des applications d’aide à la prise de décision est en train d’évoluer et de converger vers une nouvelle architecture plus moderne, plus agile, avec plus de fonctionnalités. Ces évolutions sont caractérisées par des architectures intermédiaires intégrant les technologies et les patterns Big Data qui ont comme objectif de répondre aux limites des architectures précédentes.

Vers une disparition des architectures BI ?

On note aujourd’hui l’apparition d’architecture 100% big data pour des usages exclusivement décisionnels. Mais entre l’intégration des technologies big data et le remplacement de la chaîne décisionnelle par une architecture purement big data, nous avons identifié ces différentes possibilités intermédiaires.

Le premier type d’architecture implémenté, l’architecture Lambda, consiste à ajouter une couche de stream processing et de réaliser des traitements OLAP en temps réel, chose impossible auparavant. Cela répond à toutes les demandes du décisionnel – mais elle est relativement complexe à mettre en place et maintenir, notamment car elle nécessite d’ajouter beaucoup de briques applicatives.

Le second type d’architecture à émerger pour répondre à ce type de use case est l’architecture technique Kappa. Elle permet un traitement des données en temps réel. Très peu de données sont stockées au niveau du data store. On ne fonctionne plus qu’en streaming, plus en batch.
L’architecture Kappa est conçue pour simplifier l’architecture Lambda. En effet, elle permet de fusionner les couches temps réel et batch en une seule couche temps réel. Contrairement à l’architecture Lambda, l’architecture Kappa ne permet pas le stockage permanent des données (i.e. le système de stockage des données est restreint et non durable. Il doit être un système de fichiers de type log et non modifiables) et ne supporte pas les analyses avancées sur l’historique.

Ces nouvelles architectures sont certes plus riches mais également plus complexes à mettre en place.

A ce titre, elles ne remplaceront jamais totalement les architectures décisionnelles et la BI. L’avenir se situe sans doute à mi-chemin entre les deux approches, dans une généralisation des architectures hybrides.