Le dilemme vitesse-richesse des données

Quel plan d’action à mettre en place pour veiller à ce que les données soient exploitées aussi efficacement que possible?

Je commencerai par un simple constat : il n’a jamais été aussi important, pour les entreprises, d’analyser et de donner du sens à leurs données. C’est précisément la raison pour laquelle nombre d’entre elles sont convaincues d’être investies d’une nouvelle responsabilité : se servir des données pour créer davantage de valeur ajoutée, que ce soit en maîtrisant leurs coûts, dopant leur chiffre d’affaires, mobilisant leurs clients ou améliorant l’efficacité de leurs processus. L’intention est louable, mais ce qui est tout aussi important, c’est le plan d’action à mettre en place pour veiller à ce que les données soient exploitées aussi efficacement que possible. Et les entreprises s’y intéressent plus rarement.
Vélocité des données : le dilemme vitesse-richesse
Pour que l’opération porte véritablement ses fruits, il est primordial que l’entreprise cerne d’emblée la rapidité avec laquelle elle doit tirer parti de ces données. Ainsi, qu’est-ce qui importe le plus pour elle : avoir accès à un jeu représentatif de données se prêtant à quantité d’analyses, ou se procurer des données en un clin d’œil ? Découvrez le nouveau spectre de la vélocité des données, qui dissocie celles qu’il faut traiter, définir et dimensionner pour libérer leur valeur, de celles qu’il convient d’exploiter immédiatement, qualifiées de « données véloces ».
L’axiome est simple : une analyse approfondie requiert une définition plus pointue des données pour prendre en compte divers points de vue et approches, et requiert davantage de temps (latence) pour les réunir, d’où l’appellation de "données au repos" que l’on rencontre parfois. Si, par exemple, l’objectif principal consiste à accéder à des données denses, se prêtant à diverses analyses, la valeur réside dans la "dimensionnalité" des données. Par contre, l’utilisation immédiate de données transactionnelles ou liées à un événement pour prendre des décisions en temps réel revient à exploiter des "données en mouvement", un schéma très différent mais au potentiel tout aussi intéressant. Avant qu’un plan d’action soit mis en place pour libérer les données, il convient de mettre en balance la dimension et la vitesse. En d’autres termes, est-ce mieux de disposer tardivement d’un jeu représentatif des différentes dimensions des données, ou est-il impératif que vos décisions soient prises en fonction de données en temps réel ? La réponse à cette question déterminera, au final, la meilleure architecture d’information à mettre en place.
Créer une architecture de données qui vous convient
À partir du moment où un compromis a été trouvé, il est à noter ― et il s’agit ici d’une bonne nouvelle ― qu’un certain nombre de technologies modernes différentes sont d’ores et déjà proposées aujourd’hui. Hadoop, en passe de devenir l’entrepôt de données moderne, est de plus en plus utilisé pour satisfaire notre quête quantitative de nouveaux types de données multistructurées. La diversité des données est la règle et, davantage que la vitesse, c’est la "dimensionnalité" des données qui importe. Fort heureusement, mettre en exergue la représentativité et les dimensions des données n’a jamais été aussi facile, ni aussi peu onéreux. Autre exemple, l’association d’une base de données analytique massivement parallèle (Vertica, Netezza, Greenplum) et d’une plate-forme d’analyse métier in-memory moderne (TIBCO Jaspersoft, TIBCO Spotfire) remplace (ou surpasse) désormais souvent la plupart des fonctionnalités des technologies OLAP, de façon beaucoup plus rapide et moins coûteuse. Si la vitesse est l’aspect essentiel, Apache Storm, Amazon AWS Kinesis et TIBCO Streambase assurent tous un accès immédiat et le traitement des flux de données à partir de la quasi-totalité des sources ou types de données. Aujourd'hui, la diffusion en flux dynamise les usages transactionnels et analytiques des données, permettant l’instauration de règles pertinentes en vue de l’obtention de résultats en temps réel. Les informations ainsi recueillies débouchent sur la surveillance de la sécurité, la détection des fraudes, l’optimisation de l’acheminement des services, et des opérations de compensation. 
Une étude Gartner publiée en fin d’année dernière a confirmé que les investissements dans les technologies big data continuent à s’intensifier, 73 % des entreprises ayant investi dans ce domaine ou projetant de le faire dans les deux ans qui viennent. Raison pour laquelle il sera primordial d’associer l’architecture d’information adéquate à la meilleure technologie disponible en phase avec la spécificité du besoin métier. Bonne nouvelle : des technologies ciblées entrent en scène pour faire face aux besoins croissants de ce nouveau spectre de la vélocité des données, dont tireront parti nombre d’entreprises à condition de mettre en place l’infrastructure correcte. 

Jaspersoft / Amazon