Le phénomène Big Data, une opportunité
Depuis des décennies, les entreprises peinent à maîtriser leurs données. Pour les stocker, elles font appel à des entrepôts de données vulnérables à la fiabilité insuffisante. Le résultat ? L’impossibilité d’extraire les infos dont elles ont besoin pour prendre des décisions stratégiques.
Aujourd’hui, l’avènement des « Big Data » accentue encore ce
problème, tout du moins en théorie. Mais ne serait-ce pas plutôt une
opportunité pour les entreprises d’enfin trouver la parade pour gérer leurs
immenses quantités de données et en tirer un avantage concurrentiel ? La
clé de la maîtrise des Big Data réside dans la capacité à s’adapter à n’importe
quel changement, de la modification du prix d’un produit à une acquisition, et
à obtenir l’information correspondante dans les délais voulus.
Forbes a récemment mis en lumière l’influence décisive de la concurrence
en matière de délais et d’information sur la prochaine grande ère économique. De fait,
le phénomène Big Data est une réalité qui constitue une immense opportunité. Si
vous êtes un analyste commercial ou un technologue en charge de l’organisation
des données pour la prise de décisions, alors la diversité, la vitesse et le
volume des données dont vous disposez aujourd’hui n’ont jamais été aussi
élevés. Et votre responsabilité n’a jamais été aussi importante.
La clé pour saisir cette opportunité est un point que j’évoque
régulièrement : il s’agit de comprendre les différentes
classes de technologies de sources de données qui peuvent être légitimement
utilisées pour maîtriser (ou apprivoiser) les Big Data. Hadoop est l’une de ces
technologies, c’est l’un des frameworks les plus populaires associés à cette
tendance montante. Les autres comprennent des bases de données NoSQL, des
magasins de données MPP et même des approches ETL/d’intégration de données
(pour déplacer les Big Data par lot vers un format plus utilisable). Chacune de
ces technologies correspond à un cas d’utilisation approprié, ce qui explique
la diversité des produits émergeant dans cet univers Big Data.
Par
souci de simplicité, je parlerai de trois approches communément utilisées pour
accéder aux Big Data et les exploiter pour l’analyse et le reporting décisionnels.
L’exploration
interactive est la plus dynamique parce qu’elle implique une connectivité
native directe entre l’outil décisionnel et la source Big Data et peut offrir
des résultats en temps quasi réel. Hadoop HBase, Hadoop HDFS et MongoDB ne sont
que trois des sources de données les plus couramment utilisées pour lesquelles
une connexion directe serait un avantage.
Le
reporting direct par lots est une approche importante moins spécialisée (en
particulier sur le marché précoce des Big Data) qui s’appuie sur l’accès SQL
éprouvé aux Big Data. Hadoop Hive en est l’exemple le plus connu, mais
Cassandra offre un accès CQL avec des résultats et des fonctionnalités
similaires.
L’ETL
par lots consiste à utiliser des techniques d’extraction, de transformation et
de chargement pour créer un sous-ensemble de Big Data plus exploitable. C’est
aussi une approche courante, en particulier lorsque les indications recherchées
sont moins urgentes, probablement de l’ordre de quelques heures ou jours après
la capture des données. La plupart des outils ETL sont désormais capables de se
connecter aux Big Data et de les transformer. Certains s’intègrent même sans
problème aux technologies Hadoop sous-jacentes (comme Pig), ce qui est
susceptible de simplifier les choses pour le gestionnaire de données.
Par
sa simple appellation, le phénomène Big Data peut sembler un concept effrayant
à maîtriser, surtout au regard des difficultés que connaissent les entreprises
face aux simples « données ». Cependant, ces dernières ont vraiment
une chance de surmonter les Big Data en comprenant les sources qui permettent
d’y parvenir.
L’opportunité est là pour toutes les entreprises : il ne
tient qu’à vous de passer à l’action !