Le phénomène Big Data, une opportunité

Depuis des décennies, les entreprises peinent à maîtriser leurs données. Pour les stocker, elles font appel à des entrepôts de données vulnérables à la fiabilité insuffisante. Le résultat ? L’impossibilité d’extraire les infos dont elles ont besoin pour prendre des décisions stratégiques.

Aujourd’hui, l’avènement des « Big Data » accentue encore ce problème, tout du moins en théorie. Mais ne serait-ce pas plutôt une opportunité pour les entreprises d’enfin trouver la parade pour gérer leurs immenses quantités de données et en tirer un avantage concurrentiel ? La clé de la maîtrise des Big Data réside dans la capacité à s’adapter à n’importe quel changement, de la modification du prix d’un produit à une acquisition, et à obtenir l’information correspondante dans les délais voulus.
Forbes a récemment mis en lumière l’influence décisive de la
concurrence en matière de délais et d’information sur la prochaine grande ère économique. De fait, le phénomène Big Data est une réalité qui constitue une immense opportunité. Si vous êtes un analyste commercial ou un technologue en charge de l’organisation des données pour la prise de décisions, alors la diversité, la vitesse et le volume des données dont vous disposez aujourd’hui n’ont jamais été aussi élevés. Et votre responsabilité n’a jamais été aussi importante.
La clé pour saisir cette opportunité est un point que j’évoque régulièrement : il s’agit de comprendre les différentes classes de technologies de sources de données qui peuvent être légitimement utilisées pour maîtriser (ou apprivoiser) les Big Data. Hadoop est l’une de ces technologies, c’est l’un des frameworks les plus populaires associés à cette tendance montante. Les autres comprennent des bases de données NoSQL, des magasins de données MPP et même des approches ETL/d’intégration de données (pour déplacer les Big Data par lot vers un format plus utilisable). Chacune de ces technologies correspond à un cas d’utilisation approprié, ce qui explique la diversité des produits émergeant dans cet univers Big Data.
Par souci de simplicité, je parlerai de trois approches communément utilisées pour accéder aux Big Data et les exploiter pour l’analyse et le reporting décisionnels.

L’exploration interactive est la plus dynamique parce qu’elle implique une connectivité native directe entre l’outil décisionnel et la source Big Data et peut offrir des résultats en temps quasi réel. Hadoop HBase, Hadoop HDFS et MongoDB ne sont que trois des sources de données les plus couramment utilisées pour lesquelles une connexion directe serait un avantage.
Le reporting direct par lots est une approche importante moins spécialisée (en particulier sur le marché précoce des Big Data) qui s’appuie sur l’accès SQL éprouvé aux Big Data. Hadoop Hive en est l’exemple le plus connu, mais Cassandra offre un accès CQL avec des résultats et des fonctionnalités similaires.
L’ETL par lots consiste à utiliser des techniques d’extraction, de transformation et de chargement pour créer un sous-ensemble de Big Data plus exploitable. C’est aussi une approche courante, en particulier lorsque les indications recherchées sont moins urgentes, probablement de l’ordre de quelques heures ou jours après la capture des données. La plupart des outils ETL sont désormais capables de se connecter aux Big Data et de les transformer. Certains s’intègrent même sans problème aux technologies Hadoop sous-jacentes (comme Pig), ce qui est susceptible de simplifier les choses pour le gestionnaire de données.
Par sa simple appellation, le phénomène Big Data peut sembler un concept effrayant à maîtriser, surtout au regard des difficultés que connaissent les entreprises face aux simples « données ». Cependant, ces dernières ont vraiment une chance de surmonter les Big Data en comprenant les sources qui permettent d’y parvenir.
L’opportunité est là pour toutes les entreprises : il ne tient qu’à vous de passer à l’action !