Big data : à la recherche de la ‘Big solution’

Afin d’éviter de se retrouver au creux de la vague, les éditeurs de la business intelligence n’ont eu le choix que de développer leurs solutions Big data. Chaque éditeur a sa stratégie, elle est souvent fondée sur ses points forts (bases de données, analytics, open source…etc.).

Après une présentation du Big Data, cette chronique a pour objectif de faire un tour d’horizon des solutions Big data du Marché. L’immaturité des technologies qui entourent le Big data et la nouveauté des solutions proposées nous laissent penser qu’il est encore trop tôt pour une évaluation rigoureuse.
Cependant, il nous a semblé utile d’étudier les prémisses de ce marché afin de faire face aux nouveaux défis qui attendent les entreprises, désireuses de tirer pleinement profit de toutes leurs données.

1. Aux origines du Big data

 Bien que l’expression Big data trouve ses origines dans les rapports du Gartner (2008), les premières publications qui concernent le traitement massif des données remontent à 2003. Google donne le « la » en publiant : «The Google File System » [1] qui est un système de gestion de fichiers distribués. Dans sa lancée,  Google publie deux autres papiers successivement en  2004 et 2006. Le premier, MapReduce: Simplified Data Processing on Large Clusters [2] qui est un modèle de programmation sur un volume important de données. Le deuxième concerne un système de bases de données distribuées : « Bigtable : A Distributed Storage System for Structured Data »[3]. Ce dernier a d’ailleurs inspiré un nombre important de bases de données NoSql comme Hbase ou Cassandra. Les travaux de Google ont ouvert la voie à la fondation Apache pour développer Hadoop, qui est rapidement  devenue la pierre angulaire des projets Big data.

2. Hadoop, la technologie du Big data

Conçu initialement par  un ingénieur Yahoo (Dug Cutting), Hadoop est aujourd’hui un projet Open source, géré par Apache Software Foundation. Il est composé d’une collection de produits et de technologies, visant à faire face aux trois caractéristiques du Big Data : volume, vitesse, et variété des données.
Les deux principales composantes de Hadoop sont Hadoop Distributed File System et MapReduce Engine. Le système Hadoop décompose les données pour les traiter en parallèle sur plusieurs nœuds permettant ainsi de démultiplier presqu’à l’infini sa capacité de traitement des données (MapReduce).
Actuellement, plusieurs distributions Hadoop existent sur le marché parmi lesquelles : Amazon EMR, Cloudera, Greenplum/Pivotal, Hortonworks et MapR

3. A quel fournisseur se vouer ?

 A l’évidence, tous les fournisseurs de solutions  BI sans exception ont pris conscience que le virage du Big data était inévitable. Le doute qui consistait  à présenter le Big data comme un effet de mode s’est dissipée pour laisser place à une certitude : le Big data est un levier stratégique pour les entreprises.
A partir de ce constat les fournisseurs de solutions BI sont  partis à la conquête du marché du Big data.  Le jeu en vaut effectivement la chandelle du fait que Transparency Market Research prévoit un chiffre d’affaire du marché Big data en 2018 à 48,3 milliards de dollars.  Un exemple de cet engouement est l’annonce faite par Talend d’investir 40 millions de dollars pour développer son secteur Big data notamment autour de la technologie Hadoop et NoSql.
La concurrence propose aussi des solutions innovantes. Néanmoins, l’infrastructure Hadoop (avec ses différentes distributions)  reste la solution incontournable pour faire face aux problématiques de données massives. C’est pourquoi, cette plateforme a fait quasiment l’unanimité auprès des fournisseurs de solutions Big data.

 4.     Tour d’horizon des solutions Big data

 Ce tour d’horizon nous a permis de mettre en évidence que les éditeurs conservent leur avantage compétitif dans la Business Intelligence (voir tableau ci-après).

  • Oracle se veut le plus complet en proposant un éventail de solutions allant du stockage à l’analyse des données. Il propose Oracle Big Data Appliance, utilisant Hadoop, qui permet  l’acquisition, l’organisation et le chargement des données non structurées dans Oracle data base. La liaison entre Hadoop, Oracle data base et Oracle data integrators est assurée par Oracle Big Data Connectors.
  • IBM quant à  lui propose IBM InfoSphere BigInsights. Basé sur Hadoop, cette solution permet de stocker, gérer, et analyser un grand volume de données structurées et non structurées. A cela s’ajoute l’optimisation par IBM de Pure data system.
  • Microsoft reste fidèle à sa stratégie de rendre accessible ses outils aux utilisateurs finaux. Il met à disposition une distribution Hadoop pour Windows Server et Windows Azur. L’objectif étant de faciliter l’accès et l’utilisation de Hadoop aux développeurs. Avec Excel Hive les utilisateurs finaux peuvent analyser les données à partir de Hadoop. La stratégie est claire : faire de JavaScript le langage du Big data, ce qui permettra à terme aux utilisateurs de créer des tâches MapReduce aussi bien en JavaScript, qu’en Hive, ou qu’en Pig latin. Pour se faire Microsoft compte généraliser l’accès à la console JavaScript.
  • SAS laisse apparaître sa stratégie en matière de BIG DATA dans la phrase suivante: La valeur des Big data sera dans leur usage. SAS conserve son leadership dans le big data analytics (Forrester, 2013)[4]. Il renforce aussi ses solutions analytics en proposant High-Performance analytics dans sa plateforme SAS Business Analytics 9.4. Des solutions In-Memory sont proposées allant de l’analyse statistique au data Mining et le texte Mining.
  • Talend en diversifiant son offre Big data mérite sa place dans la cour des grands. Il décline trois produits dont Talend Platform for Big Data assez large pour répondre à la problématique globale. L’offre Talend utilise : MapReduce, Hadoop, Hbase, Hive, HCatalog, Oozie, Sqoop et Pig.

Tableau 1 : Solutions Big DATA

Fournisseurs de solutions Big data Produits
Oracle Oracle NoSql Database Oracle data base Oracle Big Data Appliance Oracle data integrator Oracle Big Data Connectors Oracle advanced Analytics Oracle exadata DataBase machine Oracle Exalytics In-Memory Machine
SAS SAS® High-Performance Statistics SAS® High-Performance Data Mining SAS® High-Performance text Mining

SAS® High-Performance Econometrics

SAS® High-Performance Forecasting

SAS® High-Performance Optimization

SAS® Visual Analytics

IBM IBM InfoSphere DataDiscovery IBM InfoSphere BigInsights* IBM InfoSphere Streams JAQL Pure data system for Hadoop

Pure data system for analytics (IBM Netezza)

Pure data system for operational Analytics

Pure data system for transaction  
Microsoft

Distribution basée sur Hadoop pour Windows Server et Windows Azure

Excel Hive

console JavaScript

 
SAP SAP HANA Platform
Qlik View

Plateforme  Big data Qlik View

Talend Talend Open Studio for Big Data  Talend Enterprise Big Data Talend Platform for Big Data
Statsoft STATISTICA Entreprise  STATISTICA Live Score  STATISTICA Data Miner

5.     Conclusion

 Nous avons pu constater que l’avènement du phénomène Big data n’a toujours pas permis une redistribution des cartes sur le marché de la BI. En revanche, la technologie Open source qui reste prédominante et l’investissement dans ce marché va permettre l’émergence de quelques éditeurs  sur la scène du Big data. Des éditeurs BI, à l’instar de Talend ou Qlik View, autrefois spécialisés respectivement dans l’intégration et le reporting proposent désormais des plates-formes Big data. Tout ceci me laisse penser qu’en matière de Big data la messe est loin d’être dite.

---------
[1]
Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung , The Google File System, 2003, Google
[2]
Jeffrey Dean, Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters, 2004, Google
[3]
Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A . Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber, Bigtable: A Distributed Storage System for Structured Data, 2006, Google.
[4]
Mike Gualtieri, The Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 2013.


Big Data