Dossier Comparatif : 4 offres de Big Data dans le cloud

En offrant une montée en charge potentiellement infinie, le cloud sert idéalement les projets de Big Data. Tour d'horizon des offres de Big Data as a Service des principaux ténors, Amazon, Microsoft, Google et IBM.

Le cloud participe à la démocratisation du Big Data. Une start-up ou une entreprise peut tester un nouveau modèle analytique sans avoir besoin de disposer en interne d'un cluster de machines virtuelles ni de compétences particulières. Un PaaS dédié, disponible immédiatement, permet de mener des expérimentations (Proof of concept, POC) puis, une fois le cas d'usage établi, de passer à un mode industriel en s'appuyant sur la capacité de dimensionnement des plateformes de cloud public.

Le terme de Big Data as a service (BDaaS) a ainsi fait son apparition en 2009 avec le lancement du service Amazon Elastic MapReduce (EMR) d'Amazon Web Services (AWS) suivi, trois ans plus tard, par l'offre Azure HDInsight de Microsoft. Dans les deux cas, il s'agit de services d'analyse de mégadonnées. Chacun repose sur les briques de stockage du cloud sur lequel il est basé. IBM SoftLayer a commercialisé plus récemment une solution équivalente.

Ces offres pourraient être requalifiées de "Hadoop as a service" puisqu'elles intègrent le framework open source éponyme et toute la panoplie d'outils qui lui sont associés pour extraire, transformer, charger des données et assurer leur traitement analytique. Azure a recours à la distribution d'Hortonworks tandis qu'Amazon s'adosse à sa propre distribution (EMR) et une distribution tierce avec MapR.

PaaS Hadoop versus requêtes SQL

"Ces PaaS Hadoop reposent sur un modèle de data lake", observe Lise Gasnier, consultante senior chez Wavestone. "On y place des données, potentiellement non structurées, sans préjuger de leur format avant leur chargement dans Hadoop." Le fonctionnement de ces environnements se différencie de Google BigQuery qui s'apparente, lui, à un datawarehouse - en faisant du requêtage SQL sur des données structurées.

La tarification diffère également. Azure et AWS facturent au temps d'utilisation, le premier à la minute, le second à l'heure. "La granularité à la minute d'Azure peut s'avérer avantageuse pour des besoins ponctuels et des traitements dont la durée est connue", estime Lise Gasnier. "Par exemple, j'ai besoin du service 15 minutes par jour pour gérer les pics de charge." Les utilisateurs de Google BigQuery sont, eux, facturés en fonction de la quantité de données stockées, ainsi que du nombre de requêtes et d'inserts en ligne. Un mode de tarification qui peut se révéler très compétitif pour des usages de longue durée comme le montre dans un billet, tableaux à l'appui, ce consultant anglais.

La délicate question du processus de transfert des données

Bien entendu, le choix ne dépendra pas seulement du tarif. Directeur technique de Xebia, Pablo Lopez conseille de s'enquérir du mode d'acquisition des données. "Peu d'entreprises sont 100% cloud. Dès lors, comment emmener mes données sur le cloud si j'ai 1 Po à transférer ? AWS propose d'envoyer des disques durs par coursier, Azure de coupler un cluster local et un cluster distant - pour peu de partager la même distribution Hortonworks. Cela me paraît dangereux mais ça a le mérite d'exister", estime Pablo Lopez.

Il faut ensuite, selon lui, évaluer la partie restitution. A ses yeux, Azure se démarque en proposant un outil de visualisation intégré avec Power BI. AWS et Google ont, eux, multiplié les connecteurs avec des solutions de data visualisation comme Tableau, Qlik ou MicroStrategy.

Data centers Azure et AWS en France en 2017

Pablo Lopez se projette aussi aux étapes suivantes. "Après le Big Data de type batch, le prochain enjeu c'est le traitement des données en temps réel comme le proposent Google avec Dataflow et AWS avec Kinesis", estime le consultant. Enfin, il y a la couche d'intelligence et l'apport des services cognitifs. Là, on trouve notamment IBM (avec Watson) et Google (avec ses APIs de reconnaissance des images ou de la voix).

Au-delà de ces considérations, Lise Gasnier rappelle qu'une entreprise ne se positionne que rarement par rapport à une brique en particulier. "Elle n'héberge pas ses données chez un provider pour assurer leur traitement Big Data chez un autre. Elle rationalise", constate l'expert. De ce point de vue, la richesse de l'offre se révèle être un point clé, mais également la confiance qu'inspire le prestataire. La localisation des données est, à cet égard, un critère étudié de très près. L'ouverture par AWS et Azure de data centers en France en 2017 pourrait faire bouger les lignes et lever des freins.

A noter qu'à côté des offres des ténors Amazon, Google, IBM et Microsoft, plusieurs start-up ou sociétés de services ont lancé leur offre BDaaS à l'image d'Altiscale, Qubole, Bigstep ou d'Ippon Technologies.