Data lake as a Service : Amazon et Microsoft surnagent, Google sous l'eau

Data lake as a Service : Amazon et Microsoft surnagent, Google sous l'eau Tour d'horizon des services de lac de données proposés par les trois fournisseurs de cloud. Voici leurs avantages et inconvénients.

Choisir une offre de Data Lake as a Service (DLaaS) n'est pas chose aisée. Avec pour objectif de fédérer l'ensemble des informations business d'une organisation dans l'optique de mieux les recouper (et in fine accélérer les cycles d'innovation), un lac de données fait intervenir nombre de processus. Au-delà de l'exécution des traitements via des infrastructures de calcul big data (comme Hadoop ou Spark), il implique de gérer en amont l'intégration des données, puis leur stockage, leur supervision, leur exploration... "Une solution de DLaaS doit par conséquent s'adosser à plusieurs services cloud pour piloter ces différentes tâches", insiste Bachar Wehbi, computer science manager au sein de l'équipe solution et innovation de Keyrus, un cabinet français expert en analytics.

Sur le segment du DLaaS, trois géants du cloud avancent leurs pions : Amazon Web Services (AWS), Microsoft et Google. Dès 2009, AWS est le premier à proposer un framework big data digne de ce nom. Il s'agit d'Elastic MapReduce. Microsoft lui emboîte le pas en 2012 en lançant Azure HDInsight. En 2015, c'est au tour de Google de passer à l'offensive avec son environnement DataProc. Les trois offres ont un point commun : elles s'adossent toutes au service de stockage de leur cloud respectif (S3 dans le cas d'Amazon, Azure Storage pour Microsoft et Cloud Storage chez Google). Au fil des années, ces premières briques ont été enrichies de produits complémentaires :

Les services de DLaaS d’Amazon, Microsoft et Google
  Amazon Web Services Google Cloud Platform Microsoft Azure
PaaS big data Google Elastic MapReduce (avec Apache Hadoop, Spark, Habse, Flink, Presto). Distribution Hadoop de MapR en mode managé Google DataProc (avec Apache Hadoop et Spark) Azure HDInsight (avec Apache Hadoop, Spark, R Server, HBase, Storm et Kafka et la distribution Hadoop d'Hortonworks), Distribution Spark de Databricks en mode managé
Stockage Amazon S3, Amazon Glacier  Google Cloud Storage Azure Storage, Azure Data Lake 
Big data serverless Amazon Glue (Spark)  Google DataFlow (avec Apache Beam) Azure Data Factory (Spark)
Entrepôt de données Amazon RedShift Google BigQuery (serverless) Azure SQL Data Warehouse
Requêtage serverless Amazon Athena Non Azure Data Lake Analytics
Extraction, transfert et chargement de données AWS Glue, AWS Batch Google DataFlow Azure Data Factory, Azure Batch 
Traitement temps réel Amazon Kinesis Google DataFlow, Google PubSub Azure Event hub, Azure Stream Analytics
Exploration de données / BI  Amazon QuickSight Google Data Studio (bêta) PowerBI
Migration de données  AWS Database Migration Service, AWS Snowball Cloud Dataprep (service de transformation de données uniquement) Azure Database Migration Service, Azure Data Box
Catalogue de données  AWS Glue Data Catalog Non Azure Data Catalog
Identification des données personnelles  Amazon Macie Non (pas de service packagé, mais une API disponible) Non
Hébergement physiquement et juridiquement localisé en Europe Non Non Oui
Sources : Keyrus / JDN

Comparé à Google, Amazon et Microsoft affichent une palette de services globalement plus riche. "En même temps, chacun a ses points forts. L'environnement DLaaS de Microsoft par exemple ressort en termes d'expérience développeur, alors qu'Amazon, notamment du fait de son ancienneté, se distingue par sa maturité technologique", estime Bachar Wehbi. Et Benoît Petitpas, practice leader big data pour l'ESN SQLI, d'ajouter : "L'un des gros avantages de l'offre d'AWS est de faciliter le déploiement d'architecture lambda combinant traitements rapides d'un côté, via les services Kinesis et Redshift, et traitements par lots (ou batch, ndlr) de l'autre, grâce à ses implémentations Hadoop basées sur Amazon S3."

Mais dans le cas d'un data lake qui nécessiterait de l'IA, Amazon Web Services n'est pas le mieux placé. "En matière de machine learning, Microsoft et Google ont une longueur d'avance", constate Bachar Wehbi. Sur ce terrain, les services du premier (Azure ML) sont, il est vrai, nettement plus riches en fonctionnalités que ceux d'AWS (lire l'article : Amazon dessine les contours d'une plateforme cloud d'IA). "Quant à Google, il reste le maitre en deep learning", souligne Bachar Wehbi, en évoquant le natural language processing et la vision par ordinateur.

Un point faible : la data gouvernance

Que proposent les trois fournisseurs autour du data management ? "C'est leur point faible à tous. Ce qui est d'autant plus dommageable qu'il s'agit là du principal défi technique d'un projet de lac de données", lâche Bachar Wehbi. Un data lake pouvant fédérer des centaines (voire des milliers) de flux d'informations en provenance de différentes entités, il ne peut en effet faire l'impasse sur un outillage industrialisant le pilotage et la traçabilité des contenus ingérés. Du fait de sa complexité, ce volet représenterait même le principal poste de dépense du chantier. "Ce qui, d'un point de vue purement financier, n'incite pas non plus les DSI à se tourner vers des clouds avec peu ou pas valeur ajoutée face à cette question", ajoute Benoît Petitpas. Résultat : les DLaaS d'AWS comme ceux de Google et Microsoft seraient à ce jour encore assez peu utilisés. "Au final, installer un data lake en interne, sur un cloud privé, pourra représenter seulement 10% à 20% de la dépense globale. Compte tenu de relatif faible coût, les entreprises ont donc tendance, après avoir testé leur data lake sur un cloud public sans risque financier, à le déployer en production chez elles", analyse Benoît Petitpas.

Microsoft et Amazon commencent tout juste à s'attaquer au problème. Tous deux avancent désormais un service permettant de cartographier un data lake et d'en historiser les traitements (Glue Data Catalog pour le premier et Data Catalog pour le second). "Dans la même logique, ils ont aussi intégré des solutions tierces d'éditeurs spécialisés en data management tels Informatica ou Talend", note Benoît Petitpas. De son côté, Google dispose d'une offre de data gouvernance beaucoup moins riche, qui se limite pour l'heure à un service de transformation de données (Cloud Dataprep).

"Amazon propose un service basé sur le machine learning pour automatiquement identifier les données personnelles"

Sur le front du pilotage de la data, l'entrée en vigueur du nouveau règlement européen sur les données personnelles (RGPD) introduit un nouveau critère de comparaison. Pour répondre à ce nouveau cadre légal, Microsoft est à ce jour le seul des trois providers de notre comparatif à avoir doté son cloud d'une région juridiquement localisée sur le Vieux continent, en Allemagne (en matière de data lake, celle-ci donne d'ailleurs accès à HDInsight). Pour ce faire, sa structure légale a été déléguée à T-System. L'ESN filiale de Deutsche Telekom assure son hébergement dans ses propres datacenters (à Magdebourg et Francfort). Les données qui y sont stockées demeurent ainsi à 100% sous législation européenne. Elles échappent donc au Cloud Act américain qui, rappelons-le, oblige toute entreprise de droit US à donner accès à ses plateformes informatiques à l'administration fédérale des Etats-Unis dans le cadre d'une perquisition. Et ce quelle que soit leur localisation à travers le monde. D'après nos informations, Microsoft envisagerait désormais de réaliser le même montage côté français.

Toujours sur le front de la gestion des données personnelles, AWS serait, lui, un peu plus avancé en termes d'outillage. Le cloud de Jeff Bezos propose en effet un service baptisé Macie spécialement taillé pour adresser la problématique. "Il fait appel au machine learning pour classer automatiquement les contenus et identifier ceux qui contiennent des données personnelles ou de propriété intellectuelle", détaille Bachar Wehbi. Cette brique pourrait même surveiller en permanence l'activité liée aux data, détecter les anomalies et risques d'accès non autorisé tout comme les fuites d'informations. "Aujourd'hui, les clouds de Google et de Microsoft n'ont pas de dispositif équivalent", pointe Bachar Wehbi. S'il n'offre pas de service packagé sur ce terrain, Google a néanmoins bâti une API pour détecter et classer les données personnelles. 

Amazon Macie ne serait pas pour autant une solution miracle. "Il faut avant tout la considérer comme une aide dans la mise en conformité aux normes réglementaires sur les données personnelles et pas un service out of the box", prévient Bachar Wehbi.