Comparatif des cloud data platforms : Microsoft tire son épingle du jeu

AWS, Microsoft Azure et Google Cloud proposent des services de datawarehouse dans le cloud, associant entreposage des données et fonctionnalités intégrées d'analytique et de machine learning.

Les datawarehouses et autre data lakes sont appelés à monter massivement dans le nuage. Hormis à de rares exceptions, les entreprises ont peu d'intérêt à maintenir des entrepôts on-premise alors que le cloud leur offre un espace de stockage potentiellement infini tout en associant la puissance de calcul nécessaire pour interroger les données et assurer leur traitement à des fins d'analyse.

Les hyperscalers américains ne pouvaient rester à l'écart de cette tendance de fond. Cela fait maintenant une douzaine d'années que Microsoft Azure avec Synapse Analytics, AWS avec Redshift et Google Cloud avec BigQuery proposent cette approche de cloud data platform entièrement managée. Des plateformes qui n'offrent toutefois pas le même niveau de complétude et de services.

"Il convient tout d'abord de se mettre d'accord sur la définition et le périmètre d'une cloud data platform, avance Yves Cointrelle, directeur de la stratégie et du développement business intelligence et big data au sein de l'ESN Viseo. S'agit-il juste d'une plateforme pour stocker des données et les analyser ? Doit-elle prendre en compte des données structurées ou non structurées telles la voix, les images ou la vidéo ? Peut-elle gérer tout le cycle de vie de la donnée, de la captation à la restitution ?"

Pour Yves Cointrelle, l'intégration de données est un des facteurs clés de choix. "Toutes les plateformes ne sont pas équivalentes en termes de connectivité ou de capacité à acquérir efficacement les données issues de plateforme on-premise" L'origine des solutions peut donner un éclairage. AWS Redshift, Microsoft Azure Synapse Analytics ont été constituées suite à des rachats de technologies originellement on-premise. En 2012, Amazon rachetait ParAccel, une société spécialisée dans les entrepôts de données tandis que Microsoft a fait évoluer la solution Datallegro acquise en 2008. "Google est parti, lui, d'une feuille blanche pour démarrer sur une solution nativement full cloud", poursuit Yves Cointrelle.

L'ergonomie de l'interface d'intégration est aussi à prendre compte. "Pour certaines organisations, l'approche code en Python fait peur. En général, les hyperscalers proposent à la fois une approche de type studio - Azure Data Factory, AWS Glue Studio ou Google Cloud Fusion - et pour les plus geeks du codage de pipelines exécutés sur des clusters Spark." Autre critère discriminant : la data visualisation. Dans ce domaine, "Microsoft fait la course en tête avec le best-seller Power BI et demain Fabric, juge Yves Cointrelle. Google a acquis Looker, pertinent dans les contextes BigQuery et AWS dispose de QuickSight mais qui reste assez confidentiel."

Gouvernance de la donnée et modèle de facturation

En revanche, Google Cloud a été le premier à proposer une approche "mesh" à savoir une capacité à requêter depuis BigQuery des données stockées dans d'autres cloud. En ce qui concerne l'adoption de l'IA générative, les trois hyperscalers se sont lancés dans une course contre la montre. Microsoft a tiré le premier grâce à sa participation significative dans OpenAI. Les deux autres ont répliqué avec Gemini chez Google et des partenariats avec Anthropic ou Stability AI côté AWS.

Dans le choix d'une cloud data platform, il convient également, selon Yves Cointrelle, de regarder les mécanismes de data gouvernance proposés pour la qualification et la préparation des donnée, le suivi du cycle de vie (data lineage), la gestion des métadonnées, la création d'un glossaire métier ou d'un dictionnaire des données. Il s'agit, par ailleurs, d'assurer la traçabilité des données – Qui fait quoi ? Qui les met à jour ? – et identifier les données sensibles pour se mettre en conformité avec le RGPD. Microsoft Azure propose, à cet effet, Purview, Google Cloud Dataplex, et AWS DataZone.

Enfin, le modèle de facturation peut peser à l'heure des choix. "Le paiement à l'usage est intéressant si on maitrise bien sa consommation, observe l'expert. En revanche, si l'activité connaît une croissance exceptionnelle, il est difficile d'anticiper ses besoins et la facture peut vite exploser. Le modèle capacitaire de type Microsoft Fabric peut être alors préféré."

"Quelle que soit la plateforme retenue, le choix est structurant, conclut Yves Cointrelle. Il est complexe et coûteux de se désengager une fois que l'on a placé ses données dans AWS Redshift, Microsoft Azure Synapse Analytics ou Google BigQuery. Les coûts de portabilité vers une autre plateforme peuvent être dissuasifs." Pour éviter ce risque d'enfermement, certaines entreprises ont adopté une approche best of breed en retenant un outil d'intégration indépendant de type Informatica ou Talend, Dbt ou Fivretran et des solutions de data platform tierces de type Snowflake ou Databricks.

	AWS Redshift	Microsoft Azure Synapse Analytics	Google Cloud BigQuery
Année de lancement	2012	2019	2012
Modèle de calcul dédié	X	X
Approche sans serveur (serveless)	X	X	X
Approche Zero ETL	X		X
Interface graphique dédiée (studio)		X	X
Outil de datavisualisation		X	X
Offre gratuite	Crédit de 300 $ à utiliser dans un délai de 90 jours	Crédit de 200 $ à utiliser dans un délai de 30 jours	Jusqu'à 1 To de requêtes par mois
Modèle de tarification (HT)	Tarif horaire basé sur le type et le nombre de nœuds du cluster (à partir de 0,25 $), plus coûts liés au stockage ou à la mise à l'échelle.	Coûts liés à l'intégration (à partir de 0,257 $ par heure), l'entreposage (5 $ par To en serverless) et le traitement big data (à partir de 0,143 $ par heure)	Coûts liés au stockage (à partir de 0,01 $ par Go), à l'ingestion et l'extraction de données et au calcul ( à partir de 0,04 $ par emplacement et par heure)

Amazon Redshift, la popularité du requêtage SQL

Lancé en 2012 par AWS, Amazon Redshift est un service de data warehouse entièrement managé dans le cloud, capable de gérer des volumes de données de l'ordre du pétaoctet. Les données sont stockées selon le principe du système de gestion de base de données (SGBD) en colonnes. Amazon RDS s'appuie sur une architecture massivement parallèle pour réduire le temps d'exécution.

Les adeptes du dialecte de requêtage SQL ne seront pas désarçonnés, la plateforme faisant appel au moteur PostgreSQL, un standard du marché. Elle s'interface aux applications tierces via les protocoles ODBC (Open Database Connectivity) et JDBC (Java Database Connectivity). Plus spécifiquement dédiée au big data, cette offre complète d'autres services au catalogue d'AWS qu'il s'agisse de gérer des bases relationnelles (SimpleDB, Amazon RDS) ou non relationnelles (DynamoDB).

AWS a rapidement proposé une option sans serveur. En mettant automatiquement à l'échelle l'infrastructure en fonction de la charge de travail Amazon Redshift Serverless décharge l'utilisateur de sa configuration et de sa gestion. Le géant du cloud a fait récemment savoir que ce dimensionnement automatique et les optimisations du service étaient désormais pilotés par l'IA.

Autre annonce remontant à novembre : la mise en page des données multidimensionnelles. A la différence des méthodes de tri traditionnelles qui répartissent les données en fonction d'une ou de plusieurs colonnes de table, le "Multidimensional Data Layouts" trie les données en fonction des filtres de requêtes entrants - par exemple, les ventes dans une région donnée. "Ce qui accélère considérablement les performances des analyses de tables", avance le numéro un du cloud public

Azure Synapse Analytics, un environnement à 360°

Lancé fin 2019, en remplacement d'Azure SQL Data Warehouse, Azure Synapse Analytics assure l'intégration, la préparation, la transformation et l'entreposage des données à des fins d'analyse. La plateforme prend en charge SQL, s'appuie sur les technologies Apache Spark pour le big data et Azure Data Explorer pour l'analytique et l'exploration de données de journaux ou de séries chronologiques.

Azure Synapse Analytics tire sa force de sa capacité à combiner la gestion du cycle de vie de la donnée et les ressources d'analyse associées dans un environnement unifié. Depuis une interface 100 % graphique (Synapse Studio), l'utilisateur peut créer des pipelines sans recourir à un ETL tiers.

Une fois la donnée ingérée et préparée, elle peut répondre à des projets de business intelligence ou de machine learning. Azure Synapse Analytics s'interface aux autres services de Microsoft, à commencer par Power BI pour la data visualisation, Azure Cognitive Services et Azure Machine Learning pour l'IA.

Microsoft a même créé sa propre concurrence en lançant, en mai dernier, Fabric. Cette plateforme d'analyse rassemble les différents services maison d'intégration, de mesh, de stockage d'IA et de dataviz tels qu'Azure Data Factory, Azure Synapse Analytics et Power BI. Pour Yves Cointrelle, cette solution tout en un qui ne nécessite pas de prendre de souscription Azure s'adresse avant tout aux PME et ETI.

Google BigQuery, l'approche 100 % managé et multicloud

Lancé en 2012, Google BigQuery est un entrepôt de données d'entreprise conçu nativement pour le cloud. Entièrement managé et sans serveur (serverless), il s'adapte automatiquement pour répondre aux besoins de capacités de stockage et de puissance de calcul. L'utilisateur peut effectuer des requêtes SQL simples ou recourir aux fonctionnalités intégrées dédiées au décisionnel et au machine learning.

Google a été le premier des hyperscalers à proposer une approche multicloud. BigQuery Omni permet d'interroger des données qui se trouvent sur les cloud de Microsoft Azure (Blob) et d'AWS (Amazon S3) sans avoir à les déplacer ou les copier. Google BigQuery s'adresse avant tout aux experts de data science, aux développeurs et aux gestionnaires de données. Ils interagissent avec la plateforme en appelant son API REST ou via une interface en ligne de commande.

Depuis août dernier, et le lancement de BigQuery Studio, cette population dispose d'un espace de travail collaboratif. Réunissant différents services de Google Cloud (Dataproc, Dataflow, BigLake, Vertex AI), ce hub unifié permet d'accélérer les flux de travail d'un projet d'IA, de l'ingestion et la préparation de données jusqu'à l'entraînement et l'inférence. L'utilisateur peut accéder à des modèles dédiés, par exemple, à l'analyse des sentiments.