Comparatif des cloud data platforms : Google BigQuery impose sa marque
Avec l'émergence de l'analytics et de l'IA, les cloud data platforms deviennent des actifs stratégiques. Ce marché est dominé par quelques éditeurs parmi lesquels Databricks, Google, Microsoft, Snowflake et AWS. Au sein de ce petit groupe de leaders, Google tire son épingle du jeu grâce à une approche à la fois performante et très intégrée.
AWS Redshift | Databricks | Google BigQuery | Microsoft Fabric | Snowflake | |
---|---|---|---|---|---|
Multicloud | X | X | |||
Connexion au data plateformes tierces sans réplication | X | ||||
Solution d'IA intégrée | X | X | X | X | |
Plateforme data intégrée | X | ||||
Forte dimension de traitement temps réel | X | X | |||
Modèle SaaS | X | X |
Au sein de ce paysage, Google BigQuery est la technologie la plus en vue. "Comme Snowflake, cette offre se présente comme une base SQL haute performance en mode cloud", commente Yves Cointrelle, directeur de la stratégie et du développement BI et big data chez Viseo. "Cette offre a gagné la confiance des acteurs avec des besoins en stockage de données massifs en proposant à la fois de la puissance et un tarif relativement peu onéreux. C'est le cas notamment des retailers qui sont en parallèle intéressés par l'intégration de BigQuery à Google Analytics." Dans le même temps, BigQuery fait preuve de capacités de traitement temps réel grâce aux technologies Pub/Sub et Dataflow.
Une plateforme data intégrée
Xavier Salemi, directeur du pôle tech for data chez Talan, ajoute : "Autour de BigQuery, Google a développé tout un écosystème technologique. Il propose notamment l'offre d'extraction, de transformation et de chargement de données Google Data Fusion, le modèle de transformation de données Dataform et l'environnement d'IA Vertex." A cela s'ajoute un outil de data gouvernance baptisé Dataplex. "Etant intégré au cloud de Google, BigQuery est conçu pour gérer de très fortes volumétries. C'est ce qui fait sa marque de fabrique. Contrairement à Databricks qui est à la base taillée pour les développeurs avec ses interfaces SQL et Python, BigQuery se démarque par sa facilité d'accès", souligne Lionel Noufele Piaple, directeur enterprise data analytics chez Capgemini Invent.
Résultat : les grands comptes se tournent massivement vers BigQuery pour gérer leur data lake. C'est le cas en France de Renault ou de LVMH. Globalement, les clients sélectionnent d'abord Google Cloud pour piloter leurs datas. D'ailleurs quand ils ont fait ce choix, la question d'utiliser Databricks ou Snowflake ne se posent généralement plus.
"A la différence de Snowflake, on aura plutôt tendance à se tourner vers Databricks pour réaliser des traitements temps réel en volumes"
Du côté d'Amazon, la tendance est très différente. "Les clients se tourne le plus souvent vers Redshift après avoir fait le choix d'AWS en termes de IaaS ou de PaaS", constate Xavier Salemi. Mais ces clients sont de moins en moins nombreux. Comme pour ceux qui ont pris parti pour Microsoft Fabric, ils seront plus enclins à se tourner vers Databricks ou Snowflake en parallèle.
"A la différence de Snowflake, on aura plutôt tendance à opter pour Databricks en vue de réaliser des traitements temps réel en volumes. Sur ce point, n'oublions pas que cet éditeur a fait historiquement le choix du framework big data open source Spark, ce qui le rend nativement performant pour réaliser du streaming de données, de l'analytique temps réel et du machine learning. Au fil des années, Databricks s'est étendu en intégrant un format de stockage de type lakehouse qui évite de dupliquer l'information entre un data lake et une structure de base de données traditionnelle. Les autres acteurs l'ont ensuite suivi sur ce terrain", ajoute Xavier Salemi.
Autre avantage, Databricks a intégré la dimension IA très tôt avec notamment MLFlow et l'intégration native de notebooks, là où Snowflake ne s'est hissé dans ce domaine que plus tard. "Historiquement, Databricks était l'offre préférée des data scientists. Il doit en grande partie son succès à sa capacité à exécuter des modèles de machine learning, avant de s'étendre à la dimension de lakehouse que BigQuery, Snowflake et Redshift avaient d'emblée dans leur ADN. C'est un point fort qui perdure encore aujourd'hui. N'oublions pas qu'OpenAI est le plus gros client de Databricks", note Yves Cointrelle. Reste que, désormais, Snowflake intègre une solution, également baptisée Cortex, qui recouvre à la fois machine learning traditionnelle et IA générative.
Face à Databricks, Snowflake mise sur la simplicité. "C'est le premier acteur de la data platform à s'orienter vers le noOps", indique Xavier Salemi. Et Yves Cointrelle d'ajouter : "Commercialisé en mode SaaS, Snowflake est plus simple à mettre en œuvre que BigQuery qui demeure un environnement cloud qu'il faudra instancier et administrer." Dans cette logique, Snowflake intègre un outil de développement sans code baptisé Streamlit qui permet de créer des data storytelling avec un fort niveau de personnalisation. C'est aussi le premier acteur a implémenté la notion de data sharing pour partager les données avec tel ou tel département où acteur externe. Depuis, les autres éditeurs lui ont emboité le pas. "Avec Snowflake, la complexité du cloud sous-jacent est masquée. En revanche, lorsqu'on veut pousser ses limites en termes de scalabilité, il faudra faire preuve d'un peu plus de technicité pour ajuster les besoins. A la différence de Databricks qui bénéficie de Spark, il pourra aussi souffrir de temps latence sur les traitements temps réel", note Lionel Noufele Piaple.
Pour faire appel à d'autres technologies, Snowflake comme Databricks disposent tous deux d'un hub d'intégration. "Récemment, Databricks et Snowflake ont en outre tous deux annoncé le rachat d'éditeurs sur le front des bases de données PostgreSQL, l'objectif étant de renforcer leur capacité de gestion de bases de données relationnelles", ajoute Guillaume Darves-Bornoz, responsable du pôle data architecture du data center of excellence de Sopra Steria.
Snowflake et Microsoft Fabric : deux offres SaaS
Face à Snowflake, Databricks multiplie les annonces. L'acteurs s'est notamment doté d'une solution de connectivité et d'extraction de données. Il a également lancé Databricks One pour faciliter l'accès à ses fonctionnalités de data et d'IA, y compris pour les utilisateurs métier. En février 2025, il s'est offert BladeBridge, un outil de migration taillé pour automatiser le transfert de bases de données internes vers sa propre plateforme. Lors de son événement mondial début juin, il a aussi présenté une solution d'interrogation de données par la voix permettant par exemple de générer des tableaux consolidés à la volée.
Côté Microsoft Fabric, l'application de BI en mode cloud Power BI de l'éditeur de Redmond, utilisée à ce jour par plus de 80% du CAC40, fait figure de produit d'appel. Intimement intégrée à Fabric, elle s'accompagne d'une technologie baptisée Shortcut One Lake permettant de se connecter à des sources de données tierces et de les répliquer à la volée. Techniquement, Fabric se présente sous la forme d'un repackaging de services Azure (Synapse Server, Azure Data Factory...). Objectif : proposer, à l'instar de Snowflake, une solution data en mode SaaS qui soit simple à utiliser. Autre point de différentiation, la plateforme de Microsoft est la seule solution de ce comparatif dont le prix n'est pas calculé à l'usage. Le pricing est tarifé soit en fonction du nombre d'utilisateurs soit au regard d'une capacité machine forfaitaire. Reste à savoir si à terme Microsoft pourrait prendre l'ascendant sur Google et son offre BigQuery.