Comparatif : 4 offres de Big Data dans le cloud Google BigQuery, la performance du requêtage SQL

Lancée en 2012, l'offre de Big Data as a Service (BDaaS) de Google se différencie par sa philosophie. BigQuery est une solution d'analyse de données en masse reposant sur Google Storage. A la différence des PaaS Hadoop, cette offre permet d'exécuter des requêtes SQL à partir de données structurées. Soit sur des formats tels que Jison, CSV ou Avro.

BigQuery fait appel pour cela à Dremel, le moteur de requêtes distribué développé par Google. Une solution qui repose sur une technologie de bases de données en colonnes s'appuyant sur la parallèlisation. "BigQuery permet de faire du requêtage en temps réel avec de très bonnes performances. Hive, la couche de structuration d'Hadoop, n'offre pas les mêmes performances", note Lise Gasnier chez Wavestone.

Une mise en œuvre simple, à la portée du business

Autre atout aux yeux de la consultante senior, la simplicité de déploiement. "Il suffit d'avoir un compte et de charger des données alors qu'un PaaS Hadoop nécessite un peu d'administration pour faire grandir le cluster, monter en version", note-t-elle. Le profil type de l'utilisateur de BigQuery est celui d'un spécialiste de la BI orienté métier et non d'un administrateur technique. Pour la partie décisionnel et datavisualisation, BigQuery peut se connecter à Google Analytics et Google Data Studio. Il s'intègre aussi à des outils tiers, comme Tableau, Qlik, Talend ou SnapLogic.

En parallèle à BigQuery, Google a lancé, en 2015, Dataproc, son offre Hadoop as a service. Facturée 1 centime de dollar par heure et par CPU virtuel, elle intègre pour l'instant les briques Spark, Pig et Hive.

Google BigQuery en bref

Points forts

Points faibles

- La force du moteur de requêtes Dremel

- La facturation à l'usage

- La jeunesse de l'offre PaaS Hadoop

- L'absence de "vrai" outil de dataviz en mode natif