Big Data : comparatif des offres Hadoop en mode cloud Google : BigQuery, mais aussi MapR dans le viseur

L'offre de Big Data de Google s'appuie sur Google Storage, sa solution de stockage. Dans un premier temps, Google a proposé BigQuery. Cette solution d'analyse de données en masse s'appuie sur un sous ensemble de SQL pour réaliser le requêtage sur des données stockées dans Google Storage. 

Ce moteur est accessible aux applications via ses API Rest, JSON-RPC, ainsi qu'aux scripts Google App. Il est notamment possible de lancer une requête et intégrer ses résultats dans une simple feuille de calcul Google Spreadsheet. 

Une console graphique et une API programmatique Rest

console du service bigquery de gestion des requêtes.
Console du service BigQuery de gestion des requêtes. © Capture / JDN

Parmi les atouts de la plateforme de Google, Didier Girard, directeur des opérations et de l'innovation de Sfeir mais aussi Cloud Google Developers Expert souligne : "L'API Rest est très bien faite et très agréable à utiliser. Le temps de démarrage des serveurs est très rapide. Il faut moins d'une minute pour monter un serveur et ceux-ci sont aussi très rapides à arrêter." Ainsi, il est tout à fait possible d'utiliser la facturation à la minute de la plateforme en ne faisant fonctionner les serveurs que quelques minutes, pour mener à bien un calcul. Une rapidité qui rend la solution de Big Data de Google très compétitive en termes de coût de fonctionnement selon Didier Giard qui ajoute : "BigQuery est aussi un gros plus de la Google Cloud Platform, c'est un outil d'analyse très puissant et déverser ces traitements dans BigQuery est très utile."

Google a étendu cette offre de Big Data propriétaire avec un connecteur Hadoop pour Google Cloud Storage. Celle-ci rivalise ainsi désormais plus directement avec les autres offres "Hadoop as a Service" du marché. S'appuyant sur le service de stockage Google Colossus ou sur HDFS, le connecteur permet de mettre en place des clusters Hadoop "standards" sur l'infrastructure de Google, avec ce que cela suppose en termes de scalabilité et de performance. Google met d'ailleurs en avant la vitesse de démarrage des machines virtuelles du Compute Engine comme un atout majeur de son offre Hadoop. Il est à souligner que la distribution MapR est elle-aussi disponible sur le cloud de Google, de même que l'offre Hadoop managée de Qubole.

Google / Big Data