Riak : cette techno de données qui défit Oracle sur ses terres historiques

L'Américain Basho lance sa plateforme de données en France. Orientée NoSQL, elle est faite pour les clusters et la haute disponibilité. Son point fort : sa simplicité d'administration.

Gérer 100 000 transactions par seconde avec une latence inférieure à 20 millisecondes. C'est là la performance revendiquée par The Weather Company, l'un des principaux fournisseurs mondiaux de données météo. La société alimente notamment l'app météo fournie dans les iPhone. Elle recueille chaque jour 20 à 40 To de données en provenance de satellites et stations météo réparties à travers la planète. Derrière ce service, se cache un cluster de base de données basé sur la technologie Riak Enterprise. Grâce à ce système, The Weather Company est capable de livrer 2,6 milliards de prédictions météo en permanence.

57,5 millions de dollars
levés depuis 2008

"Notre plateforme est taillée pour les applications critiques impliquant de gros volumes de données, avec des besoins de haute disponibilité et de tolérance de panne", résume Emmanuel Marchal, directeur EMEA chez Basho, l'éditeur de Riak. "L'un des principaux points forts de notre technologie réside dans la simplicité opérationnelle qu'elle procure."

Basho a levé au total 57,5 millions de dollars depuis sa création en 2008. La société revendique 200 clients. Ils se recrutent dans tous les secteurs confrontés à des problématiques de Big Data transactionnel : les télécoms, la finance, le médical, le jeu en ligne, mais aussi l'industrie.

Un concurrent sérieux pour Oracle

Parmi les plus grands clients de Basho : General Electric (GE), qui motorise son cloud orienté Internet des objets (IoT), Predix, avec sa technologie. Ce service permet de surveiller en temps réel l'état des moteurs d'avion construits par GE, mais aussi de contrôler des pompes industrielles ou des infrastructures de traitement d'eau, avec la capacité de délencher une maintenance prédictive. Sous le capot, Riak fédère les flux de données en provenance des différents capteurs industriels de GE.

Une automatisation de la gestion de bases en cluster

Limitée au départ à une base NoSQL clé/valeur (Riak KV), l'offre de Basho s'est ensuite enrichie de deux autres bases NoSQL, l'une adaptée au stockage de gros objets (Riak S2), l'autre (Riak TS) au traitement des time series. Des flux de données spécifiques au monde de l'IoT, qui se caractérisent par de très gros volumes de micro-données en écriture, et des besoins en lecture relativement peu important. La solution est d'ailleurs désormais utilisée, aussi, par la Weather Company.

Chez certains comptes, Basho vient directement concurrencer Oracle. Le NHS (National Health Service), l'équivalent de la sécurité sociale en Angleterre, a par exemple décidé de basculer son système métier, sous Oracle, vers des serveurs Riak. Avec pour vocation de stocker les dossiers médicaux des citoyens britanniques, il remontait aux années 2000. "Sa segmentation en plusieurs bases Oracle le rendait lourd à maintenir. Son coût opérationnel s'élevait à 5 millions de livres par mois. Quant au coût de la migration de ces bases vers de nouveaux serveurs matériels, il a été estimé à 100 millions de livres", commente Emmanuel Marchal. La capacité de dimensionnement et la performance de Riak ont fait la différence. Le bilan ? Le temps de réponse des requêtes est passé de plusieurs minutes à 2 secondes de latence en moyenne. "Le résultat est l'économie de 750 heures par jour ou plus de 28 millions d'euros pendant la première année d'utilisation", estime le NHS.

Architecture de la Data Platform de Basho. © Basho

La volonté de simplifier la production et l'intégration

Les bases NoSQL de Basho s'adossent à un noyau (Riak Core) qui automatise les tâches de gestion en cluster. Il se charge de synchroniser et répliquer les données entre les nœuds, de router les messages ou encore de gérer le stockage des méta-données. "A la différence de Couchbase, notre architecture n'est pas maitre / esclave, ce qui simplifie beaucoup l'opérationnel, la réplication, l'ajout de nœuds...", insiste Emmanuel Marchal.

Dans sa dernière version, l'offre de Basho, rebaptisée Data Platform, s'intègre, en aval, à des outils de consommation de données. Le gestionnaire de cache Redis peut être utilisé en front end, tout comme le moteur de recherche Solr (voir ci-dessus). Et c'est également le cas de l'outil d'analytics temps réel Spark. "Pour gérer les clusters Spark, plus besoin donc d'avoir à utiliser Apache Zookeeper qui est assez complexe à mettre en place, vous pouvez le faire avec Riak Core", insiste-t-on chez Basho.

Enfin, pour gérer le multi-clustering, l'éditeur s'est récemment rapproché de Cisco et Mesosphere. Objectif : donner la possibilité, grâce à la solution de Software-Defined Data Center Mesos, de porter sa Data Platform au sein de configuration de cluster géant, voire d'environnement multi-cluster, pouvant éventuellement être réparti sur plusieurs data centers.

Serveurs / Oracle