Avec TiDB, la Chine impose sa marque dans le big data open source
Fondé en 2015 à Pékin, PingCAP s'est lancé un défi technologique plutôt original : construire une architecture IT capable de gérer à la fois les traitements (SQL) dits transactionnels nécessaires à l'instantanéité des applications, et les processus analytics conçus pour exécuter les lourdes requêtes des tableaux de bord de pilotage. A la différence d'un data warehouse traditionnel, l'objectif est de résoudre ces requêtes en quasi-temps réel.
Baptisée TiDB, la base de données conçue par PingCAP est disponible sous licence Apache 2.0. Parmi ses utilisateurs, très majoritairement asiatiques, figurent notamment Square, PayPay, BookMyShow, Bank of China, JD.com ou encore Shopee. PingCAP revendique plus de 500 développeurs contribuant à son projet open source.
Un solution "couteau suisse"
Pour prendre en charge les processus transactionnels (ou OLTP), TiDB est équipé d'un data store structuré en ligne. Baptisé TiKV, il permet un dimensionnement horizontal tout en garantissant, via un dispositif clé/valeur, la cohérence des données répliquées quel que soit le serveur du cluster (voir schéma ci-dessous). L'objectif étant à la fois de gérer efficacement les pics de trafic en lecture et en écriture, et d'assurer la persistance des données applicatives.
A TiKV est adjoint un moteur de stockage temps réel orienté colonnes. Nommé TiFlash, il est taillé pour les traitements analytics (OLAP). "Un algorithme d'optimisation statistique type CBO sélectionne l'index le plus rapide pour exécuter les requêtes dans l'un ou l'autre des deux systèmes", explique Xiaoyu (Shawn) Ma, directeur technique sénior chez PingCAP. "Vous n'avez rien à faire. C'est automatique !"

Plus intéressant, TiFlash et TiKV supportent tous deux le célèbre framework open source de calcul distribué Spark via une couche d'intégration commune baptisée TiSpark. "Ce qui permet à TiDB de répondre à des requêtes OLAP complexes en matière d'IA, de data science ou encore de business intelligence", commente Xiaoyu Ma.
"Nous avons pu monter jusqu'à 1,45 milliard de points de donnée mis à jour chaque jour"
L'un des retours d'expérience les plus emblématiques de TiDB est issu de Bank of China. Depuis 2016, le géant bancaire a recours à l'outil open source de monitoring Zabbix pour superviser son infrastructure IT. Il utilisait initialement la base MySQL comme système de stockage associé. Sans surprise, les capacités de dimensionnement de cette dernière ne révèlent pas suffisamment robustes pour encaisser les flux de logs générés par le système d'information.
Après avoir analysé de plusieurs alternatives à MySQL, Bank of China se tourne vers TiDB. "Suite à son déploiement, nous avons pu gérer le monitoring de plus de 10 000 serveurs via un data store de 18 Tb, avec à la clé 1,45 milliard de points de donnée mis à jour chaque jour", se félicite Yu Han, ingénieur au sein du centre d'opération IT du groupe.
Compatibilité avec MySQL
Vous l'aurez compris. L'un des principaux points forts de TiDB réside dans sa compatibilité avec MySQL. Avec sa robustesse et sa souplesse, c'est pour cette raison que Bank of China a retenu la solution. La prise en charge de MySQL lui permettant une migration sans accro.
Pour monétiser sa technologie, PingCAP commercialise TiDB sous forme d'un service cloud managé. Baptisée TiDB Cloud, cette offre est disponible sur AWS et Google Gloud Platform. Elle est pour l'heure limitée à des régions cloud situées aux Etats-Unis et en Asie. L'Europe devrait arrivée plus tard.
Combinant open source et cloud autour d'une technologie big data novatrice, le business model de PingCAP n'a pas manqué de séduire les investisseurs. Fin 2020, la société pékinoise a bouclé une tour de table de série D de 270 millions de dollars. Mené par GGV Capital, Access Technology Ventures, Anatole Investment, Jeneration Capital et 5Y Capital, il porte à 341 millions de dollars le total des fonds levés par l'acteur depuis sa création.