Confluent, quelle est la société derrière Apache Kafka ?

Confluent, quelle est la société derrière Apache Kafka ? Créée par des anciens de LinkedIn, la start-up ouvre le framework de traitement temps réel à un grand nombre de cas d'usage, de la lutte contre la fraude à l'optimisation de la supply chain.

En janvier dernier, Confluent levait 125 millions de dollars et hissait sa valorisation à 2,5 milliards de dollars. Si le nom de Confluent ne vous dit rien, vous connaissez en revanche Apache Kafka, l'un des frameworks les plus utilisés pour le traitement de données en streaming dont cette société californienne propose une version entreprise.

Kafka a été conçu au tournant des années 2010 par les fondateurs de Confluent qui travaillaient alors pour LinkedIn. Le réseau social professionnel se trouvait confronté à une volumétrie en croissance exponentielle du nombre de ses utilisateurs et donc de ses données. Si des technologies d'ETL (pour extraction, transformation et chargement de données) permettaient de passer à l'échelle, il manquait la dimension temps réel. Une besoin qui donnera naissance à Kafka. LinkedIn décide de publier cette technologie en open source en 2011 et Confluent, société commerciale tirant profit du framework, sera lancée trois ans plus tard.

Confluent se présente comme une plateforme de diffusion temps réel d'événements se prêtant à un grand nombre de cas d'usage comme la lutte contre la fraude ou l'enrichissement de l'expérience client. L'éditeur fait le pari que les entreprises seront, dans un proche avenir, pilotées par un flux continu d'événements qu'il s'agisse de commandes, de ventes ou de données remontées par un multitude d'objets connectés.

Un intégration à Google Cloud Platform

"Les données constituent une part importante de la transformation numérique et les entreprises doivent trouver le moyen de les valoriser davantage", estime Gaetan Castelein, vice-président marketing produit de Confluent. Il s'agit, selon lui, de déverrouiller les données cloisonnées dans des silos pour créer des applications orientées événements. Un créneau prometteur pour Confluent qui indique avoir multiplié par 3,5 le nombre d'abonnements à sa solution et de 128% son effectif en 2018. Plus de 60% des entreprises du Fortune 100 auraient déjà adopté une plateforme de diffusion d'événements. Sur ce marché, Confluent est en concurrence avec des distributeurs d'Hadoop, comme Cloudera/Hortonworks et MapR, ainsi que des poids lourds de l'analyse de données tels que SAS, Teradata ou IBM voire un pure player comme MemSQL

Confluent compte notamment CapitalOne, ING, Lyft ou Domino's Pizza parmi ses clients. Audi utilise sa plateforme pour analyser les événements générés par ses voitures autonomes qui transmettent 4 téraoctets de données par jour. Les flux remontés par les capteurs des véhicules connectés permettent au constructeur automobile de faire de la maintenance prédictive. Si un véhicule donné rencontre tel problème, les véhicules répondant au même profil devront être vérifiés.

"De grandes banques françaises utilisent Confluent pour alimenter leurs systèmes de détection de fraude, leurs moteurs de paiement et leurs systèmes de cybersécurité"

Euronext a aussi fait appel à Confluent pour Optiq, sa nouvelle plateforme de trading dont l'infrastructure doit garantir un accès en temps réel aux données du marché, pour des délais de latence de l'ordre de la milliseconde. "De grandes banques françaises utilisent Confluent pour alimenter leurs systèmes de détection de fraude, leurs moteurs de paiement et leurs systèmes de cybersécurité en temps réel", indique sans les nommer Gaetan Castelein.

Des distributeurs français (Intermarché est mis en avant sur le site de Confluent) recourent aux services de l'Américain pour traiter en temps réel les données de leurs points de vente afin de proposer des promotions personnalisées ou optimiser leur chaîne d'approvisionnement.

Fort de sa dernière levée de fonds, Confluent compte élargir sa palette de services. Son offre actuelle comprend des outils de développement dont KSQL, un moteur SQL de streaming pour le traitement de données en temps réel sur Apache Kafka ou Schema Registry qui stocke les schémas d'événements et garantit leur compatibilité au fil des évolutions. La place de marché Confluent Hub recense les connecteurs permettant d'interfacer Kafka à différentes sources de données. Dédiée aux entreprises, Confluent Platform ajoute, entre autres, des fonctionnalités de sécurité et de récupération de données après sinistre. Enfin, la start-up propose un service managé de Kafka, Confluent Cloud, qui pourra être hébergé sur un cloud privé comme sur un cloud public (tel Amazon Web Services , Azure ou Google Cloud Platform).

Avec d'autres éditeurs open source comme MongoDB, Elastic, ou Redis Labs, Confluent a été un cran plus loin en annonçant, en avril dernier, un partenariat avec Google Cloud. Confluent Cloud est désormais intégré à la console de la Google Cloud Platform comme s'il s'agissait d'une application native du provider. Il s'agit aussi d'une réponse à Amazon Web Services (AWS). Avec d'autres éditeurs référencés par Google, Confluent a récemment modifié son modèle de licence afin de contrer l'utilisation abusive de sa solution open source par certains fournisseurs de cloud public et tout particulièrement AWS.

Une intégration poussée à Kubernetes

Pour rester agnostique à l'infrastructure sous-jacente, Confluent s'intéresse de très près à Kubernetes qui est appelé, selon lui, à devenir le "système d'exploitation du cloud hybride et du multicloud". Avec Confluent Operator, l'éditeur facilite l'intégration de Kafka à l'orchestrateur open source à l'image de ce que propose Google pour Spark avec le récent lancement de Kubernetes Operator for Apache Spark. Responsable produit, Gwen Shapira explique toutefois dans un billet de blog qu'exécuter Kafka sur Kubernetes requiert de solides compétences en stockage et réseau. "Kafka est un service avec état, ce qui rend la configuration de Kubernetes plus complexe que pour les micro-services sans état", rappelle-t-elle.

Pour Gaetan Castelein, Confluent Operator ne constitue que le premier pas en direction des entreprises souhaitant gérer elles-mêmes leur plateforme de diffusion sur Kubernetes. "Notre objectif est de fournir une solution native pour le cloud dans tous les environnements, des datacenters privés aux clouds publics", complète Gaetan Castelein.