DataRobot, la plateforme d'IA qui fait de l'ombre à Google

DataRobot, la plateforme d'IA qui fait de l'ombre à Google Dans l'intelligence artificielle, difficile de passer à côté de l'éditeur de Boston, expert du machine learning automatisé. Présente en France, la société est valorisée 2,8 milliards de dollars

Fondé en 2012 aux Etats-Unis, DataRobot est l'un des pionniers du machine learning automatisé (auto ML). En fonction d'un problème à résoudre (une prédiction financière, une maintenance préventive, de la reconnaissance d'images...), "sa brique d'auto ML sélectionne et entraîne plusieurs algorithmes possibles, avant de les scorer en mixant plusieurs combinaisons d'hyperparamètres, pour ne retenir au final que le modèle le plus performant", explique Aymen Chakhari, directeur IA au sein de l'ESN Devoteam.

DataRobot est l'un des seuls à avancer une alternative crédible à l'offre cloud d'autoML de Google, qui est historiquement considérée comme la référence du domaine. Sur le modèle de Google, l'entreprise s'est étendue pour couvrir tout le cycle de vie du machine learning, de la préparation des data sets d'apprentissage au déploiement des modèles en passant par leur entrainement. En décembre dernier, DataRobot a bouclé un tour de table de série F de 320 millions de dollars, hissant sa valorisation à 2,8 milliards de dollars. L'opération porte à 750,6 millions de dollars le total des fonds levées par la société du Massachusetts.

Les points forts de la plateforme de DataRobot ? "Ils résident dans sa facilité de prise en main, y compris pour des analystes data orientées business. Et ce pour créer comme mettre en production des modèles. Quant aux data scientists confirmés, notre offre leur permet d'accélérer leurs développements", assure André Balleyguier, chief data scientist EMEA chez DataRobot. Autre point fort évoqué : l'orchestration d'un workflow de gouvernance de la conception à la mise en œuvre des modèles. Issue du rachat de ParallelM en février 2019, cette solution de MLOps a depuis été renforcée pour supporter les modèles développés à la main en Python ou R. "L'objectif est de fournir une plateforme capable de standardiser et d'industrialiser ce processus pour l'ensemble d'une organisation", résume André Balleyguier.

Déployable sur site (on-premise), l'offre de DataRobot est aussi disponible sous forme d'un service cloud managé. Baptisé DataRobot Managed AI Cloud, ce dernier est hébergé sur AWS. En Europe, il est disponible sur la région cloud d'Amazon basée en Irlande.

De l'auto ML à la data science

Dans sa version 6.3 sortie fin 2020, DataRobot s'attaque à la délicate question des biais. Dans cette optique, la plateforme vérifie par exemple si un groupe d'utilisateurs est privilégié par le modèle ou si celui-ci se traduit par un niveau de prédiction plus fin. Si un biais est identifié, un outil de cross-class data disparity permet d'en identifier la source au sein des données d'apprentissage en vue de l'atténuer sans pour autant réduire la précision des résultats. "DataRobot gère l'équilibre du tradeoff (ou dilemme, ndlr) existant entre les biais du modèle et son degré de précision", indique André Balleyguier. Pour l'occasion, DataRobot enrichit par ailleurs sa brique de MLOps en la dotant de ce qu'il appelle les Portable Prediction Servers. Un dispositif taillé pour packager les modèles sous forme de containers et d'infrastructure Kubernetes en vue de les porter sur le cloud ou système IT de son choix. Enfin, DataRobot 6.3 améliore la prise en charge des séries temporelles, mais également, via le module Vision IA, sa capacité à classer les images et à y détecter des formes.

ParallelM n'est pas la seule technologie acquise par DataRobot. La société de Boston a, notamment, acheté la data collaboration platform Cursor en février 2019, ainsi que la solution de préparation de données Paxata, qu'elle a intégrée dans la foulée. "Cette stratégie de croissance externe va se poursuivre, sachant que nous misons en parallèle sur une croissance organique forte", souligne André Balleyguier. Sur un effectif total de 1 200 salariés, DataRobot compte une R&D de 500 ingénieurs. Une équipe qui se concentre sur plusieurs priorités : le MLOps et l'automatisation, encore et toujours, mais aussi l'intégration de la solution à des technologies tierces. Sur ce point, DataRobot vient tout juste d'annoncer une première passerelle avec Snowflake. La figure montante des plateformes de données avait fait une entrée remarquée dans son capital à l'occasion de la finalisation de la série F en décembre. 

"Nous développons et intégrons en ce moment des fonctionnalités de feature store"

"Nous cherchons également à rendre notre environnement accessible aux data scientists avancés qui souhaitent développer leur propre code tout en bénéficiant de nos possibilités d'auto ML, ou qui cherchent à personnaliser chaque étape du processus de MLOps", ajoute André Balleyguier. La possibilité de créer des modèles ad hoc en recourant aux principales bibliothèques de machine learning (Scikit-learn, TensorFlow, PyTorch…) est pour l'heure en bêta. DataRobot entend ainsi répondre à l'une des principales critiques dressées par le Gartner dans son dernier Magic Quadrant sur les plateformes de data science et de machine learning : sa relative faiblesse dans la gestion des modèles complexes et personnalisées, sortant par définition des sentiers battus du machine learning automatisé.

Comment DataRobot se positionne-t-il sur le feature store ? "Nous développons et intégrons en ce moment des fonctionnalités pour automatiser et rendre reproductible la préparation de données", confie André Balleyguier.

Dernier Magic Quadrant du Gartner sur les plateformes de data science et de machine learning. © Gartner

Fort d'une offre horizontale qui s'adapte potentiellement à n'importe quel domaine, DataRobot affiche une base de plusieurs centaines de clients qui reflète la courbe d'adoption de l'IA par secteur. Ses clients se recrutent donc principalement dans les services financiers, le retail, le manufacturing ou encore la santé. En France, DataRobot revendique Carrefour et Cdiscount parmi ses principales références. L'éditeur a également signé avec plusieurs ESN hexagonales, dont Axians (filiale de Vinci), ASI et Mydral. Comptant une dizaine de personnes, son bureau parisien regroupe commerciaux, consultants et data scientists.

L'IPO pour bientôt

DataRobot ne connaît pas la crise. "2020 a été notre année à plus forte croissance en termes de nouveaux clients. Nous avons bénéficié à plein de l'accélération des stratégies digitales impulsée par la pandémie", se félicite André Balleyguier. Le data scientist évoque notamment une forte demande en matière de modèles de prédiction dans l'énergie, avec pour objectif d'anticiper les changements de comportement des consommateurs en confinement. Ou encore un besoin des banques de réévaluer les risques de leurs produits d'emprunt pour tenir compte du contexte de crise. Pour finir, il souligne la multiplication des projets gouvernementaux visant à estimer l'évolution épidémique. 

Quid de la suite ? DataRobot n'a pas hésité à présenter son dernier tour de table comme "une levée de fonds pré-IPO". Ce qui laisse présager une entrée en bourse rapidement. Force est de reconnaître que son principal concurrent a déjà sauté le pas. Le 9 décembre dernier, C3.ai se lançait sur le New York Stock Exchange, parvenant à lever 651 millions de dollars. Google n'a qu'à bien se tenir.