Olivier Pomel (Datadog) "Dans l'IA générative, Datadog recrute ses clients parmi les principaux fournisseurs de LLM"

Le CEO de la plateforme de monitoring revient sur sa stratégie pour 2024 et détaille les dernières tendances du marché du cloud en 2023.

JDN. Quelles sont les grandes tendances que vous observez en matière de projets cloud ?

Olivier Pomel est CEO et cofondateur de Datadog. © Datadog

Olivier Pomel. En 2023, nous n'avons d'abord pas observé de fléchissement de la demande en matière de transformation digitale et de migration vers le cloud comparé aux années précédentes. Le même nombre d'entreprises accélèrent sur ces sujets. Ensuite, nous avons constaté de gros efforts consentis sur le marché en faveur de l'optimisation des coûts, notamment pour des sociétés qui bénéficiaient déjà de gros volumes de workloads dans le cloud. Cette tendance est particulièrement prégnante dans les activités très présentes en ligne, notamment le jeu, l'e-commerce ou les médias. Enfin, nous avons reçu beaucoup de demandes en matière d'IA générative.

Côté usage, qu'observez-vous sur le front de la generative AI ?

Toutes les entreprises s'y mettent et analysent les cas d'usage qui peuvent faire sens compte tenu de leur business. Dans le même temps, on observe une explosion des fournisseurs de modèles. On l'a vu dans un premier temps avec les modèles de création d'images et de vidéos, puis avec les modèles de compréhension et de génération de textes.

Aujourd'hui, on constate que le plus gros de la demande en IA générative se concentre sur les modèles d'OpenAI. Ce qui profite évidemment à Microsoft et à son service Azure OpenAI. Pour le reste des cas d'usage de l'IA, la répartition entre les différents cloud providers est beaucoup plus équilibrée.

Que proposez-vous pour monitorer les large language models ?

On anticipe une grosse augmentation des volumes relatifs à ce type de traitement. Pour l'instant, la tendance se concentre sur un petit nombre d'entreprises que sont les fournisseurs de modèles. Pour l'heure, la plupart des utilisateurs de modèles ne recourent pas à leur propre LLM (large language model, ndlr), mais utilisent ces modèles du marché.

Du coup dans l'IA générative, Datadog recrute pour l'heure ses clients parmi les principaux fournisseurs de LLM. Des clients qui couvrent aussi bien la génération de textes, que d'images, de vidéos, de sons. C'est également le cas de quelques infrastructures de machine learning conçues pour développer ou opérer les modèles en production.

Ces clients sont en forte croissance du fait de la concentration des usages sur leurs services. A l'avenir, probablement à l'échelle de plusieurs trimestres, voire d'un an ou deux, on devrait observer une utilisation plus vaste par un nombre plus conséquent d'entreprises qui déploieront et opéreront eux-mêmes une partie de leurs modèles. Pour l'heure, la plupart des start-up comme les grandes entreprises sont en phase de prototypage de leurs applications d'IA générative, et ne sont pas encore passées à l'étape de la production à l'échelle.

Proposez-vous des services spécifiques pour suivre la performance des LLM ?

Nous avons beaucoup de demandes de fonctionnalités dans ce domaine. L'objectif est de nous donner les moyens de couvrir l'intégralité de la pile logicielle de l'IA générative. Nous développons des fonctionnalités pour monitorer l'utilisation des GPU, des modèles et des bases de données vectorielles servant à alimenter les LLM en contenu. Nous avons aussi des demandes relatives au suivi des outils d'orchestration de modèles. Toutes ces dimensions sont déjà intégrées à notre plateforme.

Lors de notre dernière conférence utilisateur en août dernier, nous avons dévoilé un outil de gestion des modèles. Il se présente sous la forme d'un catalogue de modèles qui permet de cerner avec quelles métriques les utiliser : performance en termes d'utilisation, de latence, taux d'erreur, coût, dérive, etc.

Vous avez développé une intégration avec OpenAI ?

Oui, elle permet à nos clients de superviser leur utilisation des différents services d'OpenAI, à la fois en termes de performance, de coûts, mais aussi de compréhension des usages. Notre plateforme prend par ailleurs en charge les principaux services de LLM as a Service du marché, type Azure OpenAI ou encore Amazon Bedrock.

Utilisez-vous de l'IA générative sur votre plateforme pour optimiser le monitoring ?

Effectivement. Historiquement, nous recourons au machine learning dans le cadre de la détection et la correction d'anomalies. L'objectif étant d'analyser leurs causes et leur impact sur les utilisateurs finaux. Désormais, les nouveaux modèles d'IA générative nous donnent accès aux données textuelles de nos clients. Partant de là, nous avons la possibilité d'utiliser les documentations techniques, les wikis, les runbooks. Mais aussi des données issues des canaux Slack, voire même du code applicatif.

"Nous avons développé un assistant intelligent, baptisé Bits, conçu pour servir de copilot en phase de correction d'incident"

Sur cette base, nous avons développé un assistant intelligent, baptisé Bits, qui est conçu pour servir de copilot en phase de correction d'incident. Au sein de son interface de chat, il peut faire une synthèse de l'état d'avancement de la résolution d'un problème, ce qui se révèle très utile pour une personne rejoignant le flux. Bits est aussi capable de dresser l'état des lieux de tel ou tel système, mais aussi de générer et exécuter des remédiations face à tel ou tel incident. En cas de montée en charge sur te ou tel service, il pourra automatiquement proposer un redimensionnement des ressources.

Développez-vous la generative AI pour gérer les erreurs ?

Nous avons développé toute une série de cas d'usage autour de la résolution d'erreurs basés sur l'IA générative. En amont, nous relevons les exceptions présentes dans le code. L'IA nous permet d'en expliquer les causes. Quant à l'IA générative, elle génèrera le correctif correspondant ainsi qu'un test pour vérifier que l'erreur a bien été réparée. Pour que ce mécanisme puisse fonctionner, il est important de combiner l'erreur à l'état de l'application et de ses variables stockées en mémoire.

En parallèle, nous avons aussi développé une fonctionnalité qui génère des tests d'application de façon automatique. Lors du recours à notre logiciel de Real User Monitoring, qui permet de suivre ce que font les utilisateurs dans les applications, on peut demander à notre assistant Bits de générer des scénarios de test, par exemple une série de tests pour éprouver le fonctionnement d'un panier sur un site marchand.

Votre dernier baromètre met en valeur une montée en puissance des containers serverless. Est-ce un workload qui pourrait être amené à se généraliser ?

Le recours au serverless, et notamment au container serverless, se généralise chez nos clients. En revanche, il correspond à une petite partie de leurs workloads. Il renvoie généralement à de nouvelles applications ou des applications en périphérie qui se veulent plus simples à développer. De plus en plus, nos clients ont recours aux services de container managé qui se révèlent beaucoup plus simples à mettre en œuvre.

Vous avez clôturé votre dernier trimestre fiscal avec une hausse de chiffre d'affaires de 25%, qui se révèle au-dessus des attentes. Par quoi est tiré cette croissance ?

Nous continuons à développer notre plateforme en mode multi-produits. Ce qui nous permet de diversifier nos vecteurs de croissance. Au-delà de l'infrastructure, nous monitorons les applications. Nous gérons également les logs. Notre activité d'infrastructure représente plus d'un milliard de dollars de chiffre d'affaires désormais. Quant à notre business d'application performance monitoring, il s'élève à plus de 500 millions. C'est également le cas de notre business de gestion de logs. Le tout nous confère une assise assez équilibrée, sachant que tous ces produits demeurent dans une dynamique de croissance. Au-delà de l'observabilité, nous nous étendons également à la cybersécurité.

En parallèle, nous continuons de nous étendre à de nouveaux marchés. Notre présence à l'international progresse, tout comme sur certains marchés régulés tels les agences fédérales américaines, la finance ou la santé. Enfin, beaucoup de clients ont eu tendance à réduire la croissance de leur projet cloud courant 2022. On constate désormais le début de la fin de cette phase. Les clients ont en effet finalisé leurs chantiers d'optimisation. Ce qui est plutôt encourageant pour l'avenir même si on demeure dans une période très incertaine au niveau géopolitique. Idem en termes économiques. Des questions restent en suspens sur la croissance l'an prochain, sur l'inflation, sans parler des multiples guerres en court. On reste donc prudent même si les signes actuels du marché sont encourageants.

Avant de lancer Datadog, Olivier Pomel a été vice-président Technology chez Wireless Generation, et senior software engineer chez Silicongo. Olivier Pomel est diplômé de CentraleSupélec