Florian Douetteau (Dataiku) "Le multi-agent est aujourd'hui le cas d'usage le plus avancé des LLM"

Le CEO de Dataiku détaille sa stratégie ainsi que sa feuille de route en R&D. Il revient notamment sur la croissance financière du groupe, à hauteur de plus de 50% en neuf mois.

JDN. Quelles sont les principales tendances du marché de l'IA en 2023 ?

Florian Douetteau est CEO de Dataiku. © Dataiku

Florian Douetteau. L'IA générative et son impact sur le grand public ont conduit par ricochet les entreprises à replacer l'intelligence artificielle au cœur de leur transformation numérique. Certaines sociétés se sont rendu-compte qu'elles faisaient déjà de l'IA, et que l'IA générative représentait l'opportunité d'en faire plus. D'autres ont pris conscience que la technologie avançait plus vite que ce qu'elles imaginaient. Ce qui les a amenés à se remettre en question et à réimaginer leur modèle économique sur le long terme.

Vous avez sorti un certain nombre de nouveaux produits pour répondre à cette demande, notamment le LLM Mesh...

Avant d'être un produit, le LLM Mesh est un concept d'architecture qui, comme son nom l'indique, a pour but de gérer les large language model. Ce sont des objets totalement nouveaux dans le système d'information. On connaissait les bases de données, les systèmes de fichiers… Les LLM sont encore un autre type d'objet qu'il faut se donner les moyens de prendre en charge.

Derrière le LLM Mesh, nous avons conceptualisé la notion de hub. Cette solution permet de gérer plusieurs LLM, mais aussi de gérer le passage de l'un à l'autre en vue d'assurer la pérennité des applications. En parallèle, le LLM Mesh gère la sécurité des modèles. Il filtre les contenus qu'on lui envoie et centralise les logs pour assurer la traçabilité des actions réalisées.

Quels sont les LLM que vous intégrez ?

Nous avons conclu des accords avec les principaux fournisseurs de LLM, parmi lesquels OpenAI, Anthropic, Hugging Face ou Cohere. Nous avons pour vocation d'intégrer leur API pour permettre à nos clients de fine tuner les LLM de ces acteurs avec leurs propres données. En parallèle, nous avons aussi signé des partenariats avec des data platform proposant des capacités de LLM, telles Databricks et Snowflake.

Avez-vous développé des fonctionnalités pour gérer le fameux Rag pour retrieval augmented generation, cette technique consistant à injecter une base documentaire dans un LLM déjà formé pour en affiner les réponses ?

Dans LLM Mesh, nous avons implémenté un moteur de Rag. Il permet, à partir de n'importe quel LLM existant de créer un LLM virtuel en injectant du contenu dans une base de données de vecteurs. Le LLM de base est ainsi automatiquement augmenté par un corpus documentaire. Nos clients peuvent ainsi très facilement tester une version de base d'un LLM, puis plusieurs versions augmentées. Sachant que le Rag permet de citer les sources des données reprises dans les résultats. Ce qui est particulièrement important en vue d'instaurer la confiance avec les utilisateurs.

Comment intégrez-vous les bases de données vectorielles dans Dataiku ?

Nous intégrons les bases vectorielles à LLM Mesh de la même manière que nous avons intégré dans le passé les bases relationnelles ou les blobs stockés dans Amazon S3. C'est une nouvelle pièce de l'édifice qui, via le Rag, est devenue assez courante dans les projets d'IA générative.

Sur le plan technologique, nous avons fait le choix d'intégrer les bases vectorielles parmi les plus utilisées, notamment Pinecone. Pour la suite, on aura aussi pour vocation de lancer des passerelles vers les offres vectorielles des acteurs historiques de la base de données au fur et à mesure de leur sortie.

Comment vous positionnez-vous dans le domaine de l'IA multi-agents ?

C'est une notion que nous intégrons déjà. Il y a différents niveaux d'utilisation des LLM. On peut d'abord recourir à des modèles de langue très packagés pour réaliser de la reconnaissance de texte, de l'analyse de sentiment… Ce qui n'est pas nouveau. Mais les LLM permettent d'optimiser la performance de ces tâches. Un deuxième niveau d'utilisation consiste à gérer de l'extraction d'informations très spécifiques et spécialisées par le biais du prompt engineering. C'était jusqu'ici très compliqué à réaliser. Avec les LLM, cela devient beaucoup plus simple. Ensuite vient le Rag qui permet d'orchestrer des questions-réponses très structurées, sur des corpus documentaires conséquents et qui peuvent varier.

"Nous pouvons assez légitimement nous poser la question de développer notre propre orchestrateur"

Enfin, le multi-agent est le cas d'usage le plus avancé des LLM. Il permet d'orchestrer l'intervention de plusieurs sources de données et applications en vue de simuler un comportement humain sophistiqué. Cela passe notamment par l'orchestration de plusieurs modèles, chacun spécialisé sur une tâche précise. Les agents permettent ainsi de simuler les différentes étapes d'un raisonnement visant à résoudre un problème complexe. Les cas d'usage sont potentiellement infinis.

Comment une IA multi-agent peut-elle se traduire en termes d'application ?

Une IA multi-agent peut par exemple intervenir pour gérer une demande de support client. Un premier agent sera chargé d'analyser le message du client et d'identifier le problème. Un deuxième interviendra pour consulter dans les bases de l'entreprise les potentiels contenus évoquant le problème en question. Un troisième pourra en parallèle parcourir l'historique de communication pour identifier les éventuelles solutions déjà partagées sur le même sujet. Un cinquième analysera la configuration technique du client pour dénicher des bugs, etc. Au final, l'IA générera automatiquement un mail formaté expliquant la démarche à suivre en vue de corriger l'erreur.

Une partie des cas d'utilisation de Dataiku porte précisément sur ce type d'application multi-agent. Dans ce contexte, notre rôle est de fournir un environnement pour développer les agents d'une part, et les orchestrer d'autre part.

Avez-vous pour vocation de développer votre propre orchestrateur de LLM ?

Il y a beaucoup de débats en ce moment sur la question des orchestrateurs de LLM. Pour le moment, l'orchestrateur de référence est LangChain. Il a le mérite d'être open source, mais reste encore relativement pauvre en termes de fonctionnalités. Plus globalement, c'est un domaine qui demeure encore très émergent. On en est au tout début. Partant de là, nous pouvons assez légitimement nous poser la question de développer notre propre orchestrateur.

Quelle est votre croissance financière en 2023 ?

Nous avons communiqué sur un revenu annuel récurrent de 230 millions de dollars en septembre 2023, contre 150 millions de dollars en décembre 2022. Un chiffre qui avait été dévoilé lors de notre dernière levée de fonds (ce qui représente une hausse de 53% en neuf mois, ndlr). Nous estimons que le principal de la croissance reste devant nous. Nous comptons à ce jour plus de 1 000 salariés, avec une R&D qui reste basée en France en quasi-totalité.

Quelle est votre feuille de route en termes de recherche et développement ?

Nous allons continuer d'intégrer des technologies de modèle de langue au fil de l'évolution du marché des LLM qui évolue en permanence. Nous continuerons également de plancher sur des fonctions pour accompagner l'émergence de ce nouveau marché.

Nous avons aussi une roadmap importante en vue de prendre en charge la gouvernance de l'IA. Nous intégrons des dispositifs de mesure, de qualification et de contrôle des différentes étapes d'un processus de création de modèle. L'objectif est d'accompagner les entreprises dans leur mise en conformité et d'anticiper l'adoption des futurs règlements sur l'intelligence artificielle, notamment au niveau européen.

Florian Douetteau est CEO et co-fondateur de Dataiku. Diplômé de l'Ecole Normale Supérieure, il débute sa carrière chez Exalead, qu'il rejoint en 2000 pour mener une thèse sur le développement du langage de programmation Exascript. Il y restera jusqu'en 2011, occupant successivement plusieurs postes de direction et de vice-président dans les domaines de la recherche, du développement et du management de produits. Après un passage chez Is Cool Entertainment en tant que directeur technique, il intègre Criteo pendant quelques temps comme data scientist freelance, avant de se lancer dans l'aventure Dataiku en 2013.