Florian Douetteau (Dataiku) "Les clients de Dataiku s'orientent désormais vers des projets IA qui automatisent des process métier de bout en bout"

Le CEO de la plateforme d'IA française revient sur sa stratégie pour 2024-2025. Une interview réalisée dans le cadre de l'Everyday AI Summit, l'événement mondial de l'entreprise qui se tient ces 24 et 25 septembre à Paris.

JDN. Dans quel sens s'oriente les projets d'IA des clients de Dataiku cette année ?

Florian Douetteau est co-fondateur et PDG de Dataiku. © Dataiku

Florian Douetteau. On observe des projets avec une plus forte ambition dans l'IA générative. L'enjeu est d'aller au-delà du simple chatbot qui assiste et répond à des questions. On s'oriente désormais vers des projets qui automatisent des process métier de bout en bout. Il peut s'agir de processus de gestion documentaire, de recherche d'état de l'art ou de configuration de campagnes publicitaires. Cela passe par le développement de systèmes d'agent prenant en charge en entrée les données nécessaires pour ensuite dérouler des actions en cascade. Les agents intelligents décuplent la productivité de tâches qui demandaient auparavant plusieurs jours pour être réalisées.

On constate par ailleurs une prise de conscience de l'importance de la gouvernance associée à l'IA. Globalement, on note une montée en puissance des besoins de compréhension, d'éducation et d'anticipation des entreprises dans le cadre d'un environnement de régulation qui s'annonce complexe. Enfin, nos clients comprennent plus que jamais que leurs systèmes d'IA sont associés à leurs données. Du coup, la nécessité de bénéficier d'une information connectée, exploitable et nettoyée est également de plus en plus prégnante.

A l'occasion de l'Everyday AI Summit ces 24 et 25 septembre, vous annoncez des évolutions au sein de votre outil d'IA générative LLM Mesh…

Ces nouvelles fonctionnalités visent à contrôler et évaluer la qualité des systèmes d'IA générative. Notez qu'elles ne portent pas sur les LLM, mais sur les agents c'est-à-dire ces applications qu'ils motorisent. Cette problématique est devenue un véritable enjeu. Avec la montée en puissance de la GenAI dans les traitements critiques, les entreprises comprennent que l'IA générative doit d'être plus une science qu'un art. Pour la mettre en place de manière fiable, il est nécessaire de saisir les requêtes lancées sur les systèmes, de mesurer leur performance au fil de l'eau avec des critères de mesure clés, et au final de mettre en place une stratégie d'amélioration continue.

En soi, ces concepts ne sont pas nouveaux. Mais beaucoup de projets d'IA générative ne les implémentent pas naturellement. La plupart passent simplement par la mise en œuvre de prompts pour produire des chatbots personnalisés sans mesure de qualité. Cependant quand il s'agit de produire une application critique, il est important de s'assurer que les réponses sont correctes, que les données d'entrée sont comprises et bien mises à jour, et qu'au fur et à mesure des évolutions et de la remontée des feedbacks utilisateur, la performance progresse dans le temps.

Quels sont les LLM que vous supportez ?

Nous comptons à date une vingtaine de partenaires associés à LLM Mesh. Nous intégrons des LLM open source, soit accessibles directement tel Llama, soit mis à disposition via Hugging Face. Nous intégrons aussi des LLM commerciaux issus de 15 fournisseurs majeurs de cloud et d'IA comme Amazon Web Services, Databricks, Google Cloud et Snowflake. Mais également des LLM développés par des pure player parmi lesquels Anthropic, Cohere, Mistral et OpenAI.

Votre objectif est donc de vous intégrer aux principales plateformes de LLM du marché. Comment ces intégrations se traduisent-elles concrètement ?

Les plateformes de LLM ciblent deux grands types de tâches. En premier lieu, elles sont conçues pour déployer et inférer les LLM. En second lieu, elles permettent de réaliser du fine tuning c'est-à-dire d'intégrer ses propres données pour fabriquer des LLM spécialisés. Dans les deux cas, nous combinons ces tâches à nos workflows pour permettre à nos clients de pratiquer de l'inférence ou du fine tuning sur les plateformes de LLM que nous intégrons, que ce soient celles d'OpenAI, de Google ou d'AWS.

Partant de là, l'enjeu pour nos clients est d'exploiter Dataiku comme une couche d'orchestration qui permet par exemple d'intégrer en continu des données en provenance de leurs bases d'entreprise. Ils peuvent ainsi appliquer du data processing pour fabriquer par exemple un LLM basé sur Llama avec leurs propres informations mises à jour régulièrement.

Quelles sont les principales valeurs ajoutées que vous proposez sur le terrain des LLM ?

D'abord, nous sommes un acteur indépendant qui est de facto multicloud. Pourquoi est-ce important ? Parce qu'il y aura de plus en plus de LLM et de toute taille. Ce qui implique de bénéficier de multiples options pour les déployer et les gérer sur le long terme. En parallèle, nous avons de plus en plus de clients qui s'orientent vers des stratégies hybrides. Ils utilisent par exemple les modèles as a service d'OpenAI pour certains sujets, mais pour d'autres, plus critiques, ils vont plutôt partir sur des LLM open source hébergés et contrôlés en interne. Cette stratégie est déjà la norme dans les grandes entreprises. Or, nous sommes en capacité de répondre à cette double orientation via notre stratégie multiLLM.

" Dataiku se détache de par sa capacité à proposer une plateforme de bout en bout, depuis le développement jusqu'au contrôle qualité et la gouvernance"'

Un autre différentiateur de Dataiku consiste à proposer une plateforme intégrée dans laquelle la data et les modèles prédictifs sont connectés au LLM. C'est un point clé dans la mesure où le LLM n'est pas très fort pour réaliser des prévisions. Dans beaucoup de cas, il aura par conséquent besoin des modèles prédictifs pour fonctionner.

Enfin, Dataiku se détache de par sa capacité à proposer une plateforme de bout en bout, depuis le développement jusqu'au contrôle qualité et la gouvernance. Comme déjà évoqué, ce dernier point est important. Savoir où sont les LLM, quels sont ceux les plus utilisés, et gérer un processus formel de validation des applications d'IA générative représentent des tâches cruciales. En particulier sur des marchés très régulé comme l'Europe.

Que proposez-vous en matière de Rag (pour retrieval augmented generation) ?

Pour mettre en œuvre du Rag, nous offrons la possibilité de se connecter à de multiples bases de données vectorielles du marché. Comme pour les LLM, nous souhaitons laisser le choix à nos clients. Ils pourront retenir une base de données vectorielle conformes à leur politique IT, notamment en termes de sécurité. Sur ce point, nous supportons les plateformes data de Snowflake, Databricks, mais également celles de pure player comme Pinecone ou encore Weaviate.

Proposez-vous des fonctionnalités low code / no code en matière d'IA générative ?

D'un côté nous proposons Dataiku Answers qui permet d'intégrer au LLM des jeux de données structurées ou non-structurées dans l'optique de gérer les fonctions interactives des assistants. De l'autre nous fournissons un studio de prompting qui teste et valide différents types de prompts pour opérer des tâches d'extraction d'information, de création ou de synthèse de documents. Dans le sillage de cette fonctionnalité, nous proposons également une approche no code pour gérer le Rag.

Pour la suite, quels sont les principaux axes de votre feuille de route en R&D ?

Nous avons deux axes prioritaires : l'IA générative et la gouvernance. Côté IA générative, nous allons poursuivre l'intégration de technologies tierces et de nouvelles expériences pour permettre à nos clients de réaliser leur développement plus rapidement. Côté gouvernance, nous continuerons à fournir de nouvelles fonctionnalités pour automatiser la mise en conformité avec l'European AI Act ainsi qu'avec d'autres potentielles réglementations équivalentes sur d'autres plaques géographiques, notamment en Asie ou en Californie.

Florian Douetteau est CEO et co-fondateur de Dataiku. Diplômé de l'Ecole Normale Supérieure, il débute sa carrière chez Exalead, qu'il rejoint en 2000 pour mener une thèse sur le développement du langage de programmation Exascript. Il y restera jusqu'en 2011, occupant successivement plusieurs postes de direction et de vice-président dans les domaines de la recherche, du développement et du management de produits. Après un passage chez Is Cool Entertainment en tant que directeur technique, il intègre Criteo pendant quelques temps comme data scientist freelance, avant de se lancer dans l'aventure Dataiku en 2013. Aujourd'hui, cet éditeur compte plus de 700 clients et plus de 1000 salariés.