La start-up du pionnier du XML pilotera sa filiale européenne depuis Paris. La société se spécialise dans l'IA documentaire.

Editeur américain d'une solution SaaS d'IA documentaire à base de LLM, Docugami ouvre une filiale en Europe. Son fondateur, Jean Paoli, est le co-auteur du langage XML ancien de l'INIRIA et de Microsoft où il a contribué à la création et à la standardisation d'Internet Explorer, avant de développer les formats XML et Open XML de la suite Office puis de fonder l'entité open source de Microsoft qu'il coordonne jusqu'à son départ en 2017. Dès 2018, ce Franco-américain crée Docugami aux USA.

Docugami se spécialise dans la gestion des documents longs. Des fichiers qui peuvent compter de quelques dizaines à quelques centaines de pages et donc difficilement ingérables en l'état par les applications ou les agents d'IA. "Nous avons lancé une plateforme à base de grands modèles de langue pour convertir ce type d'information en données XML semi-structurées", explique Jean Paoli. "On retrouve notamment ces documents dans l'assurance, le secteur pharmaceutique ou encore le manufacturing. Il s'agit en général de spécifications produit." La solution permet ainsi d'automatiser nombre de processus critiques : contrats, rapports, audits, mise en conformité...

Une dizaine de LLM open source

Le premier article de recherche de Google sur les Transformers ayant été publié en 2017, Jean Paoli n'attend pas l'avènement de ChatGPT en novembre 2022 pour se saisir du sujet. L'entrepreneur décide d'exploiter les tous premiers LLM open source lancés à l'époque. "Nous intégrons une douzaine de LLM open source au sein d'une solution qui est conçue pour cibler directement les utilisateurs finaux en entreprise. Cette technologie fait l'objet de brevets déposés en lien avec la National Science Foundation et la NASA", souligne Jean Paoli. Et Gregory Senay, AI scientist chez Docugami (et également français), de préciser : "Certains modèles sont centrés sur la représentation hiérarchique en XML, d'autres sur la vision par ordinateur. Nous utilisons aussi d'autres techno d'IA centrées par exemple sur l'identification de similarité sémantique."

Sous le capot, le moteur XML tisse un graph sémantique à travers l'ensemble des documents soumis. Les données ainsi converties ouvrent le champ des possibles, de la simple visualisation dans un tableur jusqu'à leur exploitation par un assistant intelligent en passant par leur intégration à un workflow. Autre avantage : chaque donnée extraite est reliée à sa source. Ce qui permet une grande transparence tout en évitant les hallucinations. Dans le cas de l'IA générative, la solution de Docugami est particulièrement intéressante pour réaliser de la génération augmentée de récupération ou fine tuner des modèles de langues existants. "Quand vous faîte ingérer des données à un LLM, il est prouvé scientifiquement que le process fonctionne mieux si ces données sont formatées à partir d'un knowledge graph. Nous avons nous-même publié un article de recherche en lien avec Redis sur le sujet. Or, le rôle de Docugami est précisément de convertir l'information dans ce format", résume Jean Paoli.

"Nous fine tunons notre offre en fonction du client pour pouvoir isoler ces informations et les sécuriser"

Docugami recourt également à la technologie agentique. Par le biais d'une brique baptisée agentic quality control, elle permet d'analyser les données en termes de qualité. Au sein de centaines de points d'informations extraits, un agent pourra identifier les données non-conformes ou fausses. "Dans la mesure où le raisonnement est effectué sur la base de l'ensemble d'une base documentaire, il sera possible d'identifier les documents et leurs points de donnée qui sortent du schéma général", commente Gregory Senay. Mieux encore. La solution peut générer des tableaux de synthèses qui se révèle incomplet en l'absence d'informations contenus dans les documents de base. L'application va alors créer in extenso les informations manquantes. Dans la banque, il peut s'agit par exemple de taux d'amortissement calculés à partir d'un chiffre d'affaires. "Plus prosaïquement, il peut s'agir d'identifier que la date de début d'un document peut avoir été inversée avec la date de fin", ajoute Jean Paoli

Aux Etats-Unis, Docugami a déjà bien pénétré l'assurance, avec plusieurs dizaines de ventes. En parallèle, la start-up commence à pénétrer les domaines pharmaceutique et du manufacturing, mais aussi la banque. En partant d'une solution horizontale, la société développe une couche spécialisée pour cibler chacune de ces verticales. "Nous fine tunons également notre offre en fonction du client pour pouvoir isoler ces informations et les sécuriser", ajoute Jean Paoli.

La France : un choix stratégique

Partant de ce premier socle, Docugami annonce donc son lancement en Europe via une filiale basée en France. "Etant un pur produit de l'excellence française, je suis très attaché à la France. Ce qui explique en partie notre choix pour ce pays", argue Jean Paoli. "Mais ce choix est aussi stratégique. La France est historiquement une terre de talents dans les mathématique et l'informatique en particulier. C'est aussi un pays extrêmement dynamique sur le plan de l'open source. Les LLM open source viennent majoritairement de l'Hexagone." Dans un premier temps, Docugami compte embaucher une équipe de R&D en France. Ce qui passera par l'embauche d'un scientifique de haut niveau qui sera entouré de thésards.

Docugami ne part pas de rien. Sa R&D jusqu'ici basée aux Etats-Unis est formée en majorité de chercheurs français. "Nous avons toute une myriade de contacts au sein de l'écosystème scientifique français. Notre objectif est de répliquer notre modèle américain en créant des collaborations avec des laboratoires, notamment avec l'INIRIA", souligne Jean Paoli. Deuxième étape : le recrutement d'une équipe commerciale et d'ingénieur pour accompagner les futurs clients européens. Ce qui interviendra à la fin de l'été.

Pour la suite, Jean Paoli est en discussion avec des fonds d'investissement en vue de boucler une levée de fonds de série A. Elle interviendra après la réalisation d'une série seed à hauteur de 10 millions de dollars bouclée en 2020 menée par le fonds SignalFire avec la participation de Bob Muglia, l'ex-CEO de Snowflake. Une opération complétée depuis par deux autres levées portant le total des fonds levés à 11,7 millions de dollars. En termes de feuille de route, Docugami compte développer des connecteurs vers des sources de données tierces pour faciliter leur ingestion. "De même du côté des outils de workflow. Nous sommes intégrés pour l'heure à Zapier et Power Automate. Mais là encore, l'objectif est d'élargir le spectre", confie Jean Paoli. "Grâce à notre offre, le déclencheur du workflow pourra se baser sur n'importe quelle donnée présente dans un document. Par exemple dans le cas d'un contrat dépassant 1 million de dollars, le document pourra être routé vers le responsable en charge de gérer ce type de contenu." Autre possibilité : réaliser un routage de parties de document vers les personnes concernées (ingénierie, juridique, RH...). On attend de voir quelles seront les premières références françaises de la start-up.