Orange travaille à un projet de RAG multi-agent
Filiale d'Orange spécialisée dans les services numériques aux entreprises, Orange Business a commencé à plancher sur un projet de RAG faisant intervenir plusieurs agents. Objectif : se donner notamment la capacité d'appréhender les documents composés de plusieurs médias : texte, graphiques, images... Ce chantier est en cours de développement. Objectif affiché par l'ESN : lancer à terme une offre packagée.
Extrêmement populaires sur le terrain de l'IA générative, les solutions de RAG se limitent jusqu'à présent à un agent unique. On entend par RAG la capacité d'un assistant conversationnel à aller dénicher ses réponses dans une base documentaire spécifique. "Concrètement, ce mécanisme consiste à vectoriser la question de l'utilisateur puis à rechercher dans la base documentaire (qui aura été elle-même préalablement vectorisée, ndlr) les vecteurs les plus proches puis à injecter les réponses correspondantes dans le buffer du LLM", rappelle Didier Gaultier, patron de l'IA au sein d'Orange Business Digital Services.
Problème, la vectorisation des documents de référence est souvent incomplète, incorrecte ou pas toujours cohérente avec le sens du texte. "Pire, quand vous avez un document avec du texte, des tableaux et des images, seul le texte est pris en compte par le RAG", note Didier Gaultier. Autre constat : beaucoup d'utilisateurs étant habitués à utiliser Google se contentent de saisir des mots clés via leur assistant ce qui est contraire au fonctionnement d'une IA générative combiné à un RAG.
"On pourra réaliser des analyses de correspondance entre les fichiers en vue de créer un graph en amont du prompt de l'utilisateur"
Partant de là, l'objectif du RAG multi-agent consiste à combiner plusieurs agents de récupération. En amont, ces agents viendront vectoriser chacun un format : le texte, les images, les tableaux, les graphiques... "On pourrait même imaginer vectoriser une bande son", ajoute Didier Gaultier. Au final, ces différents modes de vectorisation pourraient être compilés dans un mode vectoriel unique au sein d'un espace vectoriel unique, au format texte par exemple. L'intervention de ces différents agents implique évidemment le développement d'un moteur d'orchestration.
"A partir de cette nouvelle base documentaire meta-vectorisée, on pourra ensuite réaliser des analyses de correspondance entre les fichiers en vue de créer un graph en amont du prompt de l'utilisateur", poursuit Didier Gaultier. "La récupération qui sera réalisée au final pourra de ce fait tenir compte des liens existants entre les documents. On pourrait même aller encore plus loin." Le consultant prend l'exemple d'un contenu combinant des prises de note écrites et audio. "Le graph pourra créer des liaisons entre des extraits de données issus des deux univers. Ce qui n'est pas possible aujourd'hui", indique-t-il.
Résultat : la nouvelle base vectorielle pourra générer des résultats plus fins en tenant compte des correspondances entre les contenus. Ce qui va bien au-delà de la comparaison de deux vecteurs bruts. "Grâce à une telle application, on pourra par exemple détecter qu'une compétence dont dispose un collaborateur (qui aura été identifiée via la vectorisation de ces contenus de travail, ndlr), n'a pas été mentionnée dans son CV", souligne Didier Gaultier. En aval, un autre agent pourra intervenir pour réécrire les prompts formés de mots clés en phrases intelligibles en vue de réaliser le matching final.