La génération augmentée par récupération (RAG) : avenir de l'IA générative ?

Qu'est-ce que cette technique qui permet d'améliorer la précision et la fiabilité des modèles d'IA générative?

La génération augmentée par récupération (RAG) est une technique permettant d'améliorer la précision et la fiabilité des modèles d'IA générative, à l'aide d’éléments provenant de sources externes.  Le terme, vu pour la première fois dans un article de 2020, décrit une famille croissante de méthodes à travers des centaines d'articles et des douzaines de services commerciaux qui, selon Patrick Lewis, son auteur principal, représentent l'avenir de l'IA générative.

Qu'est-ce que la génération augmentée par récupération (RAG) ?

Cette méthode comble une lacune dans le fonctionnement des LLM. Sous le capot, les LLM sont des réseaux neuronaux, généralement mesurés par le nombre de paramètres qu'ils contiennent. Une fois le modèle entrainé, les paramètres d'un LLM permettent de comprendre la phrase saisie par l’utilisateur, puis de générer des mots compréhensibles par les Humains afin de former des phrases.

Cette compréhension approfondie, parfois appelée connaissance paramétrée, permet aux LLM de répondre à des messages généraux très rapidement. Cependant, ils ne répondent pas aux besoins des utilisateurs qui souhaitent approfondir un sujet d’actualité ou une thématique plus spécifique.

Combinaison de ressources internes et externes

Patrick Lewis et ses collègues ont donc mis au point une génération augmentée par la recherche pour relier les services d’IA générative à des ressources externes, en particulier celles qui contiennent les détails techniques les plus à jour.

L’article, dont les coauteurs sont des anciens de Facebook AI Research (aujourd’hui Meta AI), de l’University College London et de l’Université de New York, qualifie la méthode RAG de "recette de réglage fin à usage général" parce qu'elle peut être utilisée par presque n'importe quel LLM pour se connecter à pratiquement n'importe quelle ressource externe.

Renforcer la confiance des utilisateurs

La génération augmentée par récupération donne aux modèles des sources qu'ils peuvent citer, comme les notes de bas de page d'un document de recherche, afin que les utilisateurs puissent vérifier toutes les affirmations, renforçant ainsi la confiance. Cette technique peut par ailleurs aider les modèles à lever toute ambiguïté dans la requête d'un utilisateur, et réduire le risque qu'un modèle se trompe. Ce phénomène est d’ailleurs appelé hallucination.

Un autre grand avantage de la méthode RAG est sa facilité de mise en œuvre. Un blog de Patrick Lewis et de trois des coauteurs de l'article indique que les développeurs peuvent mettre en œuvre le processus avec seulement cinq lignes de code. Cette méthode est donc plus rapide et moins coûteuse que le réentrainement ou l’ajustement d'un modèle LLM avec des ensembles de données supplémentaires. Cela permet aux utilisateurs d'ajouter de nouvelles sources à la volée.

Comment la méthode RAG est-elle utilisée ?

Grâce à la génération augmentée par récupération, les utilisateurs peuvent avoir des conversations avec des bases de données de référence. Cela signifie que les applications de la méthode RAG pourraient être adaptées à un grand nombre de domaines spécifiques. Par exemple, un modèle d'IA générative complété par un index médical pourrait être un excellent assistant pour un médecin ou une infirmière. Les analystes financiers bénéficieraient quant à eux d'un assistant lié aux données du marché.

En fait, presque toutes les entreprises peuvent transformer leurs manuels, guides ou modes d’emploi, leurs vidéos ou leurs journaux en ressources appelées « bases de connaissances » qui peuvent améliorer les LLM. Ces sources peuvent permettre des cas d'utilisation tels que l'assistance à la clientèle ou pour les techniciens sur le terrain, la formation des employés et l’aide au développement informatique.

Ce vaste potentiel explique pourquoi des entreprises telles que  AWSIBMGlean, Google, Microsoft, NVIDIA, Oracle et Pinecone adoptent la RAG.

Fonctionnement de la génération assistée par récupération

Lorsque les utilisateurs posent une question à un LLM, le modèle d'IA envoie la requête à un autre modèle qui la convertit dans un format numérique afin que les machines puissent la lire. La version numérique de la requête est parfois appelée embedding ou vecteur.

La génération augmentée par récupération combine les LLM avec des modèles d'intégration et des bases de données vectorielles. Le modèle d'intégration compare ensuite ces valeurs numériques aux vecteurs d'un index lisible par machine d'une base de connaissances disponible. Lorsqu'il trouve une ou plusieurs correspondances, il extrait les données correspondantes, les convertit en mots lisibles par l'homme et les transmet au LLM. Enfin, le LLM combine les mots récupérés et sa propre réponse à la requête dans une réponse finale qu'il présente à l'utilisateur, en citant éventuellement les sources trouvées par le modèle d'intégration.

L'avenir de l'IA générative réside dans l'enchaînement créatif de toutes sortes de LLM et de bases de connaissances afin de créer de nouveaux types d'assistants qui fournissent des résultats fiables que les utilisateurs peuvent vérifier, assurant ainsi la pertinence des résultats et la confiance envers ces procédés en constante amélioration.