Laurent Daudet (LightOn) "La V2 d'Alfred offre une meilleure gestion des risques d'hallucination"
Laurent Daudet est directeur général et co-fondateur de LightOn. A l'occasion de la conférence ai-PULSE de Scaleway, LightOn dévoile Alfred-40B-1023, la seconde version de son modèle phare basé sur Falcon 40B. Cette nouvelle itération est optimisée pour réduire l'AI hallucination en se basant sur le RAG.
JDN. Quelles sont les nouveautés apportées par Alfred-40B-1023 ?

Laurent Daudet. Alfred-40B-1023 offre de nouvelles fonctionnalités conversationnelles par rapport à la version précédente Alfred V1, qui était plus générique. Le modèle a été optimisé pour mieux prendre en compte les échanges interactifs, avec la conservation de l'historique de la conversation. Il est donc plus performant pour les applications de chat, et notamment pour les systèmes RAG (retrieval-augmented generation, ndlr) qui permettent de répondre à des questions en langage naturel à partir d'un corpus documentaire. Dans ces systèmes RAG, la réponse synthétisée combine à la fois la récupération de documents pertinents et la génération automatique de contenu en s'appuyant sur ces documents. La gestion du RAG a été significativement améliorée par rapport à la version 1 d'Alfred, qui proposait une approche plus générique. La nouvelle version d'Alfred permet également une meilleure gestion des risques d'hallucination. Le système a été conçu pour indiquer explicitement qu'il ne connaît pas la réponse lorsque l'information requise est absente de la base documentaire du RAG. Cette approche limite les réponses hasardeuses non étayées par les données.
Comment êtes-vous parvenu à minimiser les possibilités d'hallucination du modèle ? Comment a-t-il été entraîné ?
Pour limiter les risques d'hallucination, nous avons combiné deux approches complémentaires : l'intégration de commandes et de consignes bien conçues via l'approche Instruct, ainsi que l'utilisation d'un apprentissage par renforcement avec feedback humain (RelHF, ndlr). Ce mix des deux techniques permet d'obtenir un bon équilibre et de réduire significativement les hallucinations.
Nous gardons évidemment une part de mystère sur notre "sauce secrète", mais pour rentrer un peu dans les détails techniques, ce nouveau modèle Alfred s'appuie sur notre architecture Falcon que nous connaissons bien. Nous avons notamment utilisé du RLHF, de l'apprentissage par renforcement avec feedback humain, en nous basant sur toute une base de données de prompt et de retours d'évaluation humains sur des cas d'usage réels. Réaliser un RLHF de qualité est quelque chose que peu d'acteurs savent réellement faire.
Quelles sont les différences entre la version open source et la version proposée sur Paradigm ?
La version open source et la version commerciale Paradigm d'Alfred se distinguent principalement par la taille maximale du contexte pris en compte. La version Paradigm supporte des contextes allant jusqu'à 8K, ce qui permet de traiter des documents et des conversations plus longs. Nous conservons un modèle dual avec d'une part la technologie de base Alfred qui reste open source, avec des poids disponibles librement sous licence Apache 2. Et d'autre part la version enrichie Paradigm avec des capacités étendues répondant aux besoins spécifiques de certains clients.
Notre vision est qu'il existera une grande variété de modèles IA adaptés à différents usages, sans qu'un seul ne s'impose sur tous les cas d'application. Par exemple, Alfred est très performant pour les systèmes de RAG mais moins pour d'autres tâches. La tendance est à la spécialisation des modèles par fine-tuning sur des jeux de données et des cas d'usage dédiés, ainsi que par optimisation sur l'infrastructure du client. Plutôt qu'un modèle unique, nous aurons une multitude de variantes sur-mesure et ultra-spécialisées.
Quelle est la configuration minimale pour faire tourner Alfred-40B-1023 ?
Compte tenu de la taille du modèle Alfred-40B-1023 avec ses 40 milliards de paramètres, la configuration minimale recommandée pour le faire tourner est de deux GPU (H100 par exemple) avec 80 Go de mémoire chacun. Pour les applications de type RAG qui nécessitent des embeddings, un troisième GPU est requis afin d'absorber cette charge de calcul supplémentaire. Des versions plus légères sont à l'étude pour l'avenir, afin de réduire les ressources matérielles nécessaires.
Quelles sont les prochaines étapes pour LightOn ? Parvenez-vous à lever des fonds ?
Nos priorités actuelles sont axées sur le déploiement de cas d'usage concrets pour nos clients industriels et du secteur public, comme la Région Ile-de-France, Docaposte ou le ministère des Armées. Au-delà de la R&D, nous sommes à un stade passionnant où nous confrontons notre technologie à des besoins business réels, pour des applications comme la documentation interne, l'analyse de documents, etc. Notre approche est très quantitative, en mesurant précisément les gains obtenus pour chaque usage en termes de temps, performance, efficacité. Cela nous permet d'évaluer si notre modèle Alfred V2 répond déjà aux besoins ou s'il faut aller plus loin dans la personnalisation. L'objectif est de préparer le passage à l'échelle industrielle début 2024, en transformant les expérimentations en déploiement opérationnel à grande échelle.
Les discussions autour de notre levée de fonds avancent de manière positive. Notamment, j'ai eu récemment une réunion prometteuse avec un important acteur du corporate venture. Le fait de déployer des cas d'usage concrets avec des entreprises rend le corporate venture beaucoup plus enthousiastes à l'idée d'investir, car il voit une valeur business tangible au-delà de la technologie elle-même.