IA : comment Crédit Mutuel Arkéa a développé son propre modèle de fondation

Le groupe de banque et d'assurance a choisi de s'appuyer sur le modèle open source Bloom. Le projet a abouti à une IA conversationnelle mise en expérimentation sur plusieurs cas d'usage.

Dès 2009, Crédit Mutuel Arkéa a initié la mise en place d'une plateforme big data reposant sur la technologie open source Hadoop. Le groupe de banque et d'assurance était alors le tout premier établissement financier français à se lancer dans un tel projet. Cette année, l'entreprise récidive dans l'IA générative en développant son propre modèle de fondation. Retour sur un projet à la fois innovant et totalement original.

"Nous avons décidé de mettre au point notre propre modèle de fondation car un développement interne nous permet de maitriser entièrement le projet, du point de vue de la souveraineté et de la sobriété", justifie Maxime Havez, chief data officer et chief data scientist chez Crédit Mutuel Arkéa. Pour ce projet, le groupe est parti du large language model (LLM) open source Bloom. Un LLM qui a été créé en 2022 à l'initiative du franco-américain Hugging Face.

L'open source sous le capot

Crédit Mutuel Arkéa a réentrainé Bloom sur un corpus en français en s'appuyant sur des instances graphiques (GPU) du cloud de Google. Le tout au sein d'un environnement sécurisé par des clés de cryptage Thales. "Dans le cadre d'un tel projet, nous pourrons être amenés à utiliser, aussi, le service managé de LLM Palm 2 de la Google Cloud Platform quand celui-ci sera disponible en Europe et couvert par le système de chiffrement de Thales", précise Maxime Havez.

Concrètement, Crédit Mutuel Arkéa a eu recours à la génération augmentée de récupération ou retrieval-augmented generation (RAG). Une technique qui permet d'injecter de nouveaux contenus dans la base vectorielle d'un modèle par le biais d'invites, et ainsi d'éviter un réentrainement complet. Une fois cette tâche réalisée, le modèle peut ensuite glaner directement ses réponses au sein des contenus ainsi injectés.

"Les résultats obtenus sont très encourageants, notamment comparés au Bloom historique mais aussi à GPT 3.5"

Le réapprentissage de Bloom a abouti à un modèle en français centré sur la finance. Résultat : il se retrouve nettement moins volumineux que le modèle Bloom d'origine.

En parallèle, Crédit Mutuel Arkéa a créé son propre outil d'évaluation. Objectif : estimer les performances du modèle issu de Bloom comparé aux LLM du marché. "En toute transparence, les résultats obtenus sont très encourageants, notamment comparés au Bloom historique mais aussi à GPT 3.5 et à Bison (un des quatre sous-modèles de Palm 2, ndlr). Et ce à la fois en termes de performance en langue française, mais également de poids", se félicite Maxime Havez. "On peut désormais se mettre en capacité d'utiliser ce service pour répondre à des cas d'usage."

Un bot de support interne

Le modèle de fondation du Crédit Mutuel Arkéa est déjà utilisé dans plusieurs domaines. Il a notamment permis d'enrichir un bot conversationnel de support conçu pour la recherche documentaire interne. En ligne de mire : faciliter l'accès à des informations nichées dans des questions-réponses ou des fiches produits. Le modèle est aussi mis en œuvre à destination des conseiller ou des fonctions de gestion centrale pour fluidifier l'accès à des bases documentaires.

Pour mener à bien ces chantiers, Crédit Mutuel Arkéa a développé une task force interne axée spécifiquement sur l'IA générative. Une équipe transverse qui est composée de ressources IT planchant sur l'IA depuis des années, de collaborateurs centrés sur la problématique de la data responsable, mais aussi de salariés chargés de développer le produit conversationnel en tant que tel.

Augmenter les modèles existants

Dans d'autres domaines de l'IA générative, le groupe a lancé plusieurs expérimentations en parallèle. C'est notamment le cas pour l'aide au codage des applications. Et, plus globalement, en vue d'augmenter les capacités de ces modèles d'IA déployés en interne.

"Nous n'avons pas pour vocation à nous limiter au cloud de Google. Nous testerons par exemple Palm 2 sur certains cas d'usage, mais aussi GPT du côté de Microsoft Azure ou d'OpenAI. Nous ne sommes fermés à aucune technologie pour peu qu'elles répondent à nos besoins et nos critères en termes de sobriété et de souveraineté", conclut le CDO. "Dans un domaine aussi critique que l'IA générative, nous avons besoin de dénicher le meilleur service correspondant aux cas d'usage que nous avons identifiés."

Conseiller financier, fonctions juridique, achat, informatique, RH… Crédit Mutuel Arkéa a cerné une quarantaine de cas d'usage de l'IA générative à tous les étages de ces métiers. Une belle perspective en termes de chantiers de développement numérique.