LightOn et Aleph Alpha, les incontournables de l'IA générative en Europe
Sur le terrain de l'IA générative, les start-up pullulent. Mais rares sont celles qui affichent déjà une offre industrialisable. Parmi ces acteurs figurent notamment le français LightOn et l'allemand Aleph Alpha. Leur origine européenne commune leur confère un avantage : proposer des solutions de large language model (LLM) souveraines.
Du côté d'Aleph Alpha, on met en avant un modèle de langage propriétaire basé sur l'infrastructure Machine Learning Development System de HPE. Baptisé Luminous, il est commercialisé sur un cloud opéré par la société du Baden-Wuerttemberg. Il peut aussi être déployé sur l'infrastructure de son choix, que ce soit sur un cloud public ou en interne.
Propriétaire vs open source
"A la différence des offres des hyperscalers comme Microsoft, Google ou OpenAI, vous pouvez faire fonctionner Luminous en toute autonomie sur votre infrastructure sans envoyer de données à un acteur américain ou aux Etats-Unis", commente Didier Gaultier, directeur du pôle data science et intelligence artificielle chez Business & Decision (groupe Orange).
Du côté de LightOn, l'offre s'articule autour de l'environnent Paradigme. Une plateforme qui est taillée pour gérer l'ensemble du cycle de vie du LLM sous-jacent, depuis son fine tuning jusqu'à la création des prompts permettant de paramétrer l'application finale et la manière dont elle interagit. Comme Luminous, Paradigme s'adresse avant tout aux équipes de data science.
Baptisé Alfred-40B-0723, le LLM de LightOn est une version affinée du modèle de langue open source Falcon-40B obtenue par apprentissage par renforcement à partir de commentaires humains. "Dans une approche également souveraine, il est possible de l'héberger sur n'importe quel type d'infrastructure, privée comme publique", commente Laurent Daudet, directeur général et cofondateur de LightOn. Alfred est utilisé à tous les étages du processus de data science, de la génération des prompts jusqu'à la mesure des résultats finaux.
"La couche d'entraînement supervisé pourra être entraînée par transfert learning avec les propres données du client"
Au-delà de leurs caractères souverains, Aleph Alpha et LightOn affichent d'autres avantages. A la différence des hyperscalers, leurs couches d'apprentissage sont personnalisables. "La couche d'embendding non-supervisé, utilisée pour vectoriser les mots, pourra intégrer une ontologie ou une gestion particulière des compétences", commente Didier Gaultier, avant d'ajouter : "La couche d'entraînement supervisé, qui renvoie à celle du chatbot à proprement parler, pourra aussi être entraînée par transfert learning avec les propres données du client."
De leurs côtés, les hyperscalers ne proposent pas de dispositif pour réentraîner leur modèle. Ils donnent simplement la possibilité de limiter leur couverture initialement très générale à un domaine particulier. Ils permettent certes d'injecter des données spécifiques via l'intégration de documentation particulière (technique de l'information retrieval ou du few-shot learning). Mais il ne s'agit pas d'un réapprentissage en profondeur.
Pas de couche d'apprentissage par renforcement
"A l'inverse de GPT-4, Aleph Alpha et LightOn ne sont pas équipés, en aval de leur LLM, de couche d'apprentissage par renforcement permettant de recueillir du feedback humain (technique du RLHF, ndlr)", pondère Didier Gaultier. "Au final, les réponses de leur modèle seront donc moins lissées." Traduction : leur risque d'hallucination, ou risque de réponses fausses, sera un peu plus grand, du moins sur le papier. Reste que la préparation de la documentation d'apprentissage en amont de la phase d'entraînement permettra de réduire ce risque.
"Même si elle n'est pas encore orientée RLHF, Paradigme est néanmoins capable de recueillir les feedbacks humains pour permettre aux équipes de LightOn d'optimiser le modèle au cas par cas", précise Laurent Daudet. "Dans le futur, nous nous orienterons vers des modèles de plus en plus spécifiques à chaque client, avec si besoin la possibilité d'orchestrer plusieurs modèles orientés sur des tâches particulières par le biais du moteur open source LongChain."
Contacté par le JDN, Aleph Alpha n'a pas souhaité donner suite à nos sollicitations.