Poolside, l'alternative Française à GitHub Copilot axée sur la confidentialité

Basée à Paris la start-up propose aux professionnels des modèles d'IA pour le code à déployer on-premise. Une alternative souveraine axée sur la sécurité des données.

C'est l'une des nombreuses success stories de l'IA générative française : Poolside. Lancée en mai 2023 aux Etats-Unis, la start-up a décidé de se relocaliser à Paris. Fondée par Jason Warner, ancien CTO de GitHub et Eiso Kant spécialiste de l'IA pour le software enginering, Poolside se concentre sur le développement de modèles spécialisés pour le code. Le parti pris de la jeune pousse ? Proposer des IA spécialisées pour chaque client, le tout en local. Une alternative aux nombreux copilots de code véritablement crédible.

Une offre axée sur la confidentialité

Poolside se distingue des autres fournisseurs comme GitHub Copilot, Tabnine ou encore CodeWhisperer par son approche radicalement différente de la confidentialité des données. Contrairement à ses concurrents qui nécessitent l'envoi de données vers le cloud pour générer du code, Poolside s'installe directement dans l'environnement du client. "Demander aux clients de céder leurs données en échange d'une solution d'IA, c'est faire un pacte avec le diable. C'est une pratique que nous refusons d'imposer au monde", lance Jason Warner qui a notamment supervisé l'incubation et le lancement de la version alpha de GitHub Copilot. Et le CEO de préciser : "Comme nous n'avons pas accès aux données des entreprises, le système d'IA devient véritablement celui du client, plus celui de Poolside."

En parallèle de cette première restriction l'entreprise se refuse à utiliser du code issu de licences GPL v2/v3 pour former ses modèles. En effet, ces licences dîtes "virales" exigent que tout code dérivé soit également publié en open source, ce qui pourrait représenter un risque juridique majeur pour les entreprises développant du code propriétaire. En excluant explicitement ces licences, Poolside vise clairement une utilisation de ses modèles pour les secteurs régulés avec de fortes contraintes juridiques.

Comment les modèles Poolside sont-ils entrainés ?

"Le secret mal gardé de l'industrie de l'IA est que nous avons tous accès exactement aux mêmes données. OpenAI, Anthropic, toutes les grandes entreprises, nous examinons essentiellement les mêmes données sur Internet", révèle Jason Warner. Plutôt que de simplement s'appuyer sur ces ressources communes, l'entreprise utilise une technique appelée "reinforcement learning via code execution feedback" pour créer son propre code d'entrainement. "Alors que tous les laboratoires d'IA de pointe sont à la recherche de nouvelles données pour progresser plus rapidement, qu'ils essaient de construire des partenariats, d'acheter les données de Reddit... nous n'avons pas besoin de faire cela. Nous pouvons générer nos propres données", explique encore le CEO.

Très concrètement, le système fonctionne comme un processus itératif d'essais et d'erreurs : face à un problème de programmation donné, le modèle génère une vingtaine de solutions possibles qui sont ensuite testées en conditions réelles. "Sur ces 20 solutions, 18 seront probablement erronées, deux pourraient être correctes et une seule vraiment optimale", détaille Warner. Mais chaque tentative, qu'elle soit réussie ou non, enrichit la base de données d'entraînement. Cette approche va permettre à Poolside de générer environ 1,5 à 2 billions de nouveaux "tokens" de code exclusif sur les 18 prochains mois, s'ajoutant aux 3 billions de tokens de code déjà disponibles sur Internet.

Des modèles affinés pour les clients

Autre particularité de Poolside, les modèles proposés aux clients sont conçus pour s'adapter progressivement aux spécificités de chaque entreprise grâce à un processus de fine-tuning multicouche. Le système s'enrichit à quatre niveaux différents : il analyse d'abord les bases de code existantes de l'entreprise, intègre ensuite sa documentation technique et ses bases de connaissances, puis s'adapte en continu grâce à l'usage qu'en font les développeurs au quotidien. Cette personnalisation permet de créer un "modèle maison" unique, adapté aux pratiques spécifiques, aux bibliothèques et aux APIs de l'entreprise.

Pour l'heure, Poolside se concentre sur les environnements les plus complexes, particulièrement adaptés aux secteurs exigeants comme la finance, la défense, la technologie, le retail et les intégrateurs systèmes. Grâce à un partenariat first-party avec AWS, les entreprises peuvent accéder au service via leur contrat AWS existant. Le service est disponible via EC2 et s'intègre à Amazon Bedrock, avec le même niveau de support entreprise, de sécurité et de gouvernance que les autres services AWS. Les clients peuvent choisir d'exécuter leurs modèles soit sur les puces Trainium, soit sur des puces Nvidia. Le service via EC2 permet d'utiliser au choix le modèle de complétion de code ou l'assistant conversationnel. L'IA de Poolside est compatible avec la majorité des IDE du marché : VS Code, IntelliJ, et bientôt Visual Studio et Eclipse.