Comment Netflix s'est bâti une IA de code sur mesure

A l'occasion d'un webinaire en décembre 2025 co-organisé avec les équipes d'Anthropic, les équipes de Netflix ont dévoilé comment le géant du streaming est parvenu à automatiser avec l'IA une grande partie de ses opérations.

"Tudum". Ce son iconique, Netflix veut désormais l'appliquer à son code : un déclenchement, et tout s'exécute. Le géant du streaming a développé une stack complète pour automatiser sa production logicielle grâce aux agents IA. Lors d'un webinaire privé organisé avec Anthropic en décembre 2025, l'entreprise de Los Gatos a livré un retour d'expérience détaillé sur l'intégration de l'IA générative au sein de ses équipes de développement. Déçues par les assistants de code génériques, celles-ci ont conçu un système "d'intelligence contextuelle” capable de connecter les LLM directement aux standards de l'entreprise.

La déception des assistants de code classiques

Avant d'industrialiser l'IA à l'échelle Netflix a d'abord eu quelques difficultés avec les assistants d’IA traditionnels. La promesse des premiers assistants de code intégrés aux IDE s'est heurtée à une satisfaction globale faible des équipes et par conséquent une adoption quasi inexistante. Les LLM génériques produisaient du code techniquement valide, mais complètement déconnecté de la réalité Netflix. "La plainte revenait systématiquement : le code généré est correct, mais il n'est pas vraiment connecté à nos standards et nos pratiques internes", résume, dans sa présentation, Adam Berry, staff engineer chez Netflix.

Le manque de contexte, souvent cité comme la principale raison d'abandon de l’IA en production, était responsable de la situation. Il fallait repenser l'approche de zéro, d'où le développement d'une plateforme maison capable d'injecter le contexte organisationnel directement dans les agents IA. Face à ce constat d'échec, Netflix a pris une décision radicale : construire d'abord une plateforme Gen AI interne avant de déployer le moindre assistant de code.

Une plateforme Gen AI pour donner du contexte aux agents code

Plutôt que de simplement brancher ChatGPT ou Claude sur leur stack technique, les équipes de Netflix ont développé une plateforme Gen AI complète orchestrée par une équipe dédiée. "Notre objectif est de fournir des outils exceptionnels pour que les équipes Netflix construisent des choses propulsées par l'IA", explique Zee Waheed, PM de la plateforme GenAI chez Netflix. Le but étant d’être "très dogmatique sur les capacités à fournir, mais intentionnellement flexible sur les composants" et ainsi de pouvoir changer les briques technologiques sous-jacentes sans casser les applications déjà en production.

L'architecture repose sur quatre piliers. D'abord, les bases techniques classiques : limitation de débit, gestion de workflows et résilience. Ensuite, le système d'évaluations (observabilité) développé avec Braintrust, qui mesure en continu si les agents font bien ce qu'on leur demande. Troisième pilier : l'écosystème d'outils standardisé via le MCP qui agit comme une interface commune pour brancher bases de données, outils de build et documentation interne. Enfin, un système de RAG, géré par une équipe dédiée, qui injecte le bon contexte organisationnel au bon moment. L'objectif étant de s'assurer que chaque agent dispose exactement des bonnes informations au bon moment, sans intervention manuelle des développeurs.

Enfin, les équipes ont développé un système de "profils développeurs" qui configure automatiquement les agents selon le contexte de travail. Au démarrage, l'outil interroge un backend qui calcule un profil personnalisé en fonction de l'équipe, de la base code associée et des règles de sécurité. La configuration des outils MCP, plugins et commandes est alors ajustée en fonction de l’utilisateur. Résultat : les bons outils, la documentation pertinente et les commandes spécifiques s'affichent automatiquement, que le développeur soit sur son laptop ou en environnement distant.

Claude Code comme agent de code principal

Claude Code est devenu l'agent standardisé pour l'ensemble de l'entreprise, directement branché sur la plateforme Gen AI. Concrètement, dès son démarrage, Claude Code se connecte automatiquement aux différents piliers : il hérite des outils MCP configurés pour l'équipe du développeur, accède au système de RAG pour récupérer la documentation Netflix pertinente, et remonte ses performances dans le système d'évaluations Braintrust.

Netflix ne juge pas du succès de ses agents uniquement par le ROI brut, comme d’autres géants de la tech (Oracle notamment). Au-delà du taux de satisfaction à plus de 90% et de la croissance d'utilisation (environ +10% de tokens par utilisateur mensuellement), Netflix s'appuie sur les taux d'échec des changements, le temps de résolution des incidents, ou encore le débit de pull requests. "Nous sommes très attentifs au sentiment de nos développeurs. Si nous pouvons garder nos équipes satisfaites, ces gains se composent avec le temps", explique encore, sur le webinaire, Adam Berry. Sans communiquer de chiffre exact Netflix parle d’une baisse progressive de la charge de support, malgré l'augmentation des utilisateurs sur la plateforme.

Des agents entièrement autonomes en production

Cette stack moderne a permis à Netflix d'automatiser des opérations jusqu'ici chronophages. Par exemple la mise à jour de Nebula, l'outil qui permet de compiler et empaqueter les milliers d'applications Java de l'entreprise. "Avouons-le, personne ne veut passer du temps à corriger des avertissements, mettre à jour des plugins et valider des builds", résume Eric Wendelin, staff engineer chez Netflix. Netflix a donc créé trois agents qui se relaient : un qui analyse le code, un qui corrige les erreurs, un qui met à jour la documentation. Chaque application nécessite normalement plusieurs heures de travail manuel. En automatisant ces migrations sur des milliers d'applications, Netflix dit économiser “des semaines ou des mois de temps d'ingénierie".

L'expérience Netflix confirme ce que nous rappelions dans un précédent article : le context engineering reste le facteur déterminant. Plus l'agent est autonome, plus l'injection de contexte devient critique. Il faut d'abord bâtir l'infrastructure avant même de choisir le modèle. Il en va sans dire, le ROI vient de l'architecture, pas du LLM.