Ryan Beiermeister (OpenAI) "Les deux nouveaux modèles d'OpenAI permettent de modérer du contenu et de classifier les risques"
OpenAI publie ce 29 octobre gpt-oss-safeguard, deux modèles open-weight (120b et 20b) basés sur le raisonnement. Entretien avec Ryan Beiermeister, VP de la politique produit chez OpenAI.
JDN. OpenAI dévoile ce 29 octobre gpt-oss-safeguard, deux modèles open-weight (120b et 20b) spécialisés dans la sécurité. Quels sont les cas d'usage concrets pour ces outils ?
Ryan Beiermeister. Notre objectif est de donner aux entreprises et aux développeurs l'accès à des technologies de sécurité avancées et plus flexibles. Gpt-oss-safeguard est un ensemble d'outils que nous avons d'abord conçus pour nos propres besoins internes, notamment pour appliquer les capacités de raisonnement de nos modèles à la classification de sécurité et à l'interprétation de politiques personnalisées. En créant des versions open-weight sous licence Apache 2.0, nous voulons permettre à tous d'adapter ces outils à leurs propres besoins..
Ces modèles peuvent être utilisés pour des tâches de modération de contenu, de classification de risques émergents ou encore de protection des mineurs en ligne. Par exemple, un forum de jeu vidéo pourrait développer une politique pour identifier les discussions sur la triche dans un jeu, ou une plateforme d'avis produits pourrait concevoir son propre filtre contre les faux avis. Plus largement, toute organisation cherchant à classifier des contenus sensibles, à détecter des abus ou à ajuster rapidement ses politiques peut en tirer parti.
En quoi votre approche basée sur le raisonnement est-elle supérieure aux systèmes de sécurité actuels, tels que les guardrails ou les classifiers ?
Ce qui rend gpt-oss-safeguard plus efficace, c'est que le système n'a plus besoin d'être entraîné sur d'immenses volumes de données étiquetées pour distinguer ce qui est acceptable ou non. Les classifiers traditionnels reposent sur des milliers d'exemples prédéfinis pour apprendre à reconnaître des contenus dangereux, ce qui les rend coûteux à entraîner, difficiles à adapter et souvent incapables de gérer des risques peu fréquents. Avec notre approche basée sur le raisonnement, le modèle peut interpréter directement la politique de sécurité rédigée par le développeur au moment de l'inférence. Il utilise une technique appelée 'chain-of-thought' pour analyser un contenu, une conversation ou un contexte.
"Avec notre approche basée sur le raisonnement, le modèle peut interpréter directement la politique de sécurité rédigée par le développeur"
Surtout, il peut expliquer comment il arrive à ses conclusions, ce qui n'est pas possible avec les classifiers classiques. Cette transparence permet aux développeurs de comprendre pourquoi un contenu a été classé d'une certaine manière et d'ajuster leurs politiques rapidement si nécessaire. En clair, cela rend le système plus scalable, moins dépendant des datasets massifs, plus transparent, et beaucoup plus simple à adapter à des contextes changeants ou des risques émergents.
Contrairement aux guardrails classiques qui agissent en amont, comment s'intègre gpt-oss-safeguard dans le processus de génération ? Auriez-vous un exemple permettant d'illustrer son fonctionnement ?
Prenons un exemple concret : si quelqu'un réussit à jailbreaker un modèle pour obtenir des instructions sur la fabrication d'une arme, gpt-oss-safeguard, qui tourne en temps réel, va pouvoir bloquer la génération de cette réponse avant qu'elle n'atteigne l'utilisateur. Grâce à notre technologie de chain-of-thought reasoning, le modèle peut expliquer comment il est arrivé à cette décision et quel raisonnement il a utilisé. Cette transparence permet aux développeurs de comprendre comment leur politique est appliquée et de l'ajuster si nécessaire, sans devoir réentraîner un nouveau modèle.
En clair, ce fonctionnement de type " inference-time " en fait un mécanisme de sécurité au niveau du système, capable d'intervenir même si le modèle principal a été contourné. Il peut ainsi, si besoin, réaliser un blocage immédiat de la sortie avant qu'elle ne soit présentée à l'utilisateur. Ces classifications en temps réel peuvent aussi être utilisées par les équipes Trust & Safety pour surveiller les abus potentiels et ajuster leurs politiques.
Quelle a été la nature de votre collaboration avec Roost et quel a été son rôle dans ce lancement ?
Roost est un partenaire clé pour nous et OpenAI a d'ailleurs été l'un des premiers donateurs et soutiens privés. Nos missions sont alignées, à savoir de rendre la sécurité accessible à tout l'écosystème, et pas seulement aux grandes entreprises. Pour gpt-oss-safeguard, nous avons ainsi travaillé ensemble sur la documentation, les tests et le lancement sur Hugging Face. Roost pilote aussi la nouvelle communauté de développeurs dédiée à la sécurité en open-source, avec laquelle nous organiserons des sessions de formation et de retours d'expérience. En résumé, Roost joue un rôle de facilitateur et d'accélérateur pour diffuser ces outils de sécurité à grande échelle.
OpenAI a longtemps privilégié les modèles fermés. Ce virage vers l'open-weight marque-t-il un changement de stratégie ?
Il ne s'agit pas d'opposer modèles ouverts et fermés car les deux approches sont complémentaires. Sam Altman, notre CEO, l'a clairement exprimé : ce n'est pas l'un ou l'autre. L'open source favorise la transparence, l'innovation et la démocratisation de l'IA, tandis que certains modèles très puissants nécessitent encore un contrôle d'accès et une supervision renforcée. Nous proposons aussi des modèles accessibles via API et des modèles fermés. En clair, nous ne sommes pas à un stade où nous voyons le monde comme une alternative binaire, mais plutôt comme deux options qui répondent à des objectifs différents. Nous nous intéressons beaucoup à l'open source car nous restons profondément attachés à ce que nos meilleures technologies profitent à tous, pas seulement à certains pays ou entreprises ayant les moyens de se payer des licences.
OpenAI a récemment lancé plusieurs initiatives dans l'IA agentique, avec Agent Builder ou encore le navigateur Atlas . Comment adaptez-vous vos politiques produits dans un environnement aussi mouvant ?
Il y a quelques années, ChatGPT n'était qu'une interface unique de conversation. Aujourd'hui, nous construisons un écosystème complet : navigation web, agents capables d'effectuer des tâches, génération vidéo et image, assistance à la programmation, etc. Cela nous oblige à penser la politique produit comme une infrastructure, et non plus comme des règles propres à un seul cas d'usage.
Nous définissons ce qui reste vrai dans tous les contextes. Par exemple, nous ne voulons en aucun cas que nos outils servent à exploiter des enfants ou à planifier des actes violents. Ensuite, nous traduisons ces principes en politiques concrètes pour chaque produit. Cela peut impliquer de les intégrer dans l'entraînement des modèles, de construire des systèmes de blocage au niveau système comme gpt-oss-safeguard, ou encore d'ajouter des mécanismes de monitoring. Ainsi, si un agent commence à exécuter une action dangereuse, nos classifiers peuvent le détecter, bloquer l'action et suspendre le compte concerné.
Depuis son lancement, Sora 2 permet de créer des vidéos utilisant des marques ou licences protégées. Quelles sont les mesures mises en place pour protéger le droit d'auteur ?
Tout dépend du choix du détenteur des droits. Certains partenaires sont ravis de voir leurs personnages ou marques utilisés de manière créative, dans des contextes positifs, qui renforcent leur visibilité. D'autres ne souhaitent pas que leurs œuvres soient exploitées, et ils en informent notre équipe juridique. Nous adaptons alors rapidement nos modèles pour bloquer ces contenus. Nous offrons donc les deux options, et cette flexibilité semble bien accueillie. Concernant la preuve de propriété, nous disposons d'une excellente équipe juridique qui effectue les vérifications nécessaires. Notre objectif est de proposer différentes manières d'utiliser, de distribuer ou de protéger les contenus en fonction du souhait des ayants droit.
En tant que VP of Product Policy, intégrez-vous les conséquences sur l'emploi dans vos décisions produit, alors que les jeunes générations semblent s'inquiéter de l'impact de l'IA sur le marché du travail ?
Bien sûr. Globalement, nous pensons que l'IA contribue positivement au marché du travail et qu'elle va créer des emplois. L'IA aide les gens à être plus efficaces et leur donne des outils vraiment puissants. Pour autant, nous restons attentifs à la question de l'équité. A titre personnel, je veux m'assurer que nos produits ne favorisent pas certaines populations au détriment d'autres, et que les bénéfices soient largement partagés.
"Nous pensons que l'IA contribue positivement au marché du travail et qu'elle va créer des emplois"
Nous menons en permanence des recherches économiques via une équipe dédiée à l'impact de l'IA sur le marché de l'emploi, car nous pensons qu'il est important que la société comprenne ces évolutions, ainsi que nous-mêmes également. Notre objectif est d'accroître la productivité et d'aider les gens à s'épanouir avec l'IA, tout en limitant les effets négatifs. Ceux-ci sont difficiles à prévoir, mais nous nous concentrons surtout sur les risques matériels pour les personnes, à savoir notamment leur sécurité, leur bien-être psychologique et émotionnel.
Sam Altman a récemment ouvert la porte à une potentielle utilisation à caractère érotique de ChatGPT. Comment concilier ces futurs nouveaux usages avec la protection des mineurs ?
Ce que Sam Altman a exprimé, est que nous devrions proposer des expériences différenciées selon l'âge des utilisateurs. Les adultes doivent être traités comme des adultes, à partir du moment où leurs usages ne causent pas de tort. Nous interdirons toujours tout usage visant à planifier ou encourager la violence, à nuire à autrui ou à soi-même. Mais pour d'autres formes de liberté, certaines personnes y sont favorables, d'autres non. Nous ne voulons pas être excessivement restrictifs. Ce qui importe vraiment, c'est de savoir si l'utilisateur est un adulte ou un adolescent.
Nous travaillons donc sur des politiques spécifiques pour les mineurs afin d'adapter l'expérience de ChatGPT et de la rendre plus sûre. Nous développons actuellement des age prediction classifiers capables d'estimer l'âge de l'utilisateur et de garantir que toute personne de moins de 18 ans se trouve bien dans un espace sécurisé. Une fois ces systèmes suffisamment performants, nous pourrons proposer aux adultes une expérience distincte, tout en protégeant les plus jeunes. Le dénominateur commun restera la prévention du risque et la sécurité.