Arnaud Fournier (OpenAI) "Chez OpenAI, notre vision à long terme est de faire de ChatGPT une plateforme universelle"

Arnaud Fournier est responsable ingénierie Europe chez OpenAI, rattaché au bureau français de l'entreprise. Il détaille la stratégie de la start-up qui revendique désormais 3 millions d'utilisateurs professionnels.

JDN. OpenAI revendique aujourd'hui 3 millions d'utilisateurs professionnels. Dans un contexte où la concurrence s'intensifie, notamment avec Google et Anthropic, quelle est votre stratégie pour maintenir, voire renforcer, votre avance sur le marché des assistants IA professionnels ?

Arnaud Fournier dirige l'ingénierie Europe chez OpenAI. Diplômé de Polytechnique et HEC Paris, il a travaillé chez Palantir et cofondé Bastion, une start-up de cybersécurité pour PME. © OpenAI

Arnaud Fournier. Nous comptons, effectivement, aujourd'hui 3 millions d'utilisateurs professionnels, contre 2 millions en février, ce qui témoigne d'une croissance remarquable. Nous sommes arrivés un peu plus tard sur ce segment, ChatGPT ayant été lancé il y a deux ans et demi. La demande a été massive et a naturellement évolué des usages grand public vers des applications professionnelles. Les entreprises expriment un besoin croissant d'intégration dans leurs systèmes d'information. 

Vous avez récemment annoncé des intégrations deep research avec GitHub, HubSpot, Linear notamment. Quels seront, selon vous, les cas d'usage prioritaires à adresser pour les professionnels ?

Les intégrations avec GitHub, HubSpot et Linear répondent à la demande croissante de nos clients qui souhaitent approfondir leurs usages de ChatGPT. Prenons l'exemple des développeurs : avec Deep Research, ils peuvent désormais obtenir une analyse précise lors de la réception d'un brief. L'outil permet d'identifier rapidement les zones de code nécessitant une intervention, d'orchestrer la première phase de travail et de rendre le développeur plus efficace dans l'architecture de ses solutions. Les connecteurs GitHub et Linear permettent d'interagir directement avec les bases de connaissances et de mener un travail plus analytique. 

Le connecteur HubSpot, par exemple, ciblera principalement les équipes commerciales utilisant des CRM. Notre vision à long terme est de faire de ChatGPT une plateforme universelle, capable de servir chaque métier et chaque individu dans ses interactions professionnelles.

Le protocole de communication MCP suscite un intérêt croissant depuis quelques mois. S'agit-il d'une tendance de fond appelée à s'intensifier durablement ?

Ce qu'on voit, c'est qu'on est passé de avec l'IA générative d'une révolution à un continuum de révolution avec l'IA agentique aujourd'hui. On a fait beaucoup d'annonces il y a quelques mois avec les outils pour les développeurs, notre SDK agent, l'API response, qui permettent à tout le monde de créer ses propres agents. Et pour pouvoir aller encore plus loin, il faut que ces agents puissent interagir avec des outils et des systèmes. Et nous, bien sûr, on crée ces connecteurs directement pour plein d'outils, et on va continuer à le faire, mais on veut aussi donner la main aux développeurs pour créer leurs propres connecteurs dans leurs systèmes sources, parfois auxquels on n'a pas accès, parce que ça peut être des systèmes chez eux qui sont séparés d'Internet. Et donc, en intégrant MCP, on débloque aussi cette capacité pour tout le monde de s'intégrer avec ces outils, et on voit que ce protocole est en train de devenir prévalent dans l'industrie.

On observe aujourd'hui l'émergence d'agents spécialisés capables d'exécuter des tâches en arrière-plan, de manière autonome, comme c'est le cas dans des projets tels que Codex ou Deep Research. Va-t-on vers des systèmes construits autour de multiples agents invisibles mais actifs, chacun dédié à une fonction précise ?

Ces agents travaillent effectivement en arrière-plan, mais à chaque fois qu'il y a des tâches présentant un certain risque - y compris dans Codex ou dans l'opérateur - une validation est systématiquement demandée à l'utilisateur. L'important, c'est d'identifier les cas d'usage pour lesquels nous avons un niveau de confiance suffisant. Par exemple, aller chercher des informations sur Internet avec Deep Research n'implique pas un niveau de risque très élevé. En revanche, dès qu'on a des tâches qui s'exécutent réellement dans des systèmes, là il faut absolument maintenir cette intervention humaine.

"Nous voulons donner la main aux développeurs pour créer leurs propres connecteurs dans leurs systèmes sources"

Tous ces outils permettent cette interaction avec l'utilisateur en demandant : "Je voudrais lancer cette commande, m'y autorisez-vous ?" C'est cette interaction humain-machine que nous voulons bien intégrer dans ChatGPT pour assurer l'alignement entre cet agent - qui peut nous faire gagner du temps - et la nécessité de ne pas en perdre davantage par des tâches qui pourraient être erronées. C'est d'ailleurs l'erreur qu'on peut observer quand les gens tentent de faire cela en totale autonomie ou essayent d'aller plus vite que la musique.

Codex se décline aujourd'hui en deux versions : l'une intégrée à ChatGPT et connectée à GitHub, l'autre en ligne de commande via Codex CLI. Est-ce que ces deux outils répondent à des cas d'usage bien distincts, ou est-ce qu'on parle du même type de tâches, mais appliquées à des contextes techniques différents ?

Ces deux produits sont très complémentaires et reflètent la philosophie d'OpenAI : d'un côté rendre ces outils d'IA accessibles au grand public – qu'il s'agisse de développeurs professionnels ou de personnes qui codent le week-end – et de l'autre fournir des outils plus avancés à ceux qui ont des besoins de personnalisation ou qui souhaitent les intégrer dans leurs offres de produits et services. Les utilisateurs possédant une forte expertise, bien connectés à ces outils et bases de données, peuvent ainsi créer des produits à forte valeur ajoutée grâce aux technologies OpenAI sous-jacentes – nos modèles de raisonnement, nos modèles multimodaux et l'ensemble des outils pour développeurs que nous avons créés et lancés.

Le phénomène du vibe coding gagne en popularité. Mais face à ces progrès, pensez-vous encore qu'il restera un espace de création propre aux développeurs humains dans 5 ou 10 ans ? Ou va-t-on vers une automatisation complète du développement logiciel ?

Le vibe coding n'est pas fait pour encourager le mauvais code. Notre objectif chez OpenAI est d'équiper les développeurs d'outils leur permettant de déléguer les tâches à faible valeur ajoutée. Prenons des exemples concrets : les tests unitaires et la documentation sont souvent réalisés a minima. Un développeur passera généralement peu de temps à documenter correctement une fonction ou à écrire des tests exhaustifs, alors que ces aspects sont cruciaux pour la maintenabilité du code.

"Nous travaillons pour développer des modèles à plus grand contexte, y compris des modèles de raisonnement"

Notre mission n'est pas de remplacer les développeurs, mais de leur fournir des moyens d'être plus efficaces. Ce que j'observe quotidiennement, c'est que les entreprises ayant intégré ces nouvelles capacités de codage recrutent davantage et travaillent de manière plus performante. Par exemple, un outil qui génère automatiquement la documentation technique ou qui produit des cas de test peut libérer du temps pour des tâches à plus forte valeur ajoutée comme l'architecture logicielle ou l'innovation.

Plusieurs projets de recherche en IA misent sur le contexte infini, capable d'ingérer l'historique complet d'un projet ou d'un dépôt sans découpage préalable. Est-ce une direction que vous explorez également chez OpenAI ?

Sur ce sujet du contexte long, nous avons récemment annoncé la sortie de GPT-4.1, qui est un modèle non-raisonnement mais qui dispose justement d'un contexte beaucoup plus étendu. Nous avons un million de tokens pour GPT-4.1, ce qui constitue déjà une forme d'avancée significative. Aujourd'hui, nous travaillons pour développer des modèles à plus grand contexte, y compris des modèles de raisonnement.

Vous avez mentionné les avancées de GPT-4.1 sur le contexte long. Au-delà de l'augmentation de la taille du contexte, comment travaillez-vous concrètement sur les défis techniques comme le "lost in the middle" qui affectent encore les modèles à long contexte en entreprise ?

Nous menons effectivement beaucoup de recherches sur ce sujet. Lors de l'annonce de GPT-4.1, notre travail consistait précisément à ne pas sortir des modèles à long contexte qui ne fonctionneraient pas correctement. Le travail que nous avons réalisé sur GPT-4.1 nous a notamment permis de post-entraîner nos modèles, c'est-à-dire d'améliorer leur entraînement spécifiquement sur cette problématique. Les performances de GPT-4.1 sont vraiment excellentes sur la question du "lost in the middle".

"Nous sommes convaincus d'avoir encore beaucoup de choses à apporter à la fois sur la taille du contexte, mais aussi sur la qualité de rendu"

Bien sûr, c'est un sujet sur lequel nous continuons à travailler. Le défi, quand on est à la pointe de l'innovation, c'est qu'il est toujours difficile de prédire ce qui viendra ensuite. Nous savons que nous travaillons, nous savons que ce domaine va évoluer. Quelle direction cela prendra-t-il ? Comment cela va-t-il se dérouler ? C'est toujours difficile à dire. Je n'ai pas forcément de certitudes à partager, si ce n'est que nous travaillons activement sur le sujet et que nous sommes convaincus d'avoir encore beaucoup de choses à apporter dans ce domaine - à la fois sur la taille du contexte, mais aussi sur la qualité de rendu.