GPTs, GPT-4 Turbo, nouvelle API, Whisper V3… Ce qu'il faut retenir de l'OpenAI DevDay

OpenAI a dévoilé, lors de son DevDay, de nouvelles fonctionnalités de customisation de ses modèles d'intelligence artificielle et des mises à jour de ses modèles phares. Tour d'horizon des nouveautés.

C'était l'événement à ne pas manquer dans le domaine de l'IA générative. OpenAI a présenté lundi 6 novembre une flopée de nouvelles fonctionnalités, services et mises à jour de ses modèles, à l'occasion du DevDay. Les développeurs du monde entier vont pouvoir bénéficier d'une personnalisation accrue des modèles d'IA et d'un temps de latence inférieur.

GPTs : créer son propre GPT

C'est la grande annonce du DevDay. OpenAI introduit GPTs, un nouveau service permettant de personnaliser ChatGPT pour certaines tâches spécifiques. Le but est de créer un copilot spécialisé par cas d'usage. Cette fonctionnalité se révèle assez intuitive et permet de configurer en quelques minutes son propre assistant. Les GPTs permettent d'intégrer des connaissances supplémentaires, d'accéder à des outils comme l'interpréteur de code, ou d'appeler des API externes. Les utilisateurs contrôlent leurs données et peuvent choisir de partager ou non leur copilot. La fonctionnalité devrait être lancée très prochainement et sera accessible depuis chat.openai.com/create.

Une marketplace de ces copilot sera mise en place dans les prochains jours. Il sera possible de partager son assistant ou d'utiliser l'assistant d'un autre utilisateur d'OpenAI. Sur le modèle de Poe, les créateurs de copilot pourront bénéficier d'une rente liée directement au nombre d'utilisateurs de leur assistant.

Un GPT-4 plus rapide avec 128k de contexte

Comme GPT-3.5, GPT-4 va, à son tour, bénéficier d'une version turbo. Cette mouture offre une latence réduite et un plus grand contexte : 128 000 tokens. Les équipes d'OpenAI ayant travaillé avec attention sur le compute, cette version sera proposée à un prix trois fois inférieur à la version actuelle de GPT-4 en input et deux fois moins cher en output. Le modèle sera proposé en version finale dans les prochaines semaines. Il est toutefois possible de tester le modèle via l'API en appelant le modèle "gpt-4-1106-preview". En parallèle, les modèles peuvent maintenant exécuter plusieurs actions à la fois grâce aux appels de fonctions. Avant il fallait faire deux demandes séparées.

OpenAI a introduit un nouveau paramètre "seed" pour ses modèles d'IA comme GPT-3. Ce paramètre permet de rendre les résultats des modèles reproductibles. Concrètement, en fixant une "seed", on obtient à chaque fois la même réponse du modèle pour une requête donnée. Cette fonctionnalité est très utile pour le débogage et les tests unitaires. Elle donne aussi plus de contrôle sur le comportement des modèles. Désormais les développeurs peuvent "rejouer" des requêtes et obtenir des résultats identiques.

GPT-3.5 Turbo : jusqu'à 16K de contexte, par défaut

Le 11 décembre prochain, OpenAI prévoit de déployer une mise à jour de GPT-3.5 Turbo. Cette nouvelle itération devrait supporter jusqu'à 16k de contexte. Le modèle devrait également supporter de nouveaux modes d'instruction et notamment le format JSON, et l'appel de fonction en parallèle. Les tests menés en interne démontrent une amélioration d'environ 38% du formatage des données, en JSON, XML ou YAML. Il est déjà possible de tester le modèle en appelant via l'API "gpt-3.5-turbo-1106".

Une API pour les assistants virtuels customisés (GPTs)

OpenAI surfe sur la vague des assistants virtuels et annonce la création d'une nouvelle API, sur la base de son nouveau service GPTs. Assistants API de son nom permet aux développeurs de construire des assistants virtuels dans leurs applications. Il est ainsi possible de personnaliser les instructions, d'ajouter des connaissances externes à l'IA et d'utiliser les versions et outils spécialisés d'OpenAI. (Code Retrieval, function calling). L'API Assistants introduit également des threads persistants, sans limite de longueur. Cette fonction permet aux développeurs de confier la gestion de l'état du thread à OpenAI et de s'affranchir des limites de fenêtre de contexte. Il suffit d'ajouter chaque nouveau message à un thread existant avec l'API.

Cette nouvelle API dispose d'une particularité sans véritable équivalent : le code nécessaire à la création des assistants personnalisés est entièrement généré par l'interface de l'entreprise. Le service est proposé en beta depuis le configurateur d'assistant disponible dans l'interface dédiée aux développeurs.

De nouveaux modèles dans l'API développeur

Les derniers modèles d'IA vont être intégrés dans l'API classique d'OpenAI. Attendu de longue date par les développeurs, Dall-E 3 va rejoindre l'API au prix de 0,04 dollar par image générée (nom du modèle dans l'API "dall-e-3"). Le nouveau GPT-4 Turbo avec vision, plus rapide que la version actuellement en production, arrive également. Il est déjà disponible en appelant le modèle "gpt-4-vision-preview", au prix de 0,00765 dollar pour analyser une image de 1080 x 1080 pixels, par exemple.

Enfin, OpenAI intègre également son modèle de text-to-speech, permettant de faire lire du texte à une voix de qualité humaine. Six presets sont déjà disponibles. Premier prix : 0,015 dollar pour 1 000 caractères.

Un pricing plus avantageux

OpenAI a annoncé une baisse significative des prix pour l'utilisation de ses modèles de langage comme GPT-3.5 et GPT-4. Concrètement, le coût par jeton est diminué de 2 à 4 fois selon le modèle et le type de jeton. Par exemple, les jetons d'entrée de GPT-4 Turbo sont trois fois moins chers. Cette baisse des tarifs va permettre un accès plus large aux capacités des grands modèles de langage d'OpenAI. Elle réduit aussi les coûts pour les développeurs qui créent des applications basées sur ces modèles. OpenAI souhaite que ces réductions de prix se répercutent sur les utilisateurs finaux des services d'IA.

Whisper : la V3 publiée, toujours en open source

La dernière itération de Whisper est publiée en open source. Pour rappel, Whisper V2 est considéré par les développeurs comme le modèle de speech-to-text open source le plus puissant du marché. Il est capable de transcrire avec qualité une voix humaine dans des conditions sonores dégradées. Pour l'heure le modèle n'est téléchargeable que depuis GitHub. OpenAI prévoit toutefois d'intégrer l'IA dans son API prochainement.

Bouclier de droits d'auteur

OpenAI lance une nouvelle protection juridique appelée "Bouclier de droits d'auteur" à destination des entreprises clientes de ChatGPT Enterprise et des développeurs utilisant sa plateforme. Concrètement, OpenAI s'engage à assurer la défense de ses clients et à prendre en charge les coûts associés en cas de poursuites pour violation de droits d'auteur liée à l'utilisation des fonctionnalités standards de ces services. Cette mesure vise à sécuriser l'usage professionnel des modèles de langage avancés d'OpenAI, qui peuvent parfois reproduire des contenus copyrightés de manière involontaire.