GPT-4o et Voice Mode dans ChatGPT : OpenAI change encore la donne

OpenAI tenait ce lundi 13 mai un évènement pour présenter l'évolution de ses produits phares : GPT-4 et ChatGPT. A la clef notamment : un super assistant virtuel intelligent.

OpenAI continue d'enthousiasmer le monde de l'IA générative. A l'occasion du Spring Updates, la start-up de San Francisco a présenté ce lundi 13 mai une mise à jour majeure de ChatGPT et de son modèle GPT-4. A l'occasion d'une démonstration live, la pépite de la valley a présenté une application desktop pour ChatGPT ainsi qu'un nouveau modèle, GPT-4o, pour "omni". Une mise à jour majeure qui permet à ChatGPT de devenir un assistant vocal efficace et ultra-intelligent, sans aucune latence.

GPT-4o : un nouveau modèle accessible gratuitement

GPT-4o doit être le nouveau modèle phare d'OpenAI. Il est censé être aussi performant que GPT-4 Turbo tout en étant deux fois plus rapide. Une nouvelle modalité fait également son apparition en plus du texte et de l'image : le son. Comme Gemini Ultra 1.5 Pro, GPT-4o peut comprendre véritablement une piste audio en détail. Le modèle est capable de traiter simultanément l'ensemble des modalités tout en répondant en moins de 232 millisecondes selon les tests menés par OpenAI. GPT-4o est aussi performant que GPT-4 Turbo tout en étant meilleur dans les langues non anglaises. Il serait également significativement meilleur que les modèles équivalents en compréhension d'image et d'audio.

Doté d'un nouveau tokenizer, GPT-4o permet une compression significative du nombre de tokens nécessaires pour représenter différentes langues. Le tokenizer permet de réduire drastiquement le nombre de tokens nécessaires, avec des réductions allant de 1,1x jusqu'à 4,4x selon les langues. Pour des langues plus proches de l'anglais comme l'italien, l'allemand, l'espagnol ou le français, on observe encore des réductions de l'ordre de 1,1x à 1,2x. Un même prompt en français demandera ainsi moins de tokens qu'avec GPT-4 Turbo. Le cout et la rapidité de réponse en seront ainsi grandement amélioré.

GPT-4o commence à être déployé dans ChatGPT, à la fois pour les utilisateurs gratuits et les abonnés ChatGPT Plus. Les abonnés Plus auront accès à des limites d'utilisation jusqu'à cinq fois plus élevées que les utilisateurs gratuits. Au-delà de ChatGPT, GPT-4o sera également disponible via l'API d'OpenAI. Dans l'API, le nouveau modèle sera proposé à un tarif jusqu'à 50% moins cher que GPT-4 Turbo, soit 5 dollars le million de tokens en entrée et 15 dollars en sortie.

Bien que GPT-4o soit très performant, OpenAI reconnaît que le modèle peut encore présenter certaines limitations techniques dans sa version initiale. Les équipes n'entrent cependant pas dans les détails des cas d'usage impactés. Par ailleurs, les nouvelles capacités audio et visuelles de GPT-4o soulèvent des défis en termes de sécurité et de modération des contenus. OpenAI étudie encore ces aspects et déploiera progressivement ces fonctionnalités, en commençant par limiter les sorties vocales à un ensemble de voix prédéfinies.

Benchmark comparatif de GPT-4o sur MMLU. © OpenAI

Voice Mode : un assistant vocal bluffant

OpenAI profite du lancement de GPT-4o pour dévoiler un Voice Mode repensé. Dans ce mode, ChatGPT se trouve sous la forme d'un assistant vocal similaire à celui de Google ou d'Amazon à une différence près : il est véritablement intelligent. Auparavant, le Voice Mode de ChatGPT utilisait une chaîne de 3 modèles séparés pour la transcription audio / texte, l'intelligence du langage, et la génération texte / audio. Avec GPT-4o, tout ce pipeline est intégré dans un seul modèle unifié. La latence moyenne pour les interactions vocales passe de 2,8 secondes (avec GPT-3.5) et 5,4 secondes (avec GPT-4) à seulement 232 millisecondes en moyenne avec GPT-4o (temps de réponse typique d'une conversation humaine).

Plus bluffant encore, GPT-4o peut détecter et comprendre le ton et les émotions dans l'audio, au-delà de la simple transcription. Et il peut générer des sorties vocales avec différents styles et tons, y compris du chant...

Une nouvelle interface

Au-delà du Voice Mode, GPT-4o apporte d'autres améliorations à ChatGPT. Les utilisateurs pourront désormais interagir avec le chatbot en partageant des éléments visuels comme des images ou des documents. ChatGPT pourra alors les analyser et en discuter. L'interface de ChatGPT a également été revue pour offrir une expérience plus intuitive et fluide aux utilisateurs, facilitant ainsi les interactions. Un chercheur d'OpenAI parvient ainsi à lui faire résoudre, en direct (contrairement à Google avec la démo de Gemini) une équation mathématique simple. L'IA parvient également à comprendre l'humeur du chercheur rien qu'en "regardant" son visage. Une démonstration digne d'un film de science-fiction tant l'échange entre le modèle et l'humain est naturel.

GPT-4o en Mode Voice sur Mac. © Capture d'écran / JDN

Le Voice Mode de GPT-4o sera intégré dans la nouvelle application bureau de ChatGPT, disponible sur macOS. Les utilisateurs pourront accéder au Voice Mode directement depuis leur ordinateur, en utilisant un raccourci clavier. L'IA aura également accès dans ce cas à certains éléments visuels affichés sur l'écran de l'ordinateur pour comprendre pleinement le contexte de la discussion.