Jour 12 des annonces OpenAI : o3, un nouveau modèle d'IA et une avancée vers l'AGI

Jour 12 des annonces OpenAI : o3, un nouveau modèle d'IA et une avancée vers l'AGI Du 5 au 20 décembre, OpenAI a organisé 12 jours d'annonces et de démonstration. De nouveaux modèles d'IA et des fonctionnalités innovantes ont été annoncées.

Sur le principe du calendrier de l'avant, OpenAI a prévu une flopée de nouveautés et de démonstration du 5 au 18 décembre. Le JDN vous dévoile jour après jour l'ensemble des annonces à retenir.

J12 : OpenAI dévoile le successeur de o1... o3

Pour clôturer son shipmas, OpenAI annonce deux nouveaux modèles de raisonnement : o3 et o3 Mini. O3 établit de nouveaux records sur plusieurs benchmarks. Il atteint 87,5% sur le benchmark ARC AGI (contre 85% pour les humains), 71,7% sur Sweetbench vérifié (+20% par rapport à O1), et plus de 25% sur le très difficile Frontier Math d'Epic AI. o3 Mini, version optimisée, offre des performances similaires à O1 pour une fraction du coût et de la latence. Il propose trois niveaux de temps de réflexion (bas, moyen, haut) permettant d'adapter ses performances selon les besoins.

Les deux modèles ne sont pas encore disponibles publiquement, mais OpenAI lance un programme de test de sécurité ouvert aux chercheurs jusqu'au 10 janvier. La sortie d'o3 mini est prévue pour fin janvier 2024, suivie peu après par o3. L'entreprise annonce également une nouvelle technique de sécurité baptisée "deliberative alignment", utilisant les capacités de raisonnement des modèles pour mieux détecter les prompts problématiques.

J11 : OpenAI transforme ChatGPT en assistant natif pour Mac

Pour son onzième jour d'annonces, OpenAI enrichit son application desktop ChatGPT pour macOS avec une série de nouvelles intégrations natives. L'application peut désormais interagir directement avec les logiciels installés sur l'ordinateur, notamment les IDE (Xcode, VS Code, JetBrains), les outils d'écriture (Apple Notes, Notion, Quip) et le terminal Warp. Via un simple raccourci clavier (option + espace), les utilisateurs peuvent faire analyser le contenu de leurs applications par ChatGPT, qui adapte automatiquement ses réponses au contexte de l'application ouverte.

L'intégration va au-delà du simple contenu visible à l'écran : l'IA accède nativement. à l'application. Le mode vocal avancé est également disponible dans cette mise à jour, permettant d'interagir vocalement avec ChatGPT tout en travaillant sur ses documents. Ces nouvelles fonctionnalités sont disponibles ce jeudi 19 décembre sur macOS et prochainement sur Windows. 

J10 : ChatGPT répond au téléphone aux Etats-Unis et sur WhatsApp partout dans le monde

Pour sa dixième journée d'annonces, OpenAI rend ChatGPT plus accessible en le déployant sur WhatsApp au niveau mondial et via un numéro de téléphone aux États-Unis (1 800 242 8478). Sur WhatsApp, les utilisateurs peuvent interagir avec l'IA en mode texte sans avoir besoin de compte, tandis que l'authentification permettra à terme d'accéder à des fonctionnalités avancées comme la recherche ou le partage d'images. Selon les premiers tests du JDN, le modèle est basé sur GPT-4.

Côté téléphonie, les utilisateurs américains bénéficient de 15 minutes gratuites de conversation par mois avec ChatGPT (via son Voice Mode), compatible avec tout type d'appareil, des smartphones aux téléphones à cadran. L'initiative est née lors d'un hackathon interne. 

J9 : de nouvelles capacités pour les développeurs

Au neuvième jour de ses annonces, OpenAI dévoile plusieurs améliorations majeures pour ses API. Le modèle o1 est déployé avec des capacités avancées de compréhension d'images et de génération de réponses structurées en JSON. Les tests montrent des performances supérieures à GPT-4, notamment en programmation. L'API temps réel (voice mode) intègre désormais WebRTC, simplifiant l'intégration vocale. Le prix au token est également réduit de 60%. 

Pour démontrer la simplicité d'intégration de l'API temps réel, l'équipe présente une peluche connectée (un renne de Noël) équipée d'un microcontrôleur. En 30-45 minutes de configuration, sans soudure, le prototype permet une conversation vocale interactive via WebRTC. Une démonstration pour illustrer le potentiel avec des objets connectés simples. 

Enfin, OpenAI lance également le preference fine-tuning, permettant aux développeurs de personnaliser les modèles selon les préférences utilisateurs. Des SDK pour Go et Java complètent ces annonces, ainsi qu'une nouvelle procédure simplifiée d'obtention des clés API.

J8 : ChatGPT Search s'améliore encore et arrive dans le Voice Mode

Lancée il y a deux mois pour les abonnés payants, ChatGPT Search permet à l'IA de consulter Internet pour fournir des réponses actualisées. Trois améliorations majeures sont annoncées : une recherche plus rapide et optimisée pour mobile avec une nouvelle expérience de cartes, l'intégration de la recherche dans le mode vocal avancé, et le déploiement global sur toutes les plateformes.

Les utilisateurs payants et gratuits peuvent désormais effectuer des recherches conversationnelles naturelles, accéder à des contenus multimédias nativement (images, vidéos) et utiliser ChatGPT comme moteur de recherche par défaut dans leur navigateur. OpenAI annonce déjà que le J9 sera consacré aux développeurs avec un "mini dev day" qui promet son lot de nouveautés excitantes.

J7 : OpenAI introduit les projets dans ChatGPT

Au J7 de son Shipmas, OpenAI introduit une nouvelle fonctionnalité, attendue de longue date, dans ChatGPT : les projets. Cette nouvelle fonction permet aux utilisateurs de créer des espaces dédiés à leurs différents projets, où ils peuvent télécharger des fichiers, définir des prompts personnalisées et regrouper toutes les conversations liées à un même sujet. L'intégration est complète avec les fonctionnalités existantes comme la recherche et le mode Canvas. Les utilisateurs peuvent également opter pour une utilisation plus simple en tant que système de dossiers pour organiser leurs discussions.

L'outil a déjà fait ses preuves en interne, notamment pour la gestion de projets personnels comme la maintenance domestique ou le développement web. Déployée dès aujourd'hui pour les abonnés, hors d'Europe, Plus, Pro et Teams, la fonctionnalité sera progressivement étendue aux utilisateurs gratuits, avant d'atteindre les versions Enterprise et Education début 2025. Une mise à jour qui devrait considérablement améliorer l'expérience utilisateur en apportant enfin une solution à la gestion parfois chaotique des conversations dans ChatGPT.

J6 : ChatGPT se met à l'heure du Pôle Nord

Au sixième jour de ses annonces, OpenAI adopte un ton résolument festif en dévoilant une expérience vocale inédite avec le Père Noël. Tous les utilisateurs de ChatGPT peuvent désormais converser directement avec le célèbre personnage grâce au Mode Vocal. Accessible via une simple icône de flocon de neige dans l'interface, cette nouvelle voix permet des échanges variés, de la discussion sur la vie au Pôle Nord au partage de listes de cadeaux, en passant par des histoires réconfortantes sur les rennes. Les utilisateurs peuvent même créer des messages vocaux personnalisés du Père Noël.

Une fonctionnalité temporaire, qui ne sera pas enregistrée dans l'historique des conversations. Le tout s'accompagne d'un guide complet d'utilisation des outils d'OpenAI pour les fêtes : de l'aide à la planification des cadeaux avec DALL-E aux conseils culinaires en Mode Vocal, en passant par la création de jeux familiaux personnalisés. Un beau coup de com. Enfin OpenAI annonce également l'arrivée de la vision en direct dans son Mode Vocal. Partage d'écran ou caméra, l'utilisateur peut choisir le flux qu'il partage en direct avec l'IA. 

J5 : Apple Intelligence arrive progressivement 

Pour son cinquième jour, OpenAI fait le point sur son partenariat avec Apple Intelligence (l’IA générative sur les devices Apple) annoncé précédemment, qui commence à se concrétiser. L'intégration de ChatGPT au cœur de l'écosystème Apple se met progressivement en place, avec une première phase sur macOS pour les utilisateurs disposant de la dernière version du système d'exploitation. L'assistant peut désormais mémoriser le contexte des processus en cours, offrant une expérience plus cohérente.

Pour les utilisateurs iOS au sein de l’UE, il faudra attendre avril 2024 pour profiter de ces fonctionnalités. La démonstration a notamment mis en avant la création de playlists personnalisées - bien que l'ouverture directe dans l'application Music ne soit pas encore opérationnelle - ainsi que l'intégration future avec le bouton caméra des iPhone 16 pour un accès direct à ChatGPT Vision.

​​J4 : le mode Canvas s'étend et devient plus intelligent 

Pour le quatrième jour de son "Shipmas", OpenAI transforme radicalement son mode Canvas en un véritable assistant développeur automatisé. La fonctionnalité, désormais accessible aux utilisateurs payants et gratuits, ne se contente plus d'être une simple interface visuelle : elle devient un environnement de développement complet où l'IA peut chercher des données, générer du code, l'exécuter et visualiser les résultats directement dans la console.

Canvas se positionne maintenant comme un copilot de développement capable d'accompagner les développeurs et data scientists tout au long de leur workflow. OpenAI étend également cette capacité aux GPTs personnalisés. Une mise à jour qui tend encore plus vers l'automatisation intelligente des tâches de développement et d'analyse de données.

J3 : Sora disponible pour les utilisateurs de ChatGPT Plus et Pro

OpenAI déploie son très attendu générateur de vidéos par IA Sora, dix mois après son annonce initiale (Lire notre article Génération de vidéo : 10 mois après son annonce, Sora d'OpenAI est (enfin) là). Le service est accessible aux abonnés ChatGPT Plus et Pro aux Etats-Unis, avec une nouvelle interface dédiée et un modèle Turbo plus rapide. Les utilisateurs peuvent générer des vidéos jusqu'à 20 secondes en différentes résolutions (480p pour Plus, 1080p pour Pro) à partir de textes, d'images ou de vidéos existantes.

La technologie excelle dans les mouvements de caméra et la cohérence des scènes, malgré quelques limites sur la physique des objets. OpenAI met l'accent sur la sécurité avec des filtres anti-deepfakes, un watermarking C2PA systématique et des restrictions sur l'imitation de styles d'artistes. Face à une demande massive, OpenAI limite, pour l'heure, l'accès au modèle.

J2 : l'arrivée du reinforcement fine-tuning pour les développeurs

Pour sa deuxième journée d'annonces, OpenAI s'adresse aux entreprises avec une innovation majeure : le reinforcement fine-tuning (RFT). La technique permet aux développeurs d'adapter les modèles d'OpenAI à des tâches complexes en utilisant leurs propres jeux de données et critères d'évaluation. La technologie, qui sera accessible via une API en version alpha début 2025, cible particulièrement les domaines du droit, de la santé, de la finance et de l'ingénierie. L'objectif est d'obtenir des modèles experts capables de fournir des réponses très précises dans des domaines spécialisés où il existe des réponses objectivement correctes.

J1 :  un nouvel abonnement et la version finale de o1

Pour le premier jour, OpenAI tape fort et présente la version finale de o1, son modèle de raisonnement. Cette version finale, qui succède à o1-preview lancé en septembre dernier, marque une avancée significative en termes de performances dans les benchmarks. Le modèle, disponible dans la version payante de ChatGPT, atteint désormais un taux de réussite de 78% sur les problèmes mathématiques de compétition AIME 2024, et se hisse au 89e percentile sur les défis de programmation Codeforces.

Dans la foulée, l'entreprise dévoile ChatGPT Pro, une nouvelle offre à 200 dollars mensuels destinée aux professionnels et chercheurs ayant besoin d'une puissance de calcul accrue. L'abonnement donne accès à l'ensemble de l'écosystème OpenAI (o1, o1-mini, GPT-4o, Advanced Voice) et introduit le "mode pro" d'o1, une version optimisée mobilisant davantage de ressources computationnelles pour les tâches les plus complexes.