o1 et o1-mini sont conçus pour résoudre des tâches complexes jadis encore réservés aux humains. Les modèles sont publiés progressivement en preview dans ChatGPT et au sein de l'API développeur OpenAI.

OpenAI pousse le raisonnement de l'IA à un niveau encore jamais atteint. La start-up de San Francisco a encore impressionné le monde de l'IA ce 12 septembre après avoir lancé o1, une nouvelle famille de modèle dédiée aux tâches complexes. Jusqu'à présent, les problèmes mathématiques les plus complexes n'étaient pas à la portée des meilleurs LLM du marché. Une nouvelle frontière vient de tomber. o1 est capable de résoudre des problèmes de physique, chimie et biologie du niveau d'un doctorant (PhD). Le modèle prend simplement quelques secondes avant de répondre pour évaluer la meilleure réponse avant de la proposer à l'utilisateur.

Comment fonctionne o1 ?

o1 et sa version mini, plus rapide mais moins performante, sont basés sur le principe du chain-of-thought. Contrairement aux modèles précédents, o1 utilise une chaîne de réflexion interne avant de produire une réponse, lui permettant d'aborder des problèmes complexes de manière plus méthodique. Lorsque le modèle reçoit une requête, il commence par décomposer le problème en sous-parties ou étapes logiques. Ensuite, pour chacune de ces étapes, o1 génère des pensées intermédiaires, similaires à un raisonnement interne.

Ce processus n'est pas linéaire : o1 peut revenir sur ses étapes précédentes, corriger d'éventuelles erreurs ou explorer des approches alternatives si une méthode s'avère infructueuse. Une fois toutes les étapes de réflexion parcourues, le modèle synthétise ses pensées en une réponse cohérente. Enfin, o1 formule sa réponse finale en s'assurant qu'elle soit claire et adaptée à l'utilisateur. Plutôt que de révéler l'intégralité de ce processus de réflexion interne, O1 génère un bref résumé de sa démarche pour l'utilisateur.

Une nouvelle percée dans l'IA, vers l'AGI

Les performances d'o1 sur divers benchmarks démontrent une avancée significative dans le domaine de l'intelligence artificielle, particulièrement en matière de raisonnement complexe. Le modèle obtient des résultats remarquables dans des domaines traditionnellement difficiles pour l'IA comme les maths ou la programmation algorithmique. Sur l'AIME (un examen de mathématiques avancées) de 2024, o1 a atteint un score de consensus de 83,3% contre 13,4% pour GPT-4o.

Résultats de o1 dans les benchmarks © OpenAI

Pour les questions de niveau PhD en sciences (GPQA Diamond), o1 a atteint un taux de réussite de 77,3% contre 50,6% pour GPT-4o. Les améliorations sont particulièrement marquées dans les domaines exigeant une analyse complexe et méthodique. Ces performances exceptionnelles dans les problèmes mathématiques complexes en font un modèle clef pour l'avancée vers l'AGI.

Des cas d'usages encore limités

Le modèle est particulièrement recommandé par OpenAI pour des cas d'usage nécessitant une analyse approfondie et une résolution de problèmes structurée. o1 peut être très utile pour la recherche scientifique, le développement de logiciels complexes ou encore l'analyse de données. Les développeurs pourraient être ravis de ses performances pour générer et modifier du code complexe. Toutefois OpenAI reconnaît que o1 n'est pas nécessairement le meilleur choix pour toutes les tâches.

Le modèle est moins performant sur certaines tâches de langage naturel (génération / résumé de texte). Ses résultats peuvent notamment être hasardeux pour des tâches nécessitant une compréhension nuancée du contexte social (second degrés, nuance, ton…). Par ailleurs, en raison (ou grâce à ) de son approche de raisonnement plus approfondie, o1 peut être moins efficace pour des tâches simples ou rapides où des modèles plus légers comme GPT-4o pourraient être plus pertinents.

Un pricing en hausse

Le modèle est accessible dès maintenant pour les utilisateurs de ChatGPT Plus et Team sous le nom d'"o1-preview", avec des limites initiales de 30 messages par semaine. Toutefois, à l'heure d'écrire ces lignes, en France le modèle ne semble pas être implémenté dans ChatGPT (même en utilisant un VPN aux Etats-Unis). De leur côté, les utilisateurs de ChatGPT Enterprise auront accès au modèle à partir du 16 septembre.

Enfin pour les développeurs, o1 est disponible via l'API d'OpenAI avec une limite actuelle de 20 requêtes par minute. Côté pricing, OpenAI rehausse la barre. o1 s'affiche à 15 dollars par million de tokens en entrée et 60 dollars par million de tokens en sortie. En revanche, o1-mini est proposé à un tarif plus accessible de 3 dollars par million de tokens en entrée et 12 dollars par million de tokens en sortie.