31 janvier 2025

OpenAI o3‑mini

Une nouvelle référence en matière de raisonnement à bas coût.

Chargement...

OpenAI o3‑mini, notre modèle de raisonnement le plus économique à ce jour, est désormais disponible dans ChatGPT et notre API. Présenté en avant-première en décembre 2024⁠, ce modèle puissant et rapide donne aux petits modèles une dimension inédite. Il propose en effet des performances exceptionnelles dans le domaine des STEM, et en particulier en sciences, en mathématiques et en codage, tout en conservant la sobriété économique et la latence réduite d’OpenAI o1‑mini.

OpenAI o3‑mini est notre premier petit modèle de raisonnement qui prend en charge des fonctionnalités fortement demandées par les développeurs, notamment l’appel de fonction⁠(ouverture dans une nouvelle fenêtre), les sorties structurées⁠(ouverture dans une nouvelle fenêtre) et les messages aux développeurs⁠(ouverture dans une nouvelle fenêtre). Il est ainsi utilisable en production sans modification particulière. Comme OpenAI o1‑mini et OpenAI o1‑preview, o3‑mini prendra en charge le streaming⁠(ouverture dans une nouvelle fenêtre). Les développeurs ont par ailleurs le choix entre trois niveaux de raisonnement⁠(ouverture dans une nouvelle fenêtre) : limité, intermédiaire et élevé. Ils peuvent ainsi choisir l’option la plus adaptée à leurs cas d’utilisation. Cette flexibilité permet à o3‑mini de « réfléchir » plus intensément sur les problèmes complexes ou au contraire de privilégier la vitesse lorsqu’il faut absolument minimiser la latence. o3‑mini ne dispose d’aucune capacité visuelle. Les développeurs doivent donc continuer à utiliser OpenAI o1 pour effectuer des tâches de raisonnement visuel. o3‑mini est accessible dès aujourd’hui via les API Chat Completions, Assistants et Batch pour certains développeurs des niveaux d’utilisation de l’API 3 à 5⁠(ouverture dans une nouvelle fenêtre).

Les utilisateurs des forfaits ChatGPT Plus, Team et Pro peuvent d’ores et déjà accéder à OpenAI o3‑mini. Les utilisateurs du forfait Enterprise le découvriront quant à eux en février. o3‑mini remplacera OpenAI o1‑mini dans le sélecteur de modèle. Il offre des limites d’utilisation supérieures et une latence plus faible, ce qui en fait le choix idéal pour les tâches de codage, de STEM et de résolution de problèmes logiques. À l’occasion de cette mise à niveau, nous triplons la limite d’utilisation associée aux forfaits Plus et Team. De 50 messages par jour avec o1‑mini, leur limite passe ainsi à 150 messages par jour avec o3‑mini. De plus, o3‑mini est désormais compatible avec la recherche et peut donc générer des réponses à partir de données actualisées, en fournissant des liens vers les sources Web correspondantes. Cette compatibilité est un prototype et nous travaillons actuellement à l’intégration de la recherche dans tous nos modèles de raisonnement.

À compter d’aujourd’hui, les utilisateurs de notre forfait gratuit peuvent également essayer OpenAI o3‑mini en sélectionnant Raisonner dans l’outil de composition de message ou en demandant une nouvelle réponse. C’est la première fois que ces utilisateurs peuvent accéder à un modèle de raisonnement dans ChatGPT.

OpenAI o1 reste notre modèle de raisonnement disposant des connaissances générales les plus étendues, mais OpenAI o3‑mini offre une alternative plus spécialisée pour les domaines techniques nécessitant précision et vitesse. Dans ChatGPT, o3‑mini utilise un niveau de raisonnement intermédiaire pour offrir un compromis entre vitesse et précision. Tous les utilisateurs disposant d’un forfait payant peuvent choisir o3‑mini‑high dans le sélecteur de modèle pour accroître l’intelligence des réponses, avec en contrepartie un allongement modeste du temps nécessaire à leur génération. Les utilisateurs du forfait Pro disposeront d’un accès illimité à o3‑mini et o3‑mini‑high.

Rapide, puissant et optimisé pour le raisonnement dans le cadre des STEM

Comme OpenAI o1, son prédécesseur, OpenAI o3‑mini a été optimisé pour le raisonnement lié aux STEM. Avec un niveau de raisonnement intermédiaire, il est aussi performant qu’o1 en mathématiques, codage et sciences, tout en répondant plus rapidement. Des évaluations menées par des testeurs experts ont montré qu’o3‑mini fournit des réponses plus précises et plus claires qu’OpenAI o1‑mini, et présente de meilleures capacités de raisonnement. Les testeurs ont préféré les réponses d’o3‑mini à celles d’o1‑mini dans 56 % des cas et ont constaté une réduction de 39 % des erreurs graves sur des questions concrètes complexes. Avec un niveau de raisonnement intermédiaire, o3‑mini arrive au niveau d’o1 sur certaines des évaluations du raisonnement et de l’intelligence les plus complexes, y compris AIME et GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Connaissances générales

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Évaluation des préférences des humains

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Rapidité et performance du modèle

Malgré une intelligence comparable à OpenAI o1, OpenAI o3‑mini offre une vitesse et une efficacité supérieures. Au-delà des évaluations STEM présentées ci-dessus, o3‑mini présente de meilleurs résultats dans d’autres évaluations mathématiques et de véracité avec un niveau de raisonnement intermédiaire. Des tests A/B ont montré qu’o3‑mini générait des réponses 24 % plus rapidement qu’o1‑mini, avec un délai de réponse moyen de 7,7 secondes, contre 10,16 secondes pour son prédécesseur.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Sécurité

Une des principales techniques que nous avons utilisées pour entraîner OpenAI o3‑mini à répondre de manière sûre est l’alignement délibératif, qui consiste à entraîner le modèle à raisonner sur des spécifications de sécurité écrites par un être humain avant de répondre aux prompts des utilisateurs. Comme OpenAI o1, o3‑mini est bien supérieur à GPT‑4o sur les évaluations complexes de sécurité et de jailbreak. Avant le déploiement, nous avons évalué avec soin les risques de sécurité posés par o3‑mini à l’aide de la même approche celle utilisée pour o1 : état de préparation, exposition à des équipes rouges externes et évaluations de sécurité. Nous tenons à remercier les testeurs qui ont souhaité contribuer aux tests d’o3‑mini en accès anticipé. Le détail des évaluations ci-dessous, accompagné d’une explication détaillée des risques potentiels et de l’efficacité de nos contre-mesures, se trouvent dans la fiche système d’o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

Évolutions prévues

La disponibilité d’OpenAI o3‑mini marque une nouvelle étape de la mission d’OpenAI de créer une IA toujours plus intelligente et abordable. En optimisant le raisonnement pour les domaines STEM tout en maîtrisant les coûts, nous simplifions encore l’accès à une IA de grande qualité. Ce modèle est une nouvelle réussite en matière de réduction du coût de l’IA. Le coût par jeton a ainsi diminué de 95 % depuis le lancement de GPT‑4, alors que les capacités de raisonnement restent exceptionnelles. Face à l’essor de l’IA, nous continuons de viser l’excellence en tête de l’innovation en créant des modèles offrant intelligence, efficacité et sécurité à grande échelle.

Auteur

OpenAI

Entraînement

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Évaluations

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Évaluations de pointe et préparation du modèle

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Ingénierie

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech

Recherche

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Produit

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Sécurité

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Équipes rouges externes

Lama Ahmad, Michael Lampe, Troy Peterson

Responsables du programme de recherche

Carpus Chang, Kristen Ying

Leadership

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ tous les contributeurs au modèle o1⁠.