Vi lanserar OpenAI o3‑mini, den nyaste och mest kostnadseffektiva modellen i vår resonemangsserie, som finns tillgänglig i både ChatGPT och API idag. Denna kraftfulla och snabba modell, somförhandsvisades i december 2024, flyttar fram gränserna för vad små modeller kan uppnå och levererar exceptionella STEM-funktioner – med särskild tyngd inom vetenskap, matematik och kodning – samtidigt som den låga kostnaden och reducerade latensen hos OpenAI o1‑mini bibehålls.
OpenAI o3‑mini är vår första mindre resonemangsmodell med stöd för mycket efterfrågade utvecklarfunktioner, inklusive funktionsanrop(öppnas i ett nytt fönster), strukturerade utdata(öppnas i ett nytt fönster) och utvecklarmeddelanden(öppnas i ett nytt fönster), vilket gör den produktionsklar direkt från start. Precis som OpenAI o1‑mini och OpenAI o1‑förhandsgranskning har o3‑mini stöd för streaming(öppnas i ett nytt fönster). Utvecklare kan också välja mellan tre alternativ för resonemangsinsats(öppnas i ett nytt fönster) – låg, medel och hög – för att optimera modellen efter sina specifika användningsområden. Denna flexibilitet gör det möjligt för o3‑mini att "tänka hårdare" när den tar itu med komplexa utmaningar, eller prioritera hastighet när latens är ett problem. o3‑mini har inte stöd för visuella funktioner, så utvecklare ska fortsätta att använda OpenAI o1 för visuella resonemangsuppgifter. o3‑mini rullas ut i API:et för slutförda chattar, Assistants API och Batch API från och med idag till utvalda utvecklare i API-användningsnivåerna 3–5(öppnas i ett nytt fönster).
ChatGPT Plus-, Team- och Pro-användare har tillgång till OpenAI o3‑mini från och med idag, och Enterprise från och med februari. o3‑mini ersätter OpenAI o1‑mini i modellväljaren och erbjuder högre gränser och lägre latens, vilket gör det till ett starkt alternativ för kodning, STEM och logiska problemlösningsuppgifter. Som en del av denna uppgradering tredubblar vi gränsen för Plus- och Team-användare från 50 meddelanden per dag med o1‑mini till 150 meddelanden per dag med o3‑mini. Dessutom fungerar o3‑mini nu med sök för att hitta aktuella svar med länkar till relevanta webbkällor. Detta är en tidig prototyp som vi arbetar med för att integrera sök i alla våra resonemangsmodeller.
Från och med idag kan även gratisanvändare prova OpenAI o3‑mini genom att välja ”Resonera” i meddelandekompositören eller genom att generera ett svar på nytt. Detta är första gången en resonemangsmodell har gjorts tillgänglig för gratisanvändare i ChatGPT.
Medan OpenAI o1 fortsätter att vara vår breda resonemangsmodell för allmän kunskap, erbjuder OpenAI o3‑mini ett specialiserat alternativ för tekniska områden som kräver precision och snabbhet. I ChatGPT använder o3‑mini medelhög resonemangsinsats för att ge en balanserad kompromiss mellan hastighet och noggrannhet. Alla betalande användare kommer också att ha möjlighet att välja o3‑mini‑high i modellväljaren för en version med högre intelligens som tar lite längre tid att generera svar. Pro-användare har obegränsad åtkomst till både o3‑mini och o3‑mini‑high.
Likt sin föregångare OpenAI o1 har OpenAI o3‑mini optimerats för STEM-resonemang. o3‑mini med medelhög resonemangsinsats matchar o1:s prestanda inom matematik, kodning och vetenskap, samtidigt som den levererar snabbare svar. Utvärderingar av experttestare visade att o3‑mini ger mer exakta och tydliga svar, med starkare resonemangsförmåga än OpenAI o1‑mini. Testare föredrog o3‑minis svar framför o1‑mini i 56 % av fallen och noterade en minskning på 39 % av allvarliga fel på svåra frågor från verkligheten. Med medelhög resonemangsinsats matchar o3‑mini prestandan hos o1 på några av de mest utmanande utvärderingarna av resonemang och intelligens, inklusive AIME och GPQA.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
Med en intelligens som är jämförbar med OpenAI o1 levererar OpenAI o3‑mini snabbare prestanda och förbättrad effektivitet. Utöver de STEM-utvärderingar som lyfts fram ovan visar o3‑mini överlägsna resultat i ytterligare matematik- och faktagranskningar med medelhög resonemangsinsats. I A/B-tester levererade o3‑mini svar 24 % snabbare än o1‑mini, med en genomsnittlig svarstid på 7,7 sekunder jämfört med 10,16 sekunder.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
En av de viktigaste teknikerna vi använde för att lära OpenAI o3‑mini att svara säkert är medveten anpassning, där vi tränade modellen att resonera kring säkerhetsspecifikationer som skrivits av människor innan den svarade på användarnas prompter. Likt OpenAI o1 ser vi att o3‑mini avsevärt överträffar GPT‑4o på utmanande utvärderingar av säkerhet och jailbreak. Innan lanseringen utvärderade vi noggrant säkerhetsriskerna med o3‑mini med samma metod för beredskap, extern red-teaming och säkerhetsutvärderingar som för o1. Vi tackar de säkerhetstestare som fick förtur till att testa o3‑mini. Detaljer om utvärderingarna nedan, tillsammans med en omfattande förklaring av potentiella risker och effektiviteten i våra motåtgärder, finns tillgängliga i systemkortet för o3‑mini.


Lanseringen av OpenAI o3‑mini innebär ytterligare ett steg i OpenAI:s strävan efter att tänja på gränserna för kostnadseffektiv intelligens. Genom att optimera resonemang för STEM-områden samtidigt som kostnaderna hålls nere gör vi högkvalitativ AI ännu mer tillgänglig. Med denna modell fortsätter vi vår framgångsrika satsning på att sänka kostnaden för intelligens – med en minskning av priset per token med 95 % sedan lanseringen av GPT‑4 – samtidigt som vi bibehåller förstklassiga resonemangsfunktioner. I takt med att AI-användningen ökar fortsätter vi att ligga i framkant genom att bygga modeller som balanserar intelligens, effektivitet och säkerhet i stor skala.
Författare
Träning
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Utv.
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Utvärdering och beredskap för banbrytande AI
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Teknik
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Sökning
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Produkt
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
Säkerhet
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Extern red teaming
Lama Ahmad, Michael Lampe, Troy Peterson
Chefer för forskningsprogrammet
Carpus Chang, Kristen Ying
Ledarskap
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba