31 januari 2025

OpenAI o3‑mini

Flyttar fram gränserna för kostnadseffektiva resonemang.

Laddar …

Vi lanserar OpenAI o3‑mini, den nyaste och mest kostnadseffektiva modellen i vår resonemangsserie, som finns tillgänglig i både ChatGPT och API idag. Denna kraftfulla och snabba modell, somförhandsvisades i december 2024⁠, flyttar fram gränserna för vad små modeller kan uppnå och levererar exceptionella STEM-funktioner – med särskild tyngd inom vetenskap, matematik och kodning – samtidigt som den låga kostnaden och reducerade latensen hos OpenAI o1‑mini bibehålls.

OpenAI o3‑mini är vår första mindre resonemangsmodell med stöd för mycket efterfrågade utvecklarfunktioner, inklusive funktionsanrop⁠(öppnas i ett nytt fönster), strukturerade utdata⁠(öppnas i ett nytt fönster) och utvecklarmeddelanden⁠(öppnas i ett nytt fönster), vilket gör den produktionsklar direkt från start. Precis som OpenAI o1‑mini och OpenAI o1‑förhandsgranskning har o3‑mini stöd för streaming⁠(öppnas i ett nytt fönster). Utvecklare kan också välja mellan tre alternativ för resonemangsinsats⁠(öppnas i ett nytt fönster) – låg, medel och hög – för att optimera modellen efter sina specifika användningsområden. Denna flexibilitet gör det möjligt för o3‑mini att "tänka hårdare" när den tar itu med komplexa utmaningar, eller prioritera hastighet när latens är ett problem. o3‑mini har inte stöd för visuella funktioner, så utvecklare ska fortsätta att använda OpenAI o1 för visuella resonemangsuppgifter. o3‑mini rullas ut i API:et för slutförda chattar, Assistants API och Batch API från och med idag till utvalda utvecklare i API-användningsnivåerna 3–5⁠(öppnas i ett nytt fönster).

ChatGPT Plus-, Team- och Pro-användare har tillgång till OpenAI o3‑mini från och med idag, och Enterprise från och med februari. o3‑mini ersätter OpenAI o1‑mini i modellväljaren och erbjuder högre gränser och lägre latens, vilket gör det till ett starkt alternativ för kodning, STEM och logiska problemlösningsuppgifter. Som en del av denna uppgradering tredubblar vi gränsen för Plus- och Team-användare från 50 meddelanden per dag med o1‑mini till 150 meddelanden per dag med o3‑mini. Dessutom fungerar o3‑mini nu med sök för att hitta aktuella svar med länkar till relevanta webbkällor. Detta är en tidig prototyp som vi arbetar med för att integrera sök i alla våra resonemangsmodeller.

Från och med idag kan även gratisanvändare prova OpenAI o3‑mini genom att välja ”Resonera” i meddelandekompositören eller genom att generera ett svar på nytt. Detta är första gången en resonemangsmodell har gjorts tillgänglig för gratisanvändare i ChatGPT.

Medan OpenAI o1 fortsätter att vara vår breda resonemangsmodell för allmän kunskap, erbjuder OpenAI o3‑mini ett specialiserat alternativ för tekniska områden som kräver precision och snabbhet. I ChatGPT använder o3‑mini medelhög resonemangsinsats för att ge en balanserad kompromiss mellan hastighet och noggrannhet. Alla betalande användare kommer också att ha möjlighet att välja o3‑mini‑high i modellväljaren för en version med högre intelligens som tar lite längre tid att generera svar. Pro-användare har obegränsad åtkomst till både o3‑mini och o3‑mini‑high.

Snabb, kraftfull och optimerad för STEM-resonemang

Likt sin föregångare OpenAI o1 har OpenAI o3‑mini optimerats för STEM-resonemang. o3‑mini med medelhög resonemangsinsats matchar o1:s prestanda inom matematik, kodning och vetenskap, samtidigt som den levererar snabbare svar. Utvärderingar av experttestare visade att o3‑mini ger mer exakta och tydliga svar, med starkare resonemangsförmåga än OpenAI o1‑mini. Testare föredrog o3‑minis svar framför o1‑mini i 56 % av fallen och noterade en minskning på 39 % av allvarliga fel på svåra frågor från verkligheten. Med medelhög resonemangsinsats matchar o3‑mini prestandan hos o1 på några av de mest utmanande utvärderingarna av resonemang och intelligens, inklusive AIME och GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Allmän kunskap

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Utvärdering av mänskliga preferenser

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Modellens hastighet och prestanda

Med en intelligens som är jämförbar med OpenAI o1 levererar OpenAI o3‑mini snabbare prestanda och förbättrad effektivitet. Utöver de STEM-utvärderingar som lyfts fram ovan visar o3‑mini överlägsna resultat i ytterligare matematik- och faktagranskningar med medelhög resonemangsinsats. I A/B-tester levererade o3‑mini svar 24 % snabbare än o1‑mini, med en genomsnittlig svarstid på 7,7 sekunder jämfört med 10,16 sekunder.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Säkerhet

En av de viktigaste teknikerna vi använde för att lära OpenAI o3‑mini att svara säkert är medveten anpassning, där vi tränade modellen att resonera kring säkerhetsspecifikationer som skrivits av människor innan den svarade på användarnas prompter. Likt OpenAI o1 ser vi att o3‑mini avsevärt överträffar GPT‑4o på utmanande utvärderingar av säkerhet och jailbreak. Innan lanseringen utvärderade vi noggrant säkerhetsriskerna med o3‑mini med samma metod för beredskap, extern red-teaming och säkerhetsutvärderingar som för o1. Vi tackar de säkerhetstestare som fick förtur till att testa o3‑mini. Detaljer om utvärderingarna nedan, tillsammans med en omfattande förklaring av potentiella risker och effektiviteten i våra motåtgärder, finns tillgängliga i systemkortet för o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

Vad händer härnäst?

Lanseringen av OpenAI o3‑mini innebär ytterligare ett steg i OpenAI:s strävan efter att tänja på gränserna för kostnadseffektiv intelligens. Genom att optimera resonemang för STEM-områden samtidigt som kostnaderna hålls nere gör vi högkvalitativ AI ännu mer tillgänglig. Med denna modell fortsätter vi vår framgångsrika satsning på att sänka kostnaden för intelligens – med en minskning av priset per token med 95 % sedan lanseringen av GPT‑4 – samtidigt som vi bibehåller förstklassiga resonemangsfunktioner. I takt med att AI-användningen ökar fortsätter vi att ligga i framkant genom att bygga modeller som balanserar intelligens, effektivitet och säkerhet i stor skala.

Författare

OpenAI

Träning

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Utv.

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Utvärdering och beredskap för banbrytande AI

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Teknik

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech

Sökning

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Produkt

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Säkerhet

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Extern red teaming

Lama Ahmad, Michael Lampe, Troy Peterson

Chefer för forskningsprogrammet

Carpus Chang, Kristen Ying

Ledarskap

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ alla som bidragit till arbetet med o1⁠.