Vi lanserer OpenAI o3‑mini, den nyeste og mest kostnadseffektive modellen i resonneringsserien vår – den er tilgjengelig både i ChatGPT og API-et i dag. Denne kraftige og raske modellen, som ble forhåndsvist i desember 2024, flytter grensene for hva små modeller kan oppnå og leverer eksepsjonelle STEM-funksjoner – spesielt innen naturfag, matematikk og koding – samtidig som den opprettholder den lave kostnaden og reduserte ventetiden i forhold til OpenAI o1‑mini.
OpenAI o3‑mini er den første lille resonneringsmodellen vår som støtter svært etterspurte utviklerfunksjoner, inkludert funksjonskall(åpnes i et nytt vindu), strukturerte utdata(åpnes i et nytt vindu) og utviklermeldinger(åpnes i et nytt vindu), noe som gjør den klar for produksjon med en gang. o3‑mini støtter strømming(åpnes i et nytt vindu), akkurat som OpenAI o1‑mini og OpenAI o1‑preview gjør. Utviklere kan i tillegg velge mellom tre alternativer for resonneringsinnsats(åpnes i et nytt vindu) – lav, middels og høy – for å optimalisere de spesifikke bruksområdene sine. Denne fleksibiliteten gjør at o3‑mini kan «tenke hardere» når den jobber med komplekse utfordringer, eller prioritere hastighet når ventetid er viktig. o3‑mini støtter ikke bildefunksjoner, så utviklere bør fortsette å bruke OpenAI o1 for visuelle resonneringsoppgaver. o3‑mini lanseres i Chat Completions API, Assistants API og Batch API fra og med i dag for utvalgte utviklere på API-bruksnivå 3–5(åpnes i et nytt vindu).
ChatGPT Plus-, Team- og Pro-brukere får tilgang til OpenAI o3‑mini fra og med i dag, mens Enterprise-tilgang kommer i februar. o3‑mini erstatter OpenAI o1‑mini i modellvelgeren og tilbyr høyere frekvensgrenser og lavere ventetid, noe som gjør den til et attraktivt valg for koding, STEM og oppgaver som krever logisk problemløsing. Som en del av denne oppgraderingen tredobler vi frekvensgrensen for Plus- og Team-brukere fra 50 meldinger per dag med o1‑mini til 150 meldinger per dag med o3‑mini. I tillegg fungerer o3‑mini nå med søk for å finne oppdaterte svar med lenker til relevante nettkilder. Dette er en tidlig prototype mens vi jobber med å integrere søk på tvers av resonneringsmodellene våre.
Fra og med i dag kan brukere av gratisabonnementet også prøve OpenAI o3‑mini ved å velge «Resonner» i meldingsvinduet eller generere et nytt svar. Dette er første gang en resonneringsmodell blir gjort tilgjengelig for gratisbrukere i ChatGPT.
Selv om OpenAI o1 fortsatt er resonneringsmodellen vår for bredere allmennkunnskap, tilbyr OpenAI o3‑mini et spesialisert alternativ for tekniske områder som krever presisjon og hastighet. I ChatGPT bruker o3‑mini middels resonneringsinnsats for å gi et balansert kompromiss mellom hastighet og nøyaktighet. Alle betalende brukere vil også ha muligheten til å velge o3‑mini‑high i modellvelgeren for en versjon med høyere intelligens som bruker litt lengre tid på å generere svar. Pro-brukere får ubegrenset tilgang til både o3‑mini og o3‑mini‑high.
I likhet med forgjengeren OpenAI o1 er OpenAI o3‑mini optimalisert for STEM-resonnering. o3‑mini, med middels resonneringsinnsats, matcher o1s resultater innen matematikk, koding og naturfag, samtidig som den gir raskere svar. Evalueringer utført av eksperttestere viste at o3‑mini gir mer nøyaktige og tydeligere svar og har sterkere resonneringsevner enn OpenAI o1‑mini. Testerne foretrakk svarene til o3‑mini fremfor o1‑mini i 56 % av tilfellene og observerte en reduksjon på 39 % i alvorlige feil på vanskelige spørsmål fra virkeligheten. Med middels resonneringsinnsats matcher o3‑mini resultatene til o1 på noen av de mest utfordrende resonnerings- og intelligensvurderingene, inkludert AIME og GPQA.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
Med en intelligens som kan sammenlignes med OpenAI o1, leverer OpenAI o3‑mini raskere resultater og forbedret effektivitet. I tillegg til STEM-evalueringene nevnt ovenfor, viser o3‑mini overlegne resultater i ytterligere matematikk- og nøyaktighetsevalueringer med middels resonneringsinnsats. I A/B-testing leverte o3‑mini svar 24 % raskere enn o1‑mini, med en gjennomsnittlig svartid på 7,7 sekunder sammenlignet med 10,16 sekunder.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
En av de viktigste teknikkene vi brukte for å lære OpenAI o3‑mini å svare på en sikker måte, er betenksom samordning, hvor vi lærte opp modellen til å resonnere om menneskeskrevne sikkerhetsspesifikasjoner før den svarer på brukermeldinger. I likhet med OpenAI o1 så vi at o3‑mini overgikk GPT‑4o i krevende sikkerhets- og jailbreak-evalueringer. Før implementering vurderte vi nøye o3‑minis sikkerhetsrisiko ved å bruke samme tilnærming til beredskap, eksterne red-team-øvelser og sikkerhetsvurderinger som for o1. Vi takker sikkerhetstesterne som meldte seg til å teste o3‑mini i tidlig tilgang. Detaljer om evalueringene nedenfor, i tillegg til en omfattende forklaring av potensielle risikoer og effektiviteten av de risikoreduserende tiltakene våre, er tilgjengelig i systemkortet til o3‑mini.


Lanseringen av OpenAI o3‑mini markerer et nytt skritt i OpenAIs mål om å flytte grenser når det gjelder kostnadseffektiv intelligens. Ved å optimalisere resonnering for STEM-områder og samtidig holde kostnadene lave, gjør vi KI av høy kvalitet enda mer tilgjengelig. Denne modellen fortsetter tradisjonen vår for å redusere kostnadene for intelligens – med en reduksjon på 95 % i prisen per token siden lanseringen av GPT‑4 – samtidig som vi opprettholder førsteklasses resonneringsfunksjoner. I takt med at bruken av KI øker, fortsetter vi forpliktelsen vår om å være ledende innenfor dette området og utvikle modeller som balanserer intelligens, effektivitet og sikkerhet i stor skala.
Forfattere
Opplæring
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Evaluering
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Evalueringer av banebrytende teknologi og beredskap
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Teknisk arbeid
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Søk
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Produkt
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
Sikkerhet
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Eksterne red team-øvelser
Lama Ahmad, Michael Lampe, Troy Peterson
Ledere for forskningsprogram
Carpus Chang, Kristen Ying
Lederskap
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba