Julkaisemme tänään OpenAI o3‑mini -mallin, joka on uusin ja kustannustehokkain malli päättelysarjassamme. Se on saatavilla sekä ChatGPT:ssä että API-rajapinnassa. Joulukuussa 2024 esikatseltu tehokas ja nopea malli vie pienten mallien mahdollisuuksia uudelle tasolle ja tarjoaa poikkeuksellisia STEM-ominaisuuksia – erityisesti luonnontieteissä, matematiikassa ja koodauksessa – ja säilyttää samalla OpenAI o1‑minin alhaiset kustannukset ja alhaisemman viiveen.
OpenAI o3‑mini on ensimmäinen pieni päättelymallimme, joka tukee erittäin pyydettyjä kehittäjäominaisuuksia, kuten toiminnon kutsumista(avautuu uudessa ikkunassa), strukturoituja tuotoksia(avautuu uudessa ikkunassa) ja kehittäjäviestejä(avautuu uudessa ikkunassa), joten se on heti valmis tuotantoon. Kuten OpenAI o1‑mini ja OpenAI o1‑preview, myös o3‑mini tukee suoratoistoa(avautuu uudessa ikkunassa). Kehittäjät voivat myös valita kolmesta päättelykyvyn(avautuu uudessa ikkunassa) vaihtoehdosta – matala, keskitaso ja korkea – optimoidakseen sen omiin käyttötapauksiinsa. Tämä joustavuus antaa o3‑minille mahdollisuuden ajatella tarkemmin monimutkaisia haasteita ratkoessaan tai priorisoida nopeutta, kun huolenaiheen on viive. o3‑mini ei tue näköominaisuuksia, joten kehittäjien tulisi jatkaa OpenAI o1:n käyttöä visuaalisen päättelyn tehtävissä. o3‑mini otetaan käyttöön keskustelun loppuunpäättämisen API:ssa, avustajien API:ssa ja eräajojen API:ssa alkaen tänään valituille kehittäjille API:n käyttötasoilla 3–5(avautuu uudessa ikkunassa).
ChatGPT Plus-, Team- ja Pro-käyttäjät voivat käyttää OpenAI o3‑miniä tänään, ja Enterprise-käyttöoikeus tulee saataville helmikuussa. o3‑mini korvaa OpenAI o1‑minin mallinvalitsimessa ja tarjoaa korkeammat nopeusrajoitukset ja alhaisemman viiveen, mikä tekee siitä houkuttelevan vaihtoehdon koodaukseen, STEM-aineisiin ja loogisen ongelmanratkaisun tehtäviin. Osana tätä päivitystä kolminkertaistamme Plus- ja Team-käyttäjien viestien määrärajan 50 viestistä päivässä o1‑minillä 150 viestiin päivässä o3‑minillä. Lisäksi o3‑mini toimii nyt haun kanssa, jotta se löytää ajantasaisia vastauksia linkkeineen asiaankuuluviin verkkolähteisiin. Tämä on varhainen prototyyppi, sillä työskentelemme integroidaksemme haun kaikkiin päättelymalleihimme.
Alkaen tästä päivästä ilmaisversion käyttäjät voivat kokeilla myös OpenAI o3‑miniä valitsemalla viestin kirjoitusasussa "Päättely" tai luomalla vastauksen uudelleen. Tämä on ensimmäinen kerta, kun päättelymalli on saatavilla ChatGPT:n Free-version käyttäjille.
Vaikka OpenAI o1 on edelleen laajempi yleistiedon päättelymallimme, OpenAI o3‑mini tarjoaa erikoistuneen vaihtoehdon tarkkuutta ja nopeutta vaativille teknisille toimialueille. ChatGPT:ssä o3‑mini käyttää keskitason päättelykykyä tasapainottaakseen nopeuden ja tarkkuuden välistä suhdetta. Kaikilla maksavilla käyttäjillä on myös mahdollisuus valita mallinvalitsimesta o3‑mini‑high, jos he haluavat korkeamman älykkyyden omaavan version, jonka vastausten luominen kestää hieman kauemmin. Pro-käyttäjillä on rajoittamaton käyttöoikeus sekä o3‑mini‑ että o3‑mini‑high-malleihin.
Kuten edeltäjänsä OpenAI o1, OpenAI o3‑mini on optimoitu STEM-päättelyyn. Keskitason päättelykyvyn omaava o3‑mini vastaa o1:n suorituskykyä matematiikassa, koodauksessa ja luonnontieteissä, ja tarjoaa samalla nopeampia vastauksia. Asiantuntijoiden testiarvioinnit osoittivat, että o3‑mini tuottaa tarkempia ja selkeämpiä vastauksia sekä paremman päättelykyvyn kuin OpenAI o1‑mini. Testaajat pitivät o3‑minin antamia vastauksia parempina o1‑miniin verrattuna 56 % ajasta ja havaitsivat 39 %:n vähennyksen vakavissa virheissä vaikeissa tosielämän kysymyksissä. Keskitason päättelykyvyllä o3‑mini vastaa o1:n suorituskykyä joissakin haastavimmista päättely- ja älykkyystesteistä, kuten AIME ja GPQA.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
OpenAI o1‑malliin verrattavan älykkyyden ansiosta OpenAI o3‑mini tarjoaa nopeamman suorituskyvyn ja paremman tehokkuuden. Yllä mainittujen STEM-arviointien lisäksi o3‑mini osoittaa erinomaisia tuloksia myös muissa matematiikan ja faktatiedon arvioinneissa, joissa vaaditaan keskitason päättelykykyä. A/B-testauksessa o3‑mini antoi vastauksia 24 % nopeammin kuin o1‑mini, keskimääräisen vasteajan ollessa 7,7 sekuntia verrattuna 10,16 sekuntiin.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
Yksi keskeisistä tekniikoista, joita käytimme kouluttaessamme OpenAI o3‑miniä reagoimaan turvallisesti, on harkitseva yhdenmukaistaminen. Siinä koulutimme mallin päättelemään ihmisen kirjoittamista turvallisuusmäärityksistä ennen käyttäjän kysymyksiin vastaamista. Samoin kuin OpenAI o1:ssä, havaintojemme mukaan o3‑mini päihittää merkittävästi GPT‑4o:n haastavissa turvallisuus- ja jailbreak-testeissä. Ennen käyttöönottoa arvioimme huolellisesti O3-minin turvallisuusriskit käyttämällä samaa lähestymistapaa valmiuteen, ulkoiseen yhteistyöhön ja turvallisuusarviointeihin kuin O1:ssä. Kiitämme turvallisuustestaajia, jotka olivat mukana testaamassa o3‑miniä ennakkojulkaisuvaiheessa. Alla olevien arviointien yksityiskohdat sekä kattava selvitys mahdollisista riskeistä ja lieventämistoimiemme tehokkuudesta ovat saatavilla o3‑mini‑järjestelmäkortissa.


OpenAI o3‑mini -julkaisu on uusi vaihe OpenAI:n pyrkimyksessä rikkoa kustannustehokkaan älykkyyden rajoja. Optimoimalla STEM-alueiden päättelyä ja pitämällä kustannukset alhaisina tuomme korkealaatuisen tekoälyn entistä helpommin saataville. Tämä malli jatkaa menestyksekästä älykustannusten alentamista – olemme alentaneet tunnistekohtaista hintaa 95 % GPT‑4:n julkaisun jälkeen – säilyttäen samalla huipputason päättelykyvyt. Tekoälyn käyttöönoton laajentuessa olemme edelleen sitoutuneita johtamaan kehitystyössä ja rakentamaan malleja, jotka tasapainottavat älyä, tehokkuutta ja turvallisuutta skaalautuvasti.
Tekijät
Koulutus
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Eval
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Edistyneet arvioinnit ja valmius
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Tekniikka
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Hae
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Tuote
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
Turvallisuus
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Ulkoinen Red Team -menetelmä
Lama Ahmad, Michael Lampe, Troy Peterson
Tutkimusohjelmien johtajat
Carpus Chang, Kristen Ying
Johtajuus
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba