Vi lancerer OpenAI o3‑mini, den nyeste og mest omkostningseffektive model i vores avanceret tænkning-serie, tilgængelig i både ChatGPT og API’en i dag. Denne avancerede og hurtige model, der blev forhåndsvist i december 2024, skubber grænserne for, hvad små modeller kan udføre. Den leverer fremragende STEM-kapaciteter, med særlig styrke inden for videnskab, matematik og kodning, samtidig med at de lave omkostninger og den reducerede ventetid i OpenAI o1‑mini er bevaret.
OpenAI o3‑mini er vores første lille ræsonneringsmodel, der understøtter udviklingsfunktioner, der er meget efterspurgte, herunder funktionskald, strukturerede output(åbner i et nyt vindue) og udviklerbeskeder(åbner i et nyt vindue), hvilket gør den produktionsklar helt fra starten. Ligesom OpenAI o1‑mini og OpenAI o1‑preview vil o3‑mini understøtte streaming(åbner i et nyt vindue). Udviklere kan også vælge mellem tre niveauer af avanceret tænkningsindsats(åbner i et nyt vindue) – lav, middel og høj – for at optimere til deres specifikke use cases. Fleksibiliteten gør det muligt for o3‑mini at "tænke hårdere", når komplekse udfordringer skal tackles, eller at prioritere hastigheden, hvis ventetid er en udfordring. o3‑mini understøtter ikke synsfunktioner, så udviklere bør fortsat bruge OpenAI o1 til visuelle avanceret tænkningsopgaver. o3‑mini lanceres i Chat Completions API, Assistants API og Batch API fra i dag til udvalgte udviklere i API-brugsniveauerne 3-5(åbner i et nyt vindue).
ChatGPT Plus-, Team- og Pro-brugere kan få adgang til OpenAI o3‑mini fra i dag, og Enterprise-adgangen kommer i februar. o3‑mini erstatter OpenAI o1‑mini i modelvælgeren og tilbyder højere hastighedsgrænser og lavere latenstid, hvilket gør den til et oplagt valg til kodning, STEM og logiske problemløsningsopgaver. Som en del af opgraderingen tredobler vi brugsgrænsen for Plus- og Team-brugere fra 50 beskeder pr. dag med o1‑mini til 150 beskeder pr. dag med o3‑mini. Derudover arbejder o3‑mini nu med søgning for at finde opdaterede svar med links til relevante webkilder. Dette er en tidlig prototype, da vi arbejder på at integrere søgning på tværs af vores ræsonneringsmodeller.
Fra i dag kan brugere af det gratis abonnement også prøve OpenAI o3‑mini ved at vælge "Ræsonner" i beskedfeltet eller ved at genskabe et svar. Det er første gang, at en ræsonneringsmodel er blevet gjort tilgængelig for gratis brugere i ChatGPT.
Mens OpenAI o1 stadig er vores bredere, mere generelle model til at ræsonnere ud fra viden, er OpenAI o3‑mini et specialiseret alternativ til tekniske områder, der kræver præcision og hastighed. I ChatGPT bruger o3‑mini middel avanceret tænkningsindsats for at give en balanceret afvejning mellem hastighed og nøjagtighed. Alle betalende brugere vil også have mulighed for at vælge o3‑mini‑high i modelvælgeren for at få en version med højere intelligens, som er lidt længere om at generere svar. Pro-brugere har ubegrænset adgang til både o3‑mini og o3‑mini‑high.
Ligesom sin forgænger, OpenAI o1, er OpenAI o3‑mini blevet optimeret til STEM-tænkning. o3‑mini med middel avanceret tænkningsindsats matcher o1's præstation i matematik, kodning og videnskab, samtidig med at den leverer hurtigere svar. Evalueringer foretaget af eksperttestere viste, at o3‑mini giver mere præcise og klare svar med stærkere avanceret tænkningsevner end OpenAI o1‑mini. Testerne foretrak o3‑minis svar frem for o1‑minis i 56 % af tilfældene og observerede en reduktion på 39 % i antallet af større fejl på vanskelige spørgsmål fra den virkelige verden. Med en middel avanceret tænkningsindsats matcher o3‑mini præstationen hos o1 på nogle af de mest udfordrende avanceret tænkning- og intelligensevalueringer, herunder AIME og GPQA.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
Med en intelligens, der kan sammenlignes med OpenAI o1, leverer OpenAI o3‑mini hurtigere ydeevne og forbedret effektivitet. Ud over de STEM-evalueringer, der er fremhævet ovenfor, viser o3‑mini overlegne resultater i flere matematiske og faktuelle evalueringer med middel avanceret tænkningsindsats. I A/B-test leverede o3‑mini svar 24% hurtigere end o1‑mini med en gennemsnitlig svartid på 7,7 sekunder sammenlignet med 10,16 sekunder.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
En af de vigtigste teknikker, vi brugte til at lære OpenAI o3‑mini at reagere sikkert, er bevidst tilpasning, hvor vi trænede modellen til at ræsonnere over menneskeligt formulerede sikkerhedsspecifikationer, før den svarede på brugerens forespørgsler. I lighed med OpenAI o1 vurderer vi, at o3‑mini overgår GPT‑4o betydeligt i de udfordrende evalueringer af sikkerhed og jailbreak. Før implementeringen vurderede vi omhyggeligt o3‑minis sikkerhedsrisici ved hjælp af den samme tilgang til beredskab, ekstern Red Teaming og sikkerhedsevalueringer som o1. Tak til de sikkerhedstestere, der ansøgte om at teste o3‑mini i den tidlige adgangsfase. Nærmere detaljer om evalueringerne nedenfor, samt en omfattende forklaring af potentielle risici og effektiviteten af vores afbødningsforanstaltninger, kan findes i systemkortet for o3‑mini.


Lanceringen af OpenAI o3‑mini markerer endnu et skridt i OpenAI's mission om at skubbe til grænserne for omkostningseffektiv intelligens. Ved at optimere den avancerede tænkning til STEM-domæner og samtidig holde omkostningerne nede gør vi AI af høj kvalitet endnu mere tilgængelig. Med denne model fortsætter vi med at nedbringe omkostningerne ved mere intelligens – vi har reduceret prisen pr. token med 95% siden lanceringen af GPT‑4 – samtidig med at vi opretholder de allerbedste avanceret tænkninggsevner. I takt med at AI bliver mere udbredt, er vi fortsat opsat på at være førende og bygge modeller, der balancerer intelligens, effektivitet og sikkerhed i stor skala.
Skrevet af
Træning
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Evalueringer
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Frontevalueringer og beredskab
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Udvikling
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Søgning
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Produkt
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
Sikkerhed
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Ekstern red teaming
Lama Ahmad, Michael Lampe, Troy Peterson
Styring af forskningsprogrammet
Carpus Chang, Kristen Ying
Ledelse
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba