31. januar 2025

OpenAI o3‑mini

Udvider grænserne for omkostningseffektiv avanceret tænkning.

Indlæser ...

Vi lancerer OpenAI o3‑mini, den nyeste og mest omkostningseffektive model i vores avanceret tænkning-serie, tilgængelig i både ChatGPT og API’en i dag. Denne avancerede og hurtige model, der blev forhåndsvist i december 2024⁠, skubber grænserne for, hvad små modeller kan udføre. Den leverer fremragende STEM-kapaciteter, med særlig styrke inden for videnskab, matematik og kodning, samtidig med at de lave omkostninger og den reducerede ventetid i OpenAI o1‑mini er bevaret.

OpenAI o3‑mini er vores første lille ræsonneringsmodel, der understøtter udviklingsfunktioner, der er meget efterspurgte, herunder funktionskald, strukturerede output⁠(åbner i et nyt vindue) og udviklerbeskeder⁠(åbner i et nyt vindue), hvilket gør den produktionsklar helt fra starten. Ligesom OpenAI o1‑mini og OpenAI o1‑preview vil o3‑mini understøtte streaming⁠(åbner i et nyt vindue). Udviklere kan også vælge mellem tre niveauer af avanceret tænkningsindsats⁠(åbner i et nyt vindue) – lav, middel og høj – for at optimere til deres specifikke use cases. Fleksibiliteten gør det muligt for o3‑mini at "tænke hårdere", når komplekse udfordringer skal tackles, eller at prioritere hastigheden, hvis ventetid er en udfordring. o3‑mini understøtter ikke synsfunktioner, så udviklere bør fortsat bruge OpenAI o1 til visuelle avanceret tænkningsopgaver. o3‑mini lanceres i Chat Completions API, Assistants API og Batch API fra i dag til udvalgte udviklere i API-brugsniveauerne 3-5⁠(åbner i et nyt vindue).

ChatGPT Plus-, Team- og Pro-brugere kan få adgang til OpenAI o3‑mini fra i dag, og Enterprise-adgangen kommer i februar. o3‑mini erstatter OpenAI o1‑mini i modelvælgeren og tilbyder højere hastighedsgrænser og lavere latenstid, hvilket gør den til et oplagt valg til kodning, STEM og logiske problemløsningsopgaver. Som en del af opgraderingen tredobler vi brugsgrænsen for Plus- og Team-brugere fra 50 beskeder pr. dag med o1‑mini til 150 beskeder pr. dag med o3‑mini. Derudover arbejder o3‑mini nu med søgning for at finde opdaterede svar med links til relevante webkilder. Dette er en tidlig prototype, da vi arbejder på at integrere søgning på tværs af vores ræsonneringsmodeller.

Fra i dag kan brugere af det gratis abonnement også prøve OpenAI o3‑mini ved at vælge "Ræsonner" i beskedfeltet eller ved at genskabe et svar. Det er første gang, at en ræsonneringsmodel er blevet gjort tilgængelig for gratis brugere i ChatGPT.

Mens OpenAI o1 stadig er vores bredere, mere generelle model til at ræsonnere ud fra viden, er OpenAI o3‑mini et specialiseret alternativ til tekniske områder, der kræver præcision og hastighed. I ChatGPT bruger o3‑mini middel avanceret tænkningsindsats for at give en balanceret afvejning mellem hastighed og nøjagtighed. Alle betalende brugere vil også have mulighed for at vælge o3‑mini‑high i modelvælgeren for at få en version med højere intelligens, som er lidt længere om at generere svar. Pro-brugere har ubegrænset adgang til både o3‑mini og o3‑mini‑high.

Hurtig, avanceret og optimeret til STEM-tænkning

Ligesom sin forgænger, OpenAI o1, er OpenAI o3‑mini blevet optimeret til STEM-tænkning. o3‑mini med middel avanceret tænkningsindsats matcher o1's præstation i matematik, kodning og videnskab, samtidig med at den leverer hurtigere svar. Evalueringer foretaget af eksperttestere viste, at o3‑mini giver mere præcise og klare svar med stærkere avanceret tænkningsevner end OpenAI o1‑mini. Testerne foretrak o3‑minis svar frem for o1‑minis i 56 % af tilfældene og observerede en reduktion på 39 % i antallet af større fejl på vanskelige spørgsmål fra den virkelige verden. Med en middel avanceret tænkningsindsats matcher o3‑mini præstationen hos o1 på nogle af de mest udfordrende avanceret tænkning- og intelligensevalueringer, herunder AIME og GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Generel viden

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Evaluering af menneskelig præference

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Modellens hastighed og ydeevne

Med en intelligens, der kan sammenlignes med OpenAI o1, leverer OpenAI o3‑mini hurtigere ydeevne og forbedret effektivitet. Ud over de STEM-evalueringer, der er fremhævet ovenfor, viser o3‑mini overlegne resultater i flere matematiske og faktuelle evalueringer med middel avanceret tænkningsindsats. I A/B-test leverede o3‑mini svar 24% hurtigere end o1‑mini med en gennemsnitlig svartid på 7,7 sekunder sammenlignet med 10,16 sekunder.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Sikkerhed

En af de vigtigste teknikker, vi brugte til at lære OpenAI o3‑mini at reagere sikkert, er bevidst tilpasning, hvor vi trænede modellen til at ræsonnere over menneskeligt formulerede sikkerhedsspecifikationer, før den svarede på brugerens forespørgsler. I lighed med OpenAI o1 vurderer vi, at o3‑mini overgår GPT‑4o betydeligt i de udfordrende evalueringer af sikkerhed og jailbreak. Før implementeringen vurderede vi omhyggeligt o3‑minis sikkerhedsrisici ved hjælp af den samme tilgang til beredskab, ekstern Red Teaming og sikkerhedsevalueringer som o1. Tak til de sikkerhedstestere, der ansøgte om at teste o3‑mini i den tidlige adgangsfase. Nærmere detaljer om evalueringerne nedenfor, samt en omfattende forklaring af potentielle risici og effektiviteten af vores afbødningsforanstaltninger, kan findes i systemkortet for o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

Kommende tiltag

Lanceringen af OpenAI o3‑mini markerer endnu et skridt i OpenAI's mission om at skubbe til grænserne for omkostningseffektiv intelligens. Ved at optimere den avancerede tænkning til STEM-domæner og samtidig holde omkostningerne nede gør vi AI af høj kvalitet endnu mere tilgængelig. Med denne model fortsætter vi med at nedbringe omkostningerne ved mere intelligens – vi har reduceret prisen pr. token med 95% siden lanceringen af GPT‑4 – samtidig med at vi opretholder de allerbedste avanceret tænkninggsevner. I takt med at AI bliver mere udbredt, er vi fortsat opsat på at være førende og bygge modeller, der balancerer intelligens, effektivitet og sikkerhed i stor skala.

Skrevet af

OpenAI

Træning

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Evalueringer

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Frontevalueringer og beredskab

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Udvikling

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech

Søgning

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Produkt

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Sikkerhed

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Ekstern red teaming

Lama Ahmad, Michael Lampe, Troy Peterson

Styring af forskningsprogrammet

Carpus Chang, Kristen Ying

Ledelse

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ alle bidragyderne bag o1⁠.