31 januari 2025

OpenAI o3‑mini

De grens van kosteneffectieve redenering verleggen.

Bezig met laden...

We introduceren OpenAI o3‑mini, het nieuwste, meest kostenefficiënte model in onze redeneerserie, dat nu beschikbaar is in zowel ChatGPT als met de API. Voorvertoning in december 2024⁠, dit krachtige en snelle model verlegt de grenzen van wat kleine modellen kunnen bereiken en levert uitzonderlijke (STEM) bèta-/technische mogelijkheden, met bijzondere capaciteiten in wetenschap, wiskunde en programmeren en dat alles met behoud van de lage kosten en verminderde latentie van OpenAI o1‑mini.

OpenAI o3‑mini is ons eerste kleine redeneringsmodel dat veelgevraagde functies voor ontwikkelaars ondersteunt, zoals functieaanroepen⁠(opent in een nieuw venster), gestructureerde uitvoer⁠(opent in een nieuw venster) en berichten voor ontwikkelaars⁠(opent in een nieuw venster), waardoor het meteen productieklaar is. Net als OpenAI o1‑mini en OpenAI o1‑voorbeeld, ondersteunt o3‑mini streaming⁠(opent in een nieuw venster). Daarnaast kunnen ontwikkelaars kiezen uit drie opties voor redeneringsinspanning⁠(opent in een nieuw venster) - laag, gemiddeld en hoog - om te optimaliseren voor hun specifieke gebruikssituaties. Dankzij deze flexibiliteit kan o3‑mini 'beter nadenken' bij complexe uitdagingen of prioriteit geven aan snelheid wanneer latentie een probleem is. o3‑mini ondersteunt geen vision-capaciteiten, dus ontwikkelaars moeten OpenAI o1 blijven gebruiken voor visuele redeneertaken. o3‑mini wordt vanaf vandaag geïmplementeerd in de Chat Completions API, Assistants API en Batch API voor geselecteerde ontwikkelaars in API-gebruiksniveaus 3-5⁠(opent in een nieuw venster).

ChatGPT Plus-, Team- en Pro-gebruikers hebben vanaf vandaag toegang tot OpenAI o3‑mini, met Enterprise-toegang in februari. o3‑mini vervangt OpenAI o1‑mini in de modelkiezer en biedt hogere snelheidslimieten en lagere latentie, waardoor het een aantrekkelijke keuze is voor programmeertaken, bèta/techniek (STEM) en het oplossen van logische problemen. Als onderdeel van deze upgrade verdrievoudigen we de limiet voor Plus- en Team-gebruikers van 50 berichten per dag met o1‑mini tot 150 berichten per dag met o3‑mini. Bovendien werkt o3‑mini nu met zoekfuncties om actuele antwoorden te vinden met koppelingen naar relevante internetbronnen. Dit is een vroeg prototype terwijl we werken aan de integratie van zoeken in onze redeneringsmodellen.

Vanaf vandaag kunnen gebruikers van het gratis plan ook OpenAI o3‑mini uitproberen door 'Redeneren' te selecteren in de berichtsamenstelling of door een reactie te regenereren. Dit is de eerste keer dat een redeneringsmodel beschikbaar is gemaakt voor gratis gebruikers in ChatGPT.

Terwijl OpenAI o1 ons bredere algemene kennisredeneringsmodel blijft, biedt OpenAI o3‑mini een gespecialiseerd alternatief voor technische domeinen die precisie en snelheid vereisen. In ChatGPT gebruikt o3‑mini een gemiddelde redeneringsinspanning voor een evenwichtige afweging tussen snelheid en nauwkeurigheid. Alle betaalde gebruikers hebben ook de optie om o3‑mini‑hoog te selecteren in de modelkiezer voor een versie met een hogere intelligentie die er iets langer over doet om reacties te genereren. Pro-gebruikers hebben onbeperkte toegang tot zowel o3‑mini als o3‑mini‑hoog.

Snel, krachtig en geoptimaliseerd voor STEM-redeneren

Net als zijn voorganger OpenAI o1 is OpenAI o3‑mini geoptimaliseerd voor STEM-redeneren. o3‑mini met een gemiddelde redeneringsinspanning evenaart de prestaties van o1 op het gebied van wiskunde, programmeren en wetenschap, terwijl het snellere reacties levert. Evaluaties door deskundige testers tonen aan dat o3‑mini nauwkeurigere en duidelijkere antwoorden produceert, met een sterker redeneringsvermogen, dan OpenAI o1‑mini. Testers gaven 56% van de tijd de voorkeur aan de antwoorden van o3‑mini boven die van o1‑mini en zagen 39% minder grote fouten bij moeilijke vragen uit de praktijk. Met een gemiddelde redeneringsinspanning evenaart o3‑mini de prestaties van o1 op enkele van de meest uitdagende redenerings- en intelligentie-evaluaties, waaronder AIME en GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Algemene kennis

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Evaluatie van menselijke voorkeuren

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Modelsnelheid en -prestaties

Met een intelligentie die vergelijkbaar is met die van OpenAI o1, levert OpenAI o3‑mini snellere prestaties en een verbeterde efficiëntie. Naast de bovengenoemde STEM-evaluaties laat o3‑mini superieure resultaten zien in aanvullende evaluaties voor wiskunde en feitelijkheid met een gemiddelde redeneringsinspanning. In A/B-tests leverde o3‑mini 24% snellere reacties dan o1‑mini, met een gemiddelde reactietijd van 7,7 seconden vergeleken met 10,16 seconden.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Veiligheid

Een van de belangrijkste technieken die we gebruikten om OpenAI o3‑mini te leren veilig te reageren is weloverwogen afstemming, waarbij we het model trainden om te redeneren over door mensen geschreven veiligheidsspecificaties, voordat het antwoord gaf op prompts van gebruikers. Net als bij OpenAI o1 vinden we dat o3‑mini GPT‑4o aanzienlijk overtreft bij uitdagende veiligheids- en jailbreak-evaluaties. Vóór de implementatie hebben we de veiligheidsrisico's van o3‑mini zorgvuldig beoordeeld op basis van dezelfde aanpak van paraatheid, externe red-teaming en veiligheidsevaluaties als bij o1. We bedanken de veiligheidstesters die zich hebben aangemeld om o3‑mini in een vroeg stadium te testen. Details van de onderstaande evaluaties, samen met een uitgebreide uitleg van potentiële risico's en de effectiviteit van onze risicobeperkende maatregelen, zijn beschikbaar in de o3‑mini‑systeemkaart.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

Wat nu

De vrijgave van OpenAI o3‑mini markeert een volgende stap in OpenAI's missie om de grenzen van kosteneffectieve intelligentie te verleggen. Door redeneren te optimaliseren voor STEM-domeinen en tegelijkertijd de kosten laag te houden, maken we AI van hoge kwaliteit nog toegankelijker. Dit model zet onze staat van dienst voort wat betreft het verlagen van de kosten van intelligentie - een prijsverlaging per token van 95% sinds de lancering van GPT‑4 - met behoud van hoogwaardige redeneringscapaciteiten. Naarmate AI steeds meer wordt toegepast, blijven we ons inzetten om voorop te lopen en modellen te bouwen die intelligentie, efficiëntie en veiligheid op schaal in balans brengen.

Auteurs

OpenAI

Training

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Eval

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Grensevaluaties en paraatheid

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Engineering

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech

Zoeken

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Product

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Veiligheid

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Externe red teaming

Lama Ahmad, Michael Lampe, Troy Peterson

Managers onderzoeksprogramma

Carpus Chang, Kristen Ying

Leiderschap

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ alle medewerkers achter o1⁠.