Wir veröffentlichen heute OpenAI o3‑mini – das neueste und kosteneffizienteste Modell unserer Reasoning-Reihe, jetzt verfügbar in ChatGPT und über die API. Dieses leistungsstarke und schnelle Modell wurde bereits im Dezember 2024 vorgestellt und erweitert die Grenzen dessen, was kompakte Modelle leisten können. Es bietet herausragende STEM-Fähigkeiten – insbesondere in den Bereichen Wissenschaft, Mathematik und Programmierung – und behält gleichzeitig die niedrigen Kosten und die geringe Latenz des OpenAI o1‑mini bei.
OpenAI o3‑mini ist unser erstes kompaktes schlussfolgerndes Modell, das stark nachgefragte Entwicklerfunktionen unterstützt – darunter Funktionsaufruf(wird in einem neuen Fenster geöffnet), strukturierte Outputs(wird in einem neuen Fenster geöffnet) und Entwicklernachrichten(wird in einem neuen Fenster geöffnet) – und damit von Anfang an produktionsreif ist. Wie OpenAI o1‑mini und OpenAI o1‑preview unterstützt auch o3‑mini Streaming(wird in einem neuen Fenster geöffnet). Entwickler können zudem zwischen drei Optionen für den Reasoning Effort(wird in einem neuen Fenster geöffnet) wählen – niedrig, mittel und hoch – um ihre spezifischen Anwendungsfälle optimal zu bedienen. Diese Flexibilität ermöglicht es o3‑mini, bei komplexen Aufgaben „intensiver nachzudenken“ oder bei Latenzanforderungen die Geschwindigkeit zu priorisieren. Da o3‑mini keine Vision-Fähigkeiten unterstützt, sollten Entwickler für visuelle Reasoning-Aufgaben weiterhin OpenAI o1 nutzen. Ab heute wird o3‑mini in der Chat Completions API, Assistants API und Batch API für ausgewählte Entwickler in den API-Nutzungsstufen 3–5(wird in einem neuen Fenster geöffnet) eingeführt.
ChatGPT Plus-, Team- und Pro-Nutzer erhalten ab heute Zugang zu OpenAI o3‑mini, Enterprise-Zugang folgt im Februar. o3‑mini ersetzt OpenAI o1‑mini im Modell-Auswahlmenü, bietet höhere Ratenlimits und geringere Latenzzeiten und ist damit eine attraktive Wahl für Coding-, STEM- und logische Problemlösungsaufgaben. Im Rahmen dieses Upgrades verdreifachen wir das Nachrichtenlimit für Plus- und Team-Nutzer von 50 Nachrichten pro Tag mit o1‑mini auf 150 Nachrichten pro Tag mit o3‑mini. Außerdem funktioniert o3‑mini jetzt mit der Suchfunktion, um aktuelle Antworten mit Links zu relevanten Webquellen zu liefern. Dies ist ein früher Prototyp, während wir daran arbeiten, die Suche in unsere schlussfolgernden Modelle zu integrieren.
Ab heute können auch Nutzer des kostenlosen Plans OpenAI o3‑mini ausprobieren, indem sie im Nachrichtenfeld „Reason“ auswählen oder eine Antwort neu generieren. Dies ist das erste Mal, dass ein schlussfolgerndes Modell in ChatGPT auch für Nutzer des kostenlosen Plans verfügbar ist.
Während OpenAI o1 weiterhin unser umfassendes Modell für allgemeines Wissens-Reasoning ist, bietet OpenAI o3‑mini eine spezialisierte Alternative für technische Bereiche, die Präzision und Schnelligkeit erfordern. In ChatGPT nutzt o3‑mini die mittlere Schlussfolgerungsintensität, um eine ausgewogene Balance zwischen Geschwindigkeit und Genauigkeit zu bieten. Alle zahlenden Nutzer haben zudem die Möglichkeit, im Modell-Auswahlmenü o3‑mini‑high zu wählen – eine Version mit höherer Denkintensität, die etwas mehr Zeit für die Antwortgenerierung benötigt. Pro-Nutzer erhalten uneingeschränkten Zugang zu sowohl o3‑mini als auch o3‑mini‑high.
Ähnlich wie sein Vorgänger OpenAI o1 wurde OpenAI o3‑mini für STEM-Reasoning optimiert. o3‑mini mit mittlerer Reasoning-Intensität erreicht die Leistung von o1 in Mathematik, Programmierung und Wissenschaft und liefert dabei schnellere Antworten. Bewertungen durch Expertentester zeigten, dass o3‑mini präzisere und klarere Antworten mit stärkeren Reasoning-Fähigkeiten liefert als OpenAI o1‑mini. Tester bevorzugten die Reaktionen von o3‑mini gegenüber o1‑mini zu 56 % der Fälle und beobachteten eine 39%ige Reduktion schwerwiegender Fehler bei schwierigen, realen Fragestellungen. Mit mittlerer Reasonings-Intensität erreicht o3‑mini bei einigen der anspruchsvollsten Reasoning- und Intelligenztests, darunter AIME und GPQA, die Leistung von o1.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
Mit einer Intelligenz, die mit OpenAI o1 vergleichbar ist, bietet OpenAI o3‑mini schnellere Leistung und verbesserte Effizienz. Neben den oben genannten STEM-Bewertungen zeigt o3‑mini mit mittlerem Reasoning-Einsatz auch in weiteren Mathematik- und Faktentreue-Bewertungen überlegene Ergebnisse. Im A/B-Test lieferte o3‑mini Reaktionen 24 % schneller als o1‑mini, mit einer durchschnittlichen Reaktionszeit von 7,7 Sekunden gegenüber 10,16 Sekunden.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
Eine der wichtigsten Techniken, mit denen wir OpenAI o3‑mini beigebracht haben, sicher zu antworten, ist das deliberative alignment. Dabei haben wir das Modell darin trainiert, vor der Beantwortung von Nutzeranfragen über von Menschen verfasste Sicherheitsvorgaben nachzudenken. Ähnlich wie OpenAI o1 übertrifft o3‑mini GPT‑4o bei anspruchsvollen Sicherheits- und Jailbreak-Bewertungen deutlich. Vor der Einführung haben wir die Sicherheitsrisiken von o3‑mini sorgfältig mit denselben Methoden zur Vorbereitung, externem Red-Teaming und Sicherheitstests wie bei o1 bewertet. Wir danken den Sicherheitstestern, die sich beworben haben, um o3‑mini im Early Access zu testen. Details zu den unten aufgeführten Bewertungen sowie eine umfassende Erklärung möglicher Risiken und der Wirksamkeit unserer Gegenmaßnahmen findest du in der o3‑mini Systemkarte.


Die Veröffentlichung von OpenAI o3‑mini markiert einen weiteren Schritt in OpenAIs Mission, die Grenzen kosteneffizienter Intelligenz zu erweitern. Wir optimieren das Reasoning für STEM-Bereiche und halten dabei die Kosten niedrig, um hochwertige KI noch zugänglicher zu machen. Dieses Modell setzt unsere Erfolgsserie fort, die Kosten für Intelligenz weiter zu senken – seit dem Start von GPT‑4 haben wir die Token-Preise um 95 % reduziert – und gleichzeitig erstklassige Reasoning-Fähigkeiten beibehalten. Mit der zunehmenden Verbreitung von KI bleiben wir bestrebt, an der Spitze zu bleiben und Modelle zu entwickeln, die Intelligenz, Effizienz und Sicherheit in großem Maßstab ausbalancieren.
Autoren
Training
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Evaluierung
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Evaluierungen neueste Modelle und Preparedness
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Engineering
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Suche
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Produkt
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
Sicherheit
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Externes Red-Teaming
Lama Ahmad, Michael Lampe, Troy Peterson
Manager Forschungsprogramm
Carpus Chang, Kristen Ying
Geschäftsleitung
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba