31 Januari 2025

OpenAI o3‑mini

Memajukan batas penalaran yang hemat biaya.

Memuat…

Kami sedang merilis OpenAI o3‑mini, model terbaru dan paling hemat biaya dalam rangkaian penalaran kami, yang tersedia di ChatGPT dan API hari ini. diperkenalkan pada bulan Desember tahun 2024⁠, model yang kuat dan cepat ini memajukan batasan hal yang dapat dicapai oleh model kecil, sehingga memberikan kemampuan STEM yang luar biasa—dengan keunggulan khusus dalam ilmu pengetahuan, matematika, dan koding—semuanya sekaligus mempertahankan biaya rendah dan latensi yang berkurang dari OpenAI o1‑mini.

OpenAI o3‑mini adalah model penalaran kecil pertama kami yang mendukung fitur pengembang yang sangat diminta termasuk pemanggilan fungsi⁠(terbuka di jendela baru), Keluaran Terstruktur⁠(terbuka di jendela baru), dan pesan pengembang⁠(terbuka di jendela baru), sehingga membuatnya siap produksi sejak awal. Seperti OpenAI o1‑mini dan OpenAI o1‑preview, o3‑mini akan mendukung streaming⁠(terbuka di jendela baru). Selain itu, pengembang dapat memilih di antara tiga opsi upaya penalaran⁠(terbuka di jendela baru)—rendah, sedang, dan tinggi—untuk mengoptimalkan kasus penggunaan tertentu mereka. Fleksibilitas ini mengizinkan o3‑mini untuk “berpikir lebih keras” saat menangani tantangan yang rumit atau memprioritaskan kecepatan saat latensi menjadi masalah. o3‑mini tidak mendukung kemampuan penglihatan, sehingga pengembang harus melanjutkan menggunakan OpenAI o1 untuk tugas penalaran visual. o3‑mini diluncurkan di API Penyelesaian Obrolan, API Asisten, dan API Batch mulai hari ini untuk memilih pengembang di tingkatan penggunaan API 3-5⁠(terbuka di jendela baru).

Pengguna ChatGPT Plus, Team, dan Pro dapat mengakses OpenAI o3‑mini mulai hari ini, dengan akses Enterprise tersedia pada bulan Februari. o3‑mini akan menggantikan OpenAI o1‑mini di pemilih model, sehingga menawarkan batas kecepatan lebih tinggi dan latensi lebih rendah, menjadikannya pilihan menarik untuk tugas koding, STEM, dan pemecahan masalah yang logis. Sebagai bagian dari upgrade ini, kami melipatgandakan batas kecepatan untuk pengguna Plus dan Team dari 50 pesan per hari dengan o1‑mini menjadi 150 pesan per hari dengan o3‑mini. Selain itu, o3‑mini sekarang berfungsi dengan pencarian untuk menemukan jawaban terkini dengan tautan ke sumber web yang relevan. Ini adalah purwarupa awal saat kami berupaya mengintegrasikan pencarian di seluruh model penalaran kami.

Mulai hari ini, pengguna paket Free juga dapat mencoba OpenAI o3‑mini dengan memilih ‘Nalar’ dalam pembuat pesan atau dengan membuat ulang respons. Ini menandai pertama kalinya model penalaran disediakan untuk pengguna gratis di ChatGPT.

Sementara OpenAI o1 tetap menjadi model penalaran pengetahuan umum yang lebih luas, OpenAI o3‑mini menyediakan alternatif khusus untuk domain teknis yang memerlukan presisi dan kecepatan. Dalam ChatGPT, o3‑mini menggunakan upaya penalaran sedang untuk memberikan keseimbangan antara kecepatan dan keakuratan. Semua pengguna berbayar juga akan memiliki opsi untuk memilih o3‑mini‑high pada pemilih model untuk versi dengan kecerdasan lebih tinggi yang memerlukan waktu lebih lama untuk membuat respons. Pengguna Pro akan memiliki akses tidak terbatas ke o3‑mini dan o3‑mini‑high.

Cepat, kuat, dan dioptimalkan untuk penalaran STEM

Mirip pendahulunya OpenAI o1, OpenAI o3‑mini telah dioptimalkan untuk penalaran STEM. o3‑mini dengan upaya penalaran sedang yang sama dengan kinerja o1 dalam matematika, koding, dan ilmu pengetahuan, sekaligus memberikan respons yang lebih cepat. Evaluasi oleh penguji ahli menunjukkan bahwa o3‑mini menghasilkan jawaban lebih akurat dan lebih jelas, dengan kemampuan penalaran lebih kuat, dibandingkan OpenAI o1‑mini. Penguji lebih menyukai respons o3‑mini daripada o1‑mini sebanyak 56% waktu dan mengalami pengurangan sebesar 39% dalam kesalahan utama pada pertanyaan dunia nyata yang sulit. Dengan upaya penalaran sedang, o3‑mini sama dengan kinerja o1 pada beberapa evaluasi penalaran dan kecerdasan yang paling menantang termasuk AIME dan GPQA.

Competition Math (AIME 2024)

The bar chart compares accuracy on AIME 2024 competition math questions across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches the highest accuracy at 83.6%, showing significant progress.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level Science Questions (GPQA Diamond)

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

FrontierMath

A black grid with multiple rows and columns, separated by thin white lines, creating a structured and organized layout.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition Code (Codeforces)

The bar chart compares Elo ratings on Codeforces competition coding tasks across AI models. Older models (gray) score lower, while newer ones (yellow) improve. "o3-mini (high)" reaches 2073 Elo, showing significant progress over previous versions.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software Engineering (SWE-bench Verified (n=477))

The bar chart compares accuracy on SWE-bench Verified software engineering tasks across AI models. Older models (gray) perform lower, while "o3-mini (high)" (yellow) achieves the highest accuracy at 48.9%, showing improvement over previous versions.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card⁠⁠ as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench Coding

The table compares AI models on coding tasks, showing performance metrics and evaluation scores. It highlights differences in accuracy and efficiency, with some models outperforming others in specific benchmarks.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

Pengetahuan umum

The table titled "Category Evals" compares AI models across different evaluation categories, showing performance metrics. It highlights differences in accuracy, efficiency, and effectiveness, with some models outperforming others in specific tasks.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.

Evaluasi preferensi manusia

The chart compares win rates for STEM and non-STEM tasks across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in both categories, with a higher win rate for STEM tasks.

The chart compares win rates under time constraints and major error rates across AI models. "o3_mini_v43_s960_j128" (yellow) outperforms "o1_mini_chatgpt" (red baseline) in win rate and significantly reduces major errors.

Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.

Kecepatan dan kinerja model

Dengan kecerdasan yang sebanding dengan OpenAI o1, OpenAI o3‑mini memberikan kinerja lebih cepat dan peningkatan efisiensi. Di luar evaluasi STEM yang disorot di atas, o3‑mini memperagakan hasil yang unggul dalam evaluasi matematika dan faktualitas tambahan dengan upaya penalaran sedang. Dalam pengujian A/B, o3‑mini memberikan respons 24% lebih cepat dibandingkan o1‑mini, dengan rata-rata waktu respons 7,7 detik dibandingkan dengan 10,16 detik.

Latency comparison between o1-mini and o3-mini (medium)

The bar chart compares latency between "o1-mini" and "o3-mini (medium)" models. "o3-mini" (lighter yellow) has lower latency, indicating faster response times, while "o1-mini" (darker yellow) takes longer on average.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.

Keselamatan

Salah satu teknik utama yang kami gunakan untuk mengajarkan OpenAI o3‑mini agar merespons dengan aman adalah penyelarasan deliberatif, yaitu kami melatih model untuk memiliki nalar tentang spesifikasi keselamatan yang ditulis manusia sebelum menjawab prompt pengguna. Serupa dengan OpenAI o1, kami menemukan bahwa o3‑mini secara signifikan melampaui GPT‑4o pada evaluasi keselamatan dan jailbreak yang menantang. Sebelum penerapan, kami secara saksama menilai risiko keselamatan o3‑mini menggunakan pendekatan yang sama terhadap kesiapsiagaan, pembentukan tim merah eksternal, dan evaluasi keselamatan seperti o1. Kami berterima kasih kepada penguji keselamatan yang telah mendaftar untuk menguji o3‑mini dalam akses awal. Detail evaluasi di bawah, beserta penjelasan menyeluruh tentang potensi risiko dan efektivitas mitigasi kami, tersedia di kartu sistem o3‑mini.

Disallowed content evaluations

The table compares AI models on safety metrics, evaluating performance across different risk categories. It highlights variations in safety compliance, with some models performing better at reducing potential risks.

Jailbreak Evaluations

The table compares AI models on safety metrics across multiple risk categories, showing performance variations. It highlights differences in risk mitigation, with some models demonstrating stronger compliance and safer responses.

Selanjutnya

Perilisan OpenAI o3‑mini menandai langkah selanjutnya dalam misi OpenAI untuk memajukan batas kecerdasan yang hemat biaya. Dengan mengoptimalkan penalaran untuk domain STEM sekaligus menjaga biaya tetap rendah, kami membuat AI berkualitas tinggi menjadi lebih mudah diakses. Model ini melanjutkan rekam jejak kami menekan biaya kecerdasan—mengurangi penentuan harga per token hingga 95% sejak meluncurkan GPT‑4—sekaligus tetap mempertahankan kemampuan penalaran tingkat atas. Seiring meluasnya pemakaian AI, kami tetap berkomitmen untuk memimpin di garis depan, membangun model yang menyeimbangkan kecerdasan, efisiensi, dan keselamatan dalam skala besar.

Penulis

OpenAI

Pelatihan

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Eval

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Eval Frontier & Kesiapan

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Teknik Rekayasa

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech

Pencarian

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Produk

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Keselamatan

Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Red Teaming Eksternal

Lama Ahmad, Michael Lampe, Troy Peterson

Manajer Program Riset

Carpus Chang, Kristen Ying

Kepemimpinan

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ semua kontributor di balik o1⁠.