Kami sedang merilis OpenAI o3‑mini, model terbaru dan paling hemat biaya dalam rangkaian penalaran kami, yang tersedia di ChatGPT dan API hari ini. diperkenalkan pada bulan Desember tahun 2024, model yang kuat dan cepat ini memajukan batasan hal yang dapat dicapai oleh model kecil, sehingga memberikan kemampuan STEM yang luar biasa—dengan keunggulan khusus dalam ilmu pengetahuan, matematika, dan koding—semuanya sekaligus mempertahankan biaya rendah dan latensi yang berkurang dari OpenAI o1‑mini.
OpenAI o3‑mini adalah model penalaran kecil pertama kami yang mendukung fitur pengembang yang sangat diminta termasuk pemanggilan fungsi(terbuka di jendela baru), Keluaran Terstruktur(terbuka di jendela baru), dan pesan pengembang(terbuka di jendela baru), sehingga membuatnya siap produksi sejak awal. Seperti OpenAI o1‑mini dan OpenAI o1‑preview, o3‑mini akan mendukung streaming(terbuka di jendela baru). Selain itu, pengembang dapat memilih di antara tiga opsi upaya penalaran(terbuka di jendela baru)—rendah, sedang, dan tinggi—untuk mengoptimalkan kasus penggunaan tertentu mereka. Fleksibilitas ini mengizinkan o3‑mini untuk “berpikir lebih keras” saat menangani tantangan yang rumit atau memprioritaskan kecepatan saat latensi menjadi masalah. o3‑mini tidak mendukung kemampuan penglihatan, sehingga pengembang harus melanjutkan menggunakan OpenAI o1 untuk tugas penalaran visual. o3‑mini diluncurkan di API Penyelesaian Obrolan, API Asisten, dan API Batch mulai hari ini untuk memilih pengembang di tingkatan penggunaan API 3-5(terbuka di jendela baru).
Pengguna ChatGPT Plus, Team, dan Pro dapat mengakses OpenAI o3‑mini mulai hari ini, dengan akses Enterprise tersedia pada bulan Februari. o3‑mini akan menggantikan OpenAI o1‑mini di pemilih model, sehingga menawarkan batas kecepatan lebih tinggi dan latensi lebih rendah, menjadikannya pilihan menarik untuk tugas koding, STEM, dan pemecahan masalah yang logis. Sebagai bagian dari upgrade ini, kami melipatgandakan batas kecepatan untuk pengguna Plus dan Team dari 50 pesan per hari dengan o1‑mini menjadi 150 pesan per hari dengan o3‑mini. Selain itu, o3‑mini sekarang berfungsi dengan pencarian untuk menemukan jawaban terkini dengan tautan ke sumber web yang relevan. Ini adalah purwarupa awal saat kami berupaya mengintegrasikan pencarian di seluruh model penalaran kami.
Mulai hari ini, pengguna paket Free juga dapat mencoba OpenAI o3‑mini dengan memilih ‘Nalar’ dalam pembuat pesan atau dengan membuat ulang respons. Ini menandai pertama kalinya model penalaran disediakan untuk pengguna gratis di ChatGPT.
Sementara OpenAI o1 tetap menjadi model penalaran pengetahuan umum yang lebih luas, OpenAI o3‑mini menyediakan alternatif khusus untuk domain teknis yang memerlukan presisi dan kecepatan. Dalam ChatGPT, o3‑mini menggunakan upaya penalaran sedang untuk memberikan keseimbangan antara kecepatan dan keakuratan. Semua pengguna berbayar juga akan memiliki opsi untuk memilih o3‑mini‑high pada pemilih model untuk versi dengan kecerdasan lebih tinggi yang memerlukan waktu lebih lama untuk membuat respons. Pengguna Pro akan memiliki akses tidak terbatas ke o3‑mini dan o3‑mini‑high.
Mirip pendahulunya OpenAI o1, OpenAI o3‑mini telah dioptimalkan untuk penalaran STEM. o3‑mini dengan upaya penalaran sedang yang sama dengan kinerja o1 dalam matematika, koding, dan ilmu pengetahuan, sekaligus memberikan respons yang lebih cepat. Evaluasi oleh penguji ahli menunjukkan bahwa o3‑mini menghasilkan jawaban lebih akurat dan lebih jelas, dengan kemampuan penalaran lebih kuat, dibandingkan OpenAI o1‑mini. Penguji lebih menyukai respons o3‑mini daripada o1‑mini sebanyak 56% waktu dan mengalami pengurangan sebesar 39% dalam kesalahan utama pada pertanyaan dunia nyata yang sulit. Dengan upaya penalaran sedang, o3‑mini sama dengan kinerja o1 pada beberapa evaluasi penalaran dan kecerdasan yang paling menantang termasuk AIME dan GPQA.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
Dengan kecerdasan yang sebanding dengan OpenAI o1, OpenAI o3‑mini memberikan kinerja lebih cepat dan peningkatan efisiensi. Di luar evaluasi STEM yang disorot di atas, o3‑mini memperagakan hasil yang unggul dalam evaluasi matematika dan faktualitas tambahan dengan upaya penalaran sedang. Dalam pengujian A/B, o3‑mini memberikan respons 24% lebih cepat dibandingkan o1‑mini, dengan rata-rata waktu respons 7,7 detik dibandingkan dengan 10,16 detik.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
Salah satu teknik utama yang kami gunakan untuk mengajarkan OpenAI o3‑mini agar merespons dengan aman adalah penyelarasan deliberatif, yaitu kami melatih model untuk memiliki nalar tentang spesifikasi keselamatan yang ditulis manusia sebelum menjawab prompt pengguna. Serupa dengan OpenAI o1, kami menemukan bahwa o3‑mini secara signifikan melampaui GPT‑4o pada evaluasi keselamatan dan jailbreak yang menantang. Sebelum penerapan, kami secara saksama menilai risiko keselamatan o3‑mini menggunakan pendekatan yang sama terhadap kesiapsiagaan, pembentukan tim merah eksternal, dan evaluasi keselamatan seperti o1. Kami berterima kasih kepada penguji keselamatan yang telah mendaftar untuk menguji o3‑mini dalam akses awal. Detail evaluasi di bawah, beserta penjelasan menyeluruh tentang potensi risiko dan efektivitas mitigasi kami, tersedia di kartu sistem o3‑mini.


Perilisan OpenAI o3‑mini menandai langkah selanjutnya dalam misi OpenAI untuk memajukan batas kecerdasan yang hemat biaya. Dengan mengoptimalkan penalaran untuk domain STEM sekaligus menjaga biaya tetap rendah, kami membuat AI berkualitas tinggi menjadi lebih mudah diakses. Model ini melanjutkan rekam jejak kami menekan biaya kecerdasan—mengurangi penentuan harga per token hingga 95% sejak meluncurkan GPT‑4—sekaligus tetap mempertahankan kemampuan penalaran tingkat atas. Seiring meluasnya pemakaian AI, kami tetap berkomitmen untuk memimpin di garis depan, membangun model yang menyeimbangkan kecerdasan, efisiensi, dan keselamatan dalam skala besar.
Penulis
Pelatihan
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Eval
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Eval Frontier & Kesiapan
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Teknik Rekayasa
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Pencarian
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Produk
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
Keselamatan
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Red Teaming Eksternal
Lama Ahmad, Michael Lampe, Troy Peterson
Manajer Program Riset
Carpus Chang, Kristen Ying
Kepemimpinan
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba