Akıl yürütme serimizin en yeni ve en uygun maliyetli modeli olan OpenAI o3‑mini’yi bugün hem ChatGPT hem de API üzerinde kullanıma sunuyoruz. Ön izlemesi Aralık 2024’te sunulan bu güçlü ve hızlı model, düşük modellerin başarabileceklerinin sınırlarını zorluyor ve özellikle bilim, matematik ile kodlamada olağanüstü FeTeMM yetenekleri sunuyor. Üstelik OpenAI o1‑mini’nin düşük maliyetini ve kısaltılmış gecikme süresini koruyor.
OpenAI o3‑mini; fonksiyon çağırma(yeni bir pencerede açılır), Yapılandırılmış Çıktılar(yeni bir pencerede açılır) ve geliştirici iletileri(yeni bir pencerede açılır) gibi yüksek talep gören geliştirici özelliklerini destekleyen ilk düşük akıl yürütme modelimiz. OpenAI o1‑mini ve OpenAI o1 ön izlemesi gibi o3‑mini de sürekli mesaj akışını(yeni bir pencerede açılır) destekleyecek. Ayrıca, geliştiriciler kendi özel kullanım ihtiyaçlarına doğrultusunda optimizasyon amacıyla düşük, orta ve yüksek olmak üzere üç akıl yürütme çabası seviyesi(yeni bir pencerede açılır) seçebilecek. Bu esneklik, o3‑mini’nin karmaşık problemleri çözerken “daha çok düşünmesine” veya gecikme süresinin önemli olduğu durumlarda hızlı cevap vermeye öncelik vermesine imkân veriyor. o3‑mini görüntü yeteneklerine sahip değildir, bu nedenle geliştiriciler görsel akıl yürütme görevlerinde OpenAI o1’i kullanmaya devam etmelidir. o3‑mini bugünden itibaren Sohbet Tamamlama API’si, Asistanlar API’si ve Toplu İşlem API’si için 3 ile 5 arasındaki API kullanım kademelerinde(yeni bir pencerede açılır) yer alan belirli geliştiricilerin kullanımına sunuluyor.
ChatGPT Plus, Team ve Pro kullanıcıları bugünden itibaren OpenAI o3‑mini’ye erişebilirler. Enterprise ise Şubat ayında erişilebilir olacak. o3‑mini, model seçicide OpenAI o1‑mini’nin yerini alacak. Daha yüksek kullanım limitleri ve daha düşük gecikme süresi sunan o3‑mini, kodlama, FeTeMM ve mantıksal problem çözme görevleri için güçlü bir seçenek hâline gelecek. Bu yükseltme kapsamında, Plus ve Team kullanıcıları için o1‑mini ile günde 50 ileti olan kullanım sınırını o3‑mini ile 150 iletiyle üç katına çıkarıyoruz. Ayrıca, o3‑mini artık ilgili web kaynaklarının bağlantılarını içeren güncel cevaplar bulmak için arama işlevi ile birlikte çalışıyor. Bu, arama işlevini tüm akıl yürütme modellerimize entegre etmeye yönelik çalışma sürecimizin ilk aşamalarında sunulan bir prototiptir.
Bugünden itibaren, ücretsiz plan kullanıcıları da ileti oluşturucuda “Mantık Yürüt” seçeneğini seçerek veya bir yanıtı tekrar oluşturarak OpenAI o3‑mini’yi deneyebilirler. Böylece, ücretsiz ChatCGPT kullanıcılarına ilk kez bir akıl yürütme modeli sunulmuş olacak.
OpenAI o1, hâlâ genel bilgi alanında daha geniş bir yelpazeyi kapsayan akıl yürütme modelimizken, OpenAI o3‑mini, hassasiyet ve hız gerektiren teknik alanlar için özel bir alternatif sunuyor. ChatGPT’de o3‑mini, hız ve doğruluk arasında ideal bir denge sağlamak için orta seviyeli akıl yürütme çabası sunuyor. Yanıt üretmesi biraz daha zaman alan daha yüksek zekalı bir sürümden yararlanmak isteyen tüm ücretli kullanıcılar, model seçicide o3‑mini‑high’ı seçme imkânına da sahip olacak. Pro planı kullanıcılarının hem o3‑mini hem de o3‑mini‑high’a sınırsız erişim imkânı olacak.
OpenAI o3‑mini, kendisinden önceki OpenAI o1’e benzer şekilde, FeTeMM alanlarında akıl yürütme için optimize edildi. o3‑mini, orta seviyede akıl yürütme çabasıyla o1'in matematik, kodlama ve bilim alanlarındaki performansını yakalarken daha hızlı yanıtlar sunuyor. Uzmanlarca yapılan test değerlendirmeleri, o3‑mini’nin OpenAI o1‑mini’ye göre daha güçlü akıl yürütme yetenekleriyle daha doğru ve daha net cevaplar ürettiğini gösterdi. Test uzmanları, o3‑mini’nin yanıtlarını o1‑mini’ninkilerden %56 oranında üstün buldu ve zorlu gerçek dünya sorularındaki önemli hatalarda %39 oranında düşüş gözlemledi. o3‑mini, orta seviyede akıl yürütme çabasıyla, AIME ve GPQA dâhil olmak üzere en zorlu akıl yürütme ve zeka değerlendirmelerinden bazılarında o1’in performansına erişiyor.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
OpenAI o1 ile kıyaslanabilir bir zekaya sahip olan OpenAI o3‑mini, daha hızlı performans ve daha yüksek verimlilik sunuyor. o3‑mini, yukarıda vurgulanan FeTeMM değerlendirmelerinin ötesinde, orta seviyede akıl yürütme çabasıyla ek matematik ve olgusallık değerlendirmelerinde üstün sonuçlar gösteriyor. A/B testinde o3‑mini, o1‑mini’den %24 daha hızlı yanıt vererek ortalama yanıt süresini 10,16 saniyeden 7,7 saniyeye düşürdü.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
OpenAI o3‑mini’ye güvenli yanıt vermeyi öğretmek için kullandığımız temel yöntemlerden biri, modeli, kullanıcı istemlerine cevap vermeden önce insan tarafından yazılmış güvenlik spesifikasyonları hakkında akıl yürütmesi için eğittiğimiz düşünerek uyumluluk sağlama tekniğidir. o3‑mini’nin OpenAI o1’e benzer şekilde zorlu güvenlik ve jailbreak değerlendirmelerinde GPT‑4o’yu kayda değer şekilde geçtiğini görüyoruz. o3‑mini’yi kullanıma sokmadan önce modelin güvenlik risklerini o1 ile aynı hazırlık, harici kırmızı takım testleri ve güvenlik değerlendirmeleri yaklaşımını uygulayarak titizlikle değerlendirdik. o3‑mini’yi erken erişim safhasında test etmek için başvuran güvenlik testi uzmanlarına teşekkür ederiz. Aşağıdaki değerlendirmelerin ayrıntıları, potansiyel risklere dair kapsamlı bir açıklama ve önlemlerimizin ne derece etkili olduğu o3‑mini sistem kartında mevcuttur.


OpenAI o3‑mini’nin kullanıma sunulması, OpenAI’ın uygun maliyetli zekanın sınırlarını genişletme misyonu doğrultusunda atılmış yeni bir adım. Maliyetleri düşük tutarken FeTeMM alanlarında akıl yürütmeyi optimize ederek, yüksek kaliteli yapay zekayı daha da erişilebilir hale getiriyoruz. Bu modelle beraber, GPT‑4’ün lansmanından bu yana token başına fiyatları %95 oranında düşürmüş olduk. En üst seviyede akıl yürütme yeteneklerini korurken, zekanın maliyetini düşürme konusunda şimdiye kadar sergilediğimiz performansı bu modelle de sürdürüyoruz. Yapay zeka daha fazla benimsendikçe her ölçekte zeka, verimlilik ve güvenliği dengeleyen modeller oluşturarak öncü konumumuzu korumaya kararlıyız.
Yazarlar
Eğitim
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
Değerlendirme
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
Sınır Değerlendirmeleri ve Hazırlıklılık
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
Mühendislik
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
Arama
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
Ürün
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
YZ Güvenliği
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
Harici Kırmızı Takım Testleri
Lama Ahmad, Michael Lampe, Troy Peterson
Araştırma Programı Yöneticileri
Carpus Chang, Kristen Ying
Liderler
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba