हम OpenAI o3‑mini को रिलीज़ कर रहे हैं, जो हमारी रीज़निंग सीरीज़ में सबसे नया, सबसे किफ़ायती मॉडल है, यह आज ChatGPT और API दोनों में उपलब्ध है. दिसंबर 2024 में प्रीव्यू किया गया, यह ज़ोरदार और तेज़ मॉडल छोटे मॉडल की सीमाओं को एडवांस करता है, बेजोड़ STEM क्षमताएं देता है—साइंस, मैथ और कोडिंग में ख़ासतौर पर— और वह भी OpenAI o1‑mini की कम लागत और कम लेटेंसी को बनाए रखते हुए.
OpenAI o3‑mini हमारा पहला छोटा रीज़निंग मॉडल है, जो फ़ंक्शन कॉलिंग(एक नई विंडो में खुलेगा), स्ट्रक्चर्ड आउटपुट(एक नई विंडो में खुलेगा) और डेवलपर मेसेज(एक नई विंडो में खुलेगा) जैसे बहुत ज़्यादा अनुरोध किए गए डेवलपर फ़ीचर को सपोर्ट करता है, जो इसे प्रोडक्शन के लिए तैयार बना देता है. OpenAI o1‑mini और OpenAI o1‑preview की तरह, o3‑mini स्ट्रीमिंग(एक नई विंडो में खुलेगा) को सपोर्ट करेगा. साथ ही, अपने ख़ास यूज़ केस के लिए ऑप्टिमाइज़ करने के लिए डेवलपर इन तीन रीज़निंग की कोशिश(एक नई विंडो में खुलेगा) के ऑप्शन—कम, मीडियम और ज़्यादा—में से चुन सकते हैं. यह लचीलापन o3‑mini को मुश्किल चुनौतियों से निपटने के दौरान "सख़्त सोचने" या लै की फ़िक्र होने पर रफ़्तार को प्राथमिकता देने देता है. o3‑mini विज़न की क्षमताओं का सपोर्ट नहीं करता, इसलिए डेवलपर को विज़ुअल रीज़निंग वाले टास्क के लिए OpenAI o1 को इस्तेमाल करते रहना चाहिए. o3‑mini आज से चैट एंडपॉइंट API, असिस्टेंट API और बैच API में API यूसेज टियर 3-5(एक नई विंडो में खुलेगा) में कुछ डेवलपर के लिए शुरू हो रहा है.
ChatGPT Plus, Team, और Pro के यूज़र आज से शुरू होने वाले OpenAI o3‑mini को एक्सेस कर सकते हैं, Enterprise के लिए एक्सेस फ़रवरी में आएगी. o3‑mini मॉडल पिकर में OpenAI o1‑mini को रिप्लेस करेगा, जो ज़्यादा रेट लिमिट और कम लेटेंसी को पेश करेगा, जो इसे कोडिंग, STEM और लॉजिकल प्रॉब्लम-सोल्विंग टास्क के लिए मनपसंद बना देगा. इस अपग्रेड के हिस्से के तौर पर, हम Plus और Team के यूज़र के लिए रेट लिमिट तीन गुणा कर रहे हैं, जो o1‑mini में रोज़ 50 मेसेज से बढ़ाकर o3‑mini में रोज़ 150 मेसेज हो जाएगी. इसके अलावा, o3‑mini अब रेलवेंट वेब सोर्स के लिंक से अप-टू-डेट जवाब ढूंढ़ने के लिए सर्च के साथ काम करता है. यह एक शुरुआती प्रोटोटाइप है, क्योंकि हम अपने रीज़निंग मॉडल में सर्च को इंटिग्रेट करने के लिए काम कर रहे हैं.
आज से शुरू, मुफ़्त प्लान के यूज़र मेसेज कंपोजर में 'रीज़न' को चुनकर या रिस्पांस को फिर से जेनरेट करके OpenAI o3‑mini को भी आज़मा सकते हैं. यह पहली बार हो रहा है कि ChatGPT में मुफ़्त प्लान के यूज़र के लिए रीज़निंग मॉडल उपलब्ध हुआ है.
वहीं OpenAI o1 हमारा बह़त बड़ा जनरल नॉलेज रीज़निंग मॉडल बना हुआ है, OpenAI o3‑mini एक्यूरेसी और रफ़्तार की ज़रूरत वाले तकनीकी डोमेन के लिए ख़ास अल्टरनेटिव देता है. ChatGPT में, o3‑mini रफ़्तार और एक्यूरेसी में बिल्कुल सही संतुलन बैठाने के लिए मीडियम रीज़निंग कोशिश का इस्तेमाल करता है. सभी पेड यूज़र के पास हायर-इंटेलिजेंस वर्ज़न के लिए मॉडल पिकर में o3‑mini‑high को चुनने का ऑप्शन भी होगा, जिसमें रिस्पांस को जेनरेट करने में थोड़ा-सा ज़्यादा समय लगता है. Pro यूज़र के पास o3‑mini और o3‑mini‑high दोनों की अनलिमिटेड एक्सेस होगी.
अपने प्रेडिसेसर OpenAI o1 तरह ही, OpenAI o3‑mini को STEM रीज़निंग के लिए ऑप्टिमाइज़ किया गया है. मीडियम रीज़निंग कोशिश के साथ o3‑mini मैथ, कोडिंग और साइंस में o1 की परफ़ॉर्मेंस से मैच करता है, वहीं तेज़ी से रिस्पांस देता है. एक्सपर्ट टेस्टर के मूल्यांकन दिखाते हैा कि o3‑mini, OpenAI o1‑mini के मुक़ाबले में मज़बूत रीज़निंग क्षमताओं के साथ ज़्यादा एक्यूरेट और साफ़-स्पष्ट जवाब देता है. टेस्टर ने 56% बार o1‑mini की तुलना में o3‑mini के रिस्पांस को तरजीह दी और असल दुनिया के मुश्किल सवालों पर बड़ी ग़लतियों में 39% की कमी देखी. मीडियम रीज़निंग कोशिश के साथ, o3‑mini AIME और GPQA जैसे सबसे ज़्यादा चुनौती वाले रीज़निंग और इंटेलिजेंस मूल्यांकनों में o1 की परफ़ॉर्मेंस से मैच करता है.

Mathematics: With low reasoning effort, OpenAI o3‑mini achieves comparable performance with OpenAI o1‑mini, while with medium effort, o3‑mini achieves comparable performance with o1. Meanwhile, with high reasoning effort, o3‑mini outperforms both OpenAI o1‑mini and OpenAI o1, where the gray shaded regions show the performance of majority vote (consensus) with 64 samples.

PhD-level science: On PhD-level biology, chemistry, and physics questions, with low reasoning effort, OpenAI o3‑mini achieves performance above OpenAI o1‑mini. With high effort, o3‑mini achieves comparable performance with o1.

Research-level mathematics: OpenAI o3‑mini with high reasoning performs better than its predecessor on FrontierMath. On FrontierMath, when prompted to use a Python tool, o3‑mini with high reasoning effort solves over 32% of problems on the first attempt, including more than 28% of the challenging (T3) problems. These numbers are provisional, and the chart above shows performance without tools or a calculator.

Competition coding: On Codeforces competitive programming, OpenAI o3‑mini achieves progressively higher Elo scores with increased reasoning effort, all outperforming o1‑mini. With medium reasoning effort, it matches o1’s performance.

Software engineering: o3‑mini is our highest performing released model on SWEbench-verified. For additional datapoints on SWE-bench Verified results with high reasoning effort, including with the open-source Agentless scaffold (39%) and an internal tools scaffold representing maximum capability elicitation (61%), see our system card as the source of truth. All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.

LiveBench coding: OpenAI o3‑mini surpasses o1‑high even at medium reasoning effort, highlighting its efficiency in coding tasks. At high reasoning effort, o3‑mini further extends its lead, achieving significantly stronger performance across key metrics.

General knowledge: o3‑mini outperforms o1‑mini in knowledge evaluations across general knowledge domains.


Human preference evaluation: Evaluations by external expert testers also show that OpenAI o3‑mini produces more accurate and clearer answers, with stronger reasoning abilities than OpenAI o1‑mini, especially for STEM. Testers preferred o3‑mini's responses to o1‑mini 56% of the time and observed a 39% reduction in major errors on difficult real-world questions.
OpenAI o1 के मुक़ाबले की इंटेलिजेंस के साथ, OpenAI o3‑mini तेज़ी से परफ़ॉर्मेंस और बेहतर एफ़िशिएंसी पेश करता है. ऊपर हाइलाइट किए गए STEM मूल्यांकनों के अलावा, o3‑mini मीडियम रीज़निंग कोशिश के साथ एडिशनल मैथ और तथ्यों संबंधी मूल्यांकनों में बेहतरीन नतीजे दिखाता है. A/B टेस्टिंग में, o3‑mini ने o1‑mini से 24% तेज़ रिस्पांस दिए, वो भी 10.16 सेकंड के मुक़ाबले में 7.7 सेकंड के औसत रिस्पांस समय के साथ.

Latency: o3‑mini has an avg 2500ms faster time to first token than o1‑mini.
सेफ़ तरीक़े से रिस्पांस देने के लिए OpenAI o3‑mini को सिखाने में हमने जिन मुख्य तकनीकों का इस्तेमाल किया, उनमें से एक है सोचा-समझा अलाइंमेंट, जिसमें हमने यूज़र के प्रॉम्प्ट का जवाब देने से पहले इंसान के लिखे सुरक्षा संबंधी ख़ास ब्यौरों के बारे में रीज़न करने के लिए मॉडल को ट्रेंड किया. OpenAI o1 की तरह ही, हमने पाया कि हमने पाया कि o3‑mini सुरक्षा और जेलब्रेक मूल्यांकनों को चुनौती पर GPT‑4o से काफ़ी आगे है. डिप्लॉयमेंट से पहले, हमने o1 की तरह ही तैयारी, बाहरी रेड-टीमिंग और सुरक्षा इवलुएशन के लिए वैसे ही नज़रिए से o3‑mini के सुरक्षा संबंधी ख़तरों को बड़े ध्यान से इवलुएशन किया. उन सुरक्षा टेस्टर को शुक्रिया, जिन्होंने शुरुआती एक्सेस में o3‑mini के टेस्ट को लागू किया. नीचे दिए गए मूल्यांकनों का ब्यौरा, साथ ही संभावित ख़तरों और हमारे मिटिगेशन के असर करने की क्षमता के बारे में काफ़ी सारी जानकारी, o3‑mini सिस्टम कार्ड पर उपलब्ध हैं.


OpenAI o3‑mini की पेशकश किफ़ायती इंटेलिजेंस की सीमाओं को आगे बढ़ाने के OpenAI के मिशन में एक और क़दम है. लागत कम रखते हुए STEM डोमेन के लिए रीज़निंग को ऑप्टिमाइज़ करके, हम बेहतरीन क्वालिटी वाले AI को और भी ज़्यादा एक्सेस वाला बना रहे हैं. यह मॉडल इंटेलिजेंस की लागत को कम करने के हमारे ट्रैक रिकॉर्ड को बनाए रखता है—GPT‑4 को लॉन्च करने के बाद से प्रति-टोकन दाम में 95% की कमी—वहीं टॉप-टियर रीज़निंग क्षमताओं को भी बनाए रखा गया है. AI के इस्तेमाल के फैलने के साथ-साथ, हम लीडिंग रोल निभाने के लिए कमिटिड हैं, और ऐसे मॉडल बना रहे हैं, जो बड़े पैमाने पर इंटेलिजेंस, एफ़िशिएंसी और सुरक्षा को बैलेंस करते हैं.
लेखक
ट्रेनिंग
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
इवल
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
फ़्रंटियर इवल्स और तैयारी
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
इंजीनियरिंग
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Callie Riggins Zetino, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Lien Mamitsuka, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Surya Mamidyala, Tomer Kaftan, Trevor Creech
सर्च करें
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
प्रोडक्ट
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
सुरक्षा
Alex Beutel, Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Matt Jones, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
बाहरी रेड टीमिंग
Lama Ahmad, Michael Lampe, Troy Peterson
रिसर्च प्रोग्राम के मैनेजर
Carpus Chang, Kristen Ying
लीडरशिप
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba