आज हम GPT‑5.4 mini और nano जारी कर रहे हैं, जो अब तक के हमारे सबसे सक्षम छोटे मॉडल्स हैं. ये GPT‑5.4 की कई ताकतों को तेज़ और ज़्यादा एफिशिएंट मॉडल्स में लाते हैं, जिन्हें हाई-वॉल्यूम वर्कलोड्स के लिए डिज़ाइन किया गया है.
GPT‑5.4 mini, कोडिंग, रीजनिंग, मल्टीमॉडल अंडरस्टैंडिंग और टूल यूज़ जैसे क्षेत्रों में GPT‑5 mini से काफ़ी बेहतर है, और यह 2x से ज़्यादा तेज़ चलता है. यह कई इवैल्यूएशन्स में बड़े GPT‑5.4 मॉडल के परफॉर्मेंस के काफ़ी करीब पहुँचता है, जिनमें SWE-Bench Pro और OSWorld-Verified शामिल हैं.
GPT‑5.4 nano, GPT‑5.4 का सबसे छोटा और सबसे किफायती वर्ज़न है, उन टास्क्स के लिए जहाँ स्पीड और लागत सबसे ज़्यादा मायने रखते हैं. यह GPT‑5 nano की तुलना में एक बड़ा अपग्रेड भी है. हम इसे क्लासिफिकेशन, डेटा एक्सट्रैक्शन, रैंकिंग और ऐसे कोडिंग सबएजेंट्स के लिए सुझाते हैं जो सरल सपोर्टिंग टास्क्स संभालते हैं.
ये मॉडल्स उन वर्कलोड्स के लिए बनाए गए हैं जहाँ लेटेंसी सीधे प्रॉडक्ट एक्सपीरियंस को प्रभावित करती है: कोडिंग असिस्टेंट्स जिन्हें तुरंत प्रतिक्रिया देनी होती है, सबएजेंट्स जो जल्दी सपोर्टिंग टास्क्स पूरा करते हैं, ऐसे सिस्टम जो स्क्रीनशॉट कैप्चर और इंटरप्रेट करते हैं, और मल्टीमोडल एप्लिकेशन जो रियल-टाइम में इमेजेस पर रीज़न कर सकते हैं. इन परिस्थितियों में, सबसे अच्छा मॉडल अक्सर सबसे बड़ा नहीं होता—बल्कि वह होता है जो तेज़ी से जवाब दे सके, टूल्स का भरोसेमंद तरीके से उपयोग करे, और फिर भी जटिल प्रोफेशनल टास्क्स पर अच्छा प्रदर्शन करे.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 mini के लिए उपलब्ध सबसे अधिक reasoning_effort 'high' है.
अपने वर्कफ़्लोज़ में GPT‑5.4 mini और nano को टेस्ट करने के बाद हमारे कस्टमर्स की राय यह है.
“इस श्रेणी के मॉडल के लिए GPT-5.4 mini मजबूत एंड-टू-एंड परफॉर्मेंस देता है. हमारे इवैल्यूएशन्स में इसने कई आउटपुट टास्क और सिटेशन रिकॉल में कंपिटिटिव मॉडल के बराबर या उनसे बेहतर प्रदर्शन किया, वह भी बहुत कम लागत पर. इसने बड़े GPT-5.4 मॉडल की तुलना में ज़्यादा एंड-टू-एंड पास रेट्स और मजबूत सोर्स एट्रिब्यूशन भी हासिल किया."
GPT‑5.4 mini और nano उन कोडिंग वर्कफ्लो में खास तौर पर प्रभावी हैं जहाँ तेज़ इटरेशन का फायदा मिलता है. ये मॉडल्स targeted edits, कोडबेस नेविगेशन, फ्रंट-एंड जेनरेशन और डिबगिंग लूप्स को कम लेटेंसी के साथ संभालते हैं, जिससे वे उन कोडिंग टास्क्स के लिए बेहतर हैं जिन्हें तेज़ स्पीड और कम लागत में पूरा करना होता है.
बेंचमार्क्स में GPT‑5.4 mini समान लेटेंसी पर लगातार GPT‑5‑mini से बेहतर प्रदर्शन करता है और कहीं अधिक तेज़ चलते हुए GPT‑5.4‑लेवल पास रेट्स के करीब पहुँचता है, जिससे कोडिंग वर्कफ़्लोज़ के लिए परफॉर्मेंस-पर-लेटेंसी का सबसे मजबूत संतुलन मिलता है.
हम अपने मॉडल्स के प्रोडक्शन बिहेवियर को देखकर और इसे ऑफ़लाइन सिमुलेट करके लेटेंसी का अनुमान लगाते हैं. लेटेंसी के इस अनुमान में टूल कॉल ड्यूरेशन (कोड एक्जीक्यूशन टाइम), सैंपल्ड टोकन्स और इनपुट टोकन्स को शामिल किया जाता है. वास्तविक दुनिया में लेटेंसी काफ़ी अलग हो सकती है और यह कई ऐसे फ़ैक्टर्स पर निर्भर करती है जो हमारे सिमुलेशन में शामिल नहीं हैं. इसी तरह, लागत का अनुमान यह लिखे जाने के समय इन मॉडल की API प्राइसिंग के आधार पर लगाया गया है. भविष्य में लागत बदल सकती है. रीजनिंग एफर्ट्स को low से xhigh तक स्वेप किया गया.
GPT‑5.4 mini उन सिस्टम्स के लिए भी बेहतर है जो अलग-अलग साइज के मॉडल्स को साथ में इस्तेमाल करते हैं. Codex में, उदाहरण के लिए, GPT‑5.4 जैसा बड़ा मॉडल प्लानिंग, कोऑर्डिनेशन और फाइनल निर्णय संभाल सकता है, जबकि GPT‑5.4 mini सबएजेंट्स को डेलीगेट करता है जो छोटे सबटास्क्स को समानांतर में संभालते हैं—जैसे कोडबेस सर्च करना, बड़ी फाइल रिव्यू करना, या सपोर्टिंग डॉक्यूमेंट्स प्रोसेस करना. Codex में सबएजेंट्स कैसे काम करते हैं, यह docs(एक नई विंडो में खुलेगा) में जानें.
जैसे-जैसे छोटे मॉडल्स तेज़ और अधिक सक्षम होते जाते हैं, यह पैटर्न और उपयोगी बनता जाता है. हर काम के लिए एक ही मॉडल इस्तेमाल करने के बजाय, डेवलपर्स ऐसे सिस्टम बना सकते हैं जहाँ बड़े मॉडल तय करते हैं क्या करना है और छोटे मॉडल बड़े पैमाने पर उसे तेज़ी से निष्पादित करते हैं. इस तरह के वर्कफ़्लो के लिए GPT‑5.4 mini अब तक का हमारा सबसे मजबूत mini मॉडल है.
GPT‑5.4 mini मल्टीमॉडल टास्क में भी मजबूत है, खासकर वे जो कंप्यूटर यूज़ से जुड़े होते हैं. यह मॉडल जटिल यूज़र इंटरफेस के स्क्रीनशॉट को तेज़ी से इंटरप्रेट करके कंप्यूटर यूज़ टास्क जल्दी पूरा कर सकता है. OSWorld-Verified पर GPT‑5.4 mini, GPT‑5.4 के करीब पहुँचता है और GPT‑5 mini से काफ़ी बेहतर प्रदर्शन करता है.
GPT‑5.4 mini आज से API, Codex और ChatGPT में उपलब्ध है.
API में GPT‑5.4 mini टेक्स्ट और इमेज इनपुट, टूल यूज़, फंक्शन कॉलिंग, वेब सर्च, फाइल सर्च, कंप्यूटर यूज़ और स्किल्स को सपोर्ट करता है. इसमें 400k कॉन्टेक्स्ट विंडो है और इसकी कीमत 1M इनपुट टोकन्स के लिए $0.75 और 1M आउटपुट टोकन्स के लिए $4.50 है.
Codex में, GPT‑5.4 mini Codex app, CLI, IDE extension और web पर उपलब्ध है. यह GPT‑5.4 का केवल 30% उपयोग करता है. कोटा, जिससे डेवलपर्स Codex में सरल कोडिंग टास्क्स को लगभग एक-तिहाई लागत में जल्दी संभाल सकते हैं. Codex GPT‑5.4 mini सबएजेंट्स को भी डेलीगेट कर सकता है, ताकि कम रीज़निंग वाले टास्क्स सस्ते मॉडल पर चल सकें.
ChatGPT में GPT‑5.4 mini, + मेनू में मौजूद “Thinking” फीचर के ज़रिए Free और Go यूज़र्स के लिए उपलब्ध है. बाकी सभी यूज़र्स के लिए GPT‑5.4 mini, GPT‑5.4 Thinking के लिए रेट लिमिट फॉलबैक के रूप में उपलब्ध है. Thinking.
GPT‑5.4 nano केवल API में उपलब्ध है और इसकी कीमत 1M इनपुट टोकन्स के लिए $0.20 और 1M आउटपुट टोकन्स के लिए $1.25 है.
मॉडल्स के सेफगार्ड्स के बारे में अधिक जानकारी के लिए, हमारे Deployment Safety Hub(एक नई विंडो में खुलेगा) पर System Card addendum देखें.
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 mini के लिए उपलब्ध सबसे अधिक reasoning_effort 'high' है.
2 कुल एडिट डिस्टेंस. OmniDocBench को reasoning_effort 'none' पर सेट करके चलाया गया, ताकि कम लागत और कम लेटेंसी वाले प्रदर्शन को दर्शाया जा सके.


