आज हम ChatGPT में GPT‑5.4 रिलीज़ कर रहे हैं (GPT‑5.4 Thinking के रूप में), API और Codex में. यह प्रोफेशनल काम के लिए हमारा अब तक का सबसे सक्षम और कुशल फ्रंटियर मॉडल है. हम ChatGPT और API में GPT‑5.4 Pro भी रिलीज़ कर रहे हैं, उन लोगों के लिए जो जटिल टास्क्स पर अधिकतम परफॉर्मेंस चाहते हैं.
GPT‑5.4 हमारे हाल के रीज़निंग, कोडिंग और एजेंटिक वर्कफ्लो में हुई प्रगति के बेहतरीन पहलुओं को एक ही फ्रंटियर मॉडल में एक साथ लाता है. यह GPT‑5.3‑Codex की इंडस्ट्री-लीडिंग कोडिंग क्षमताओं को शामिल करता है और साथ ही यह भी बेहतर बनाता है कि मॉडल टूल्स, सॉफ़्टवेयर एनवायरनमेंट्स और स्प्रेडशीट्स, प्रेज़ेंटेशन तथा डॉक्यूमेंट्स से जुड़े प्रोफेशनल टास्क्स में कैसे काम करता है. इसका परिणाम एक ऐसा मॉडल है जो जटिल वास्तविक काम को सटीक, प्रभावी और कुशल तरीके से पूरा करता है—कम आगे-पीछे की बातचीत में वही परिणाम देता है जो आपने माँगा था.
ChatGPT में, GPT‑5.4 Thinking अब अपनी सोचने की प्रक्रिया का एक शुरुआती प्लान दे सकता है, ताकि आप काम करते समय बीच में ही दिशा समायोजित कर सकें जब यह काम कर रहा हो, और बिना अतिरिक्त टर्न्स के ऐसा अंतिम आउटपुट पा सकें जो आपकी ज़रूरत के अधिक करीब हो. GPT‑5.4 Thinking डीप वेब रिसर्च, को भी बेहतर बनाता है, खासकर बहुत ही विशिष्ट क्वेरीज़ के लिए, और उन सवालों के लिए जिनमें लंबे समय तक सोचने की ज़रूरत होती है, कॉन्टेक्स्ट को बेहतर बनाए रखता है. मिलकर, ये सुधार ऐसे उच्च-गुणवत्ता वाले उत्तर देते हैं जो तेज़ी से मिलते हैं और दिए गए टास्क के लिए प्रासंगिक बने रहते हैं.
Codex और API में, GPT‑5.4 हमारा पहला जनरल-पर्पस मॉडल है जिसे नेटिव, अत्याधुनिक कंप्यूटर-यूज़ क्षमताओं के साथ जारी किया गया है, जिससे एजेंट्स कंप्यूटर चला सकते हैं और अलग-अलग ऐप्लिकेशन्स में जटिल वर्कफ्लो पूरा कर सकते हैं. यह 1M टोकन्स तक का कॉन्टेक्स्ट सपोर्ट करता है, जिससे एजेंट्स लंबे समयावधि वाले टास्क्स की योजना बना सकते हैं, उन्हें पूरा कर सकते हैं और सत्यापित कर सकते हैं. GPT‑5.4 टूल सर्च के साथ बड़े टूल और कनेक्टर इकोसिस्टम में मॉडल्स के काम करने के तरीके को भी बेहतर बनाता है, जिससे एजेंट्स सही टूल्स को अधिक कुशलता से खोज और उपयोग कर सकते हैं, बिना इंटेलिजेंस से समझौता किए. अंत में, GPT‑5.4 अब तक हमारा सबसे टोकन-एफिशिएंट रीज़निंग मॉडल है, जो GPT‑5.2 की तुलना में समस्याएँ हल करने के लिए काफ़ी कम टोकन्स का उपयोग करता है—जिससे टोकन उपयोग कम होता है और गति बढ़ती है.
सामान्य रीज़निंग, कोडिंग और प्रोफेशनल नॉलेज वर्क में हुई प्रगति के साथ मिलकर, GPT‑5.4 ChatGPT, API और Codex में अधिक विश्वसनीय एजेंट्स, तेज़ डेवलपर वर्कफ्लो और उच्च-गुणवत्ता वाले आउटपुट संभव बनाता है.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (जीत या टाई) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro (Public) | 57.7% | 56.80% | 55.6% |
OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.30% | 65.8% |
*पहले 64.7% के रूप में रिपोर्ट किया गया था. GPT‑5.3‑Codex मूल इमेज रेज़ोल्यूशन को प्रिज़र्व करने वाले नए पेश किए गए API पैरामीटर के साथ 74.0% हासिल करता है.
GPT‑5.2 की क्षमताओं पर आगे निर्माण करते हुए सामान्य रीज़निंग क्षमताओं के साथ, GPT‑5.4 उन वास्तविक दुनिया के टास्क्स पर, जो पेशेवरों के लिए मायने रखते हैं, और भी अधिक सुसंगत और परिष्कृत परिणाम देता है.
GDPval पर, जो 44 व्यवसायों में अच्छी तरह से परिभाषित नॉलेज वर्क तैयार करने की एजेंट्स की क्षमताओं का परीक्षण करता है, GPT‑5.4 एक नया स्टेट ऑफ़ द आर्ट हासिल करता है, और 83.0% तुलनाओं में उद्योग के पेशेवरों के बराबर या उनसे बेहतर है, जबकि GPT‑5.2 के लिए यह 71.0% है.
GDPval में, मॉडल्स अच्छी तरह परिभाषित नॉलेज वर्क को पूरा करने की कोशिश करते हैं, जो U.S. GDP में योगदान देने वाली शीर्ष नौ इंडस्ट्रीज़ के 44 पेशों को कवर करता है. टास्क्स वास्तविक कार्य आउटपुट मांगते हैं, जैसे सेल्स प्रेज़ेंटेशन्स, अकाउंटिंग स्प्रेडशीट्स, अर्जेंट केयर शेड्यूल्स, मैन्युफैक्चरिंग डायग्राम्स या छोटे वीडियो. GPT‑5.4 के लिए रीज़निंग एफर्ट xhigh पर और GPT‑5.2 के लिए heavy पर सेट किया गया था (ChatGPT में थोड़ा कम स्तर).
“GPT-5.4 वह सबसे अच्छा मॉडल है जिसे हमने अब तक आज़माया है. यह अब हमारे APEX-Agents बेंचमार्क के लीडरबोर्ड पर शीर्ष पर है, जो प्रोफेशनल सर्विसेज़ के काम के लिए मॉडल के प्रदर्शन को मापता है. यह स्लाइड डेक्स, फाइनेंशियल मॉडल्स और लीगल विश्लेषण जैसे लॉन्ग-होराइजन डिलिवरेबल्स बनाने में उत्कृष्ट है, और प्रतिस्पर्धी फ्रंटियर मॉडलों की तुलना में तेज़ और कम लागत पर शीर्ष प्रदर्शन देता है.”
हमने GPT‑5.4 में सुधार पर विशेष ध्यान दिया स्प्रेडशीट्स, प्रेज़ेंटेशन और डॉक्यूमेंट्स बनाने और संपादित करने की क्षमता. स्प्रेडशीट मॉडलिंग टास्क्स के एक आंतरिक बेंचमार्क पर, जो एक जूनियर इन्वेस्टमेंट बैंकिंग एनालिस्ट कर सकता है, GPT‑5.4 ने औसत 87.5% स्कोर हासिल किया, जबकि GPT‑5.2 का स्कोर 68.4% था. प्रेज़ेंटेशन मूल्यांकन प्रॉम्प्ट्स के एक सेट पर, मानव रेटर्स ने 68.0% मामलों में GPT‑5.4 की प्रेज़ेंटेशन्स को GPT‑5.2 की तुलना में अधिक पसंद किया, बेहतर एस्थेटिक्स, अधिक विज़ुअल विविधता और इमेज जनरेशन के अधिक प्रभावी उपयोग के कारण.

दस्तावेज़ रीज़निंग एफर्ट को xhigh पर सेट करके जनरेट किए गए थे।
आप ChatGPT में GPT‑5.4 का उपयोग करके इन क्षमताओं को आज़मा सकते हैं. Thinking या Pro यदि आप Enterprise ग्राहक हैं, तो हम हमारे नए जारी किए गए ChatGPT for Excel और Google Sheets प्लगइन्स(एक नई विंडो में खुलेगा) का उपयोग करने की सलाह देते हैं, जिसे आज ही लॉन्च किया गया है. हमने Codex और API में उपलब्ध अपने स्प्रेडशीट(एक नई विंडो में खुलेगा) और प्रेज़ेंटेशन स्किल्स(एक नई विंडो में खुलेगा) को भी अपडेट किया है.
GPT‑5.4 को वास्तविक दुनिया के काम में बेहतर बनाने के लिए, हमने हैलुसिनेशन्स और एरर्स को कम करने की दिशा में अपनी प्रगति जारी रखी. GPT‑5.4 अब तक का हमारा सबसे अधिक तथ्यात्मक मॉडल है: डी-आइडेंटिफाइड प्रॉम्प्ट्स के एक सेट पर, जहाँ यूज़र्स ने तथ्यात्मक एरर्स को फ्लैग किया था, GPT‑5.4 के GPT‑5.2 की तुलना में इसके व्यक्तिगत दावे 33% कम गलत होने की संभावना रखते हैं और इसके पूरे उत्तरों में किसी भी त्रुटि के होने की संभावना 18% कम है।
“GPT-5.4 दस्तावेज़-प्रधान कानूनी काम के लिए एक नया मानक स्थापित करता है. हमारे BigLaw Bench eval पर, इसका स्कोर 91% था. अन्य मॉडलों की तुलना में, GPT-5.4 वर्तमान में जटिल लेन-देन विश्लेषण को व्यवस्थित करने, लंबे कॉन्ट्रैक्ट्स में सटीकता बनाए रखने और लीगल पेशेवरों को आवश्यक उच्च स्तर की डिटेल प्रदान करने में बेहतर है.”
GPT‑5.4 हमारा पहला जनरल-पर्पस मॉडल है जिसमें नेटिव कंप्यूटर-यूज़ क्षमताएँ हैं और यह डेवलपर्स और एजेंट्स दोनों के लिए एक बड़ा कदम है. यह उन डेवलपर्स के लिए वर्तमान में उपलब्ध सबसे अच्छा मॉडल है जो ऐसे एजेंट्स बना रहे हैं जो वेबसाइट्स और सॉफ्टवेयर सिस्टम्स में वास्तविक टास्क्स पूरा करते हैं.
हमने GPT‑5.4 को कंप्यूटर-यूज़ वर्कलोड्स की एक विस्तृत रेंज में उच्च प्रदर्शन देने के लिए डिज़ाइन किया है. यह Playwright जैसी लाइब्रेरीज़ के माध्यम से कंप्यूटर चलाने के लिए कोड लिखने में उत्कृष्ट है, साथ ही स्क्रीनशॉट्स के आधार पर माउस और कीबोर्ड कमांड भी जारी कर सकता है. इसका व्यवहार डेवलपर मैसेजेस के माध्यम से नियंत्रित किया जा सकता है, यानी डेवलपर्स इसे विशेष यूज़ केस के अनुसार समायोजित कर सकते हैं. डेवलपर्स कस्टम कन्फर्मेशन पॉलिसीज़ निर्धारित करके मॉडल के सेफ्टी व्यवहार को अलग-अलग जोखिम स्तरों के अनुसार कॉन्फ़िगर भी कर सकते हैं.
मॉडल का प्रदर्शन और लचीलापन उन बेंचमार्क्स में दिखाई देता है जो अलग-अलग सेटिंग्स में कंप्यूटर यूज़ को परखते हैं. OSWorld-Verified पर, जो स्क्रीनशॉट्स और कीबोर्ड/माउस एक्शन्स के माध्यम से डेस्कटॉप एनवायरनमेंट में नेविगेट करने की मॉडल की क्षमता को मापता है, GPT‑5.4 ने अत्याधुनिक 75.0% सफलता दर हासिल की सक्सेस रेट, GPT‑5.2’s से कहीं ज़्यादा 47.3%, और 72.4%.पर ह्यूमन परफ़ॉर्मेंस को पीछे छोड़ते हुए1
WebArena-Verified पर, जो ब्राउज़र उपयोग का परीक्षण करता है, GPT‑5.4 ने DOM और स्क्रीनशॉट-ड्रिवन इंटरैक्शन दोनों का उपयोग करते हुए 67.3% की अग्रणी सफलता दर हासिल की, जबकि GPT‑5.2 की सफलता दर 65.4% है. Online-Mind2Web पर, जो ब्राउज़र उपयोग का भी परीक्षण करता है, GPT‑5.4 केवल स्क्रीनशॉट-आधारित ऑब्ज़र्वेशन का उपयोग करके 92.8% की सफलता दर हासिल करता है, जो ChatGPT Atlas के Agent Mode की 70.9% सफलता दर से बेहतर है.
टूल यील्ड वह स्थिति होती है जब असिस्टेंट टूल के रिस्पॉन्स का इंतज़ार करने के लिए यील्ड करता है. अगर तीन टूल्स को पैरेलल में कॉल किया जाए और उसके बाद तीन और टूल्स को पैरेलल में कॉल किया जाए, तो यील्ड की संख्या दो होगी. टूल यील्ड्स, टूल कॉल्स की तुलना में लेटेंसी का बेहतर प्रॉक्सी होते हैं क्योंकि वे पैरेललाइज़ेशन के फायदों को दर्शाते हैं.
GPT‑5.4 ब्राउज़र इंटरफ़ेस के स्क्रीनशॉट्स की व्याख्या करता है और ईमेल भेजने तथा कैलेंडर इवेंट शेड्यूल करने के लिए कोऑर्डिनेट-आधारित क्लिकिंग के ज़रिए UI एलिमेंट्स के साथ इंटरैक्ट करता है.
GPT‑5.4 का सुधरा हुआ कंप्यूटर-यूज़ मॉडल की सुधरी हुई सामान्य विज़ुअल परसेप्शन क्षमताओं पर आधारित है. MMMU-Pro पर, जो किसी मॉडल की विज़ुअल समझ और रीज़निंग का एक टेस्ट है, GPT‑5.4 बिना टूल उपयोग के 81.2% सफलता दर हासिल करता है, जो GPT‑5.2 की तुलना में एक सुधार है 79.5%. बेहतर विज़ुअल परसेप्शन बेहतर डॉक्यूमेंट पार्सिंग क्षमताओं में भी बदलता है. OmniDocBench पर, रीज़निंग एफर्ट के बिना GPT‑5.4 ने औसत एरर 0.109 हासिल किया (जिसे मॉडल की प्रिडिक्शन और ग्राउंड ट्रुथ के बीच नॉर्मलाइज़्ड एडिट डिस्टेंस से मापा जाता है), जो GPT‑5.2 के 0.140 से बेहतर है.
MMMUPro को रीज़निंग एफर्ट xhigh पर सेट करके रन किया गया. OmniDocBench को रीज़निंग effort को none पर सेट करके रन किया गया, ताकि कम-लागत, कम-लेटेंसी परफ़ॉर्मेंस को दर्शाया जा सके.
हम घनी और हाई-रिज़ॉल्यूशन इमेजेस के लिए विज़ुअल समझ को भी बेहतर बना रहे हैं, जहाँ पूरी fidelity महत्वपूर्ण होती है. GPT‑5.4 से शुरू करते हुए, हम एक original इमेज इनपुट डिटेल(एक नई विंडो में खुलेगा) स्तर पेश कर रहे हैं, जो 10.24M कुल पिक्सल या 6000-पिक्सल अधिकतम डायमेंशन (जो भी कम हो) तक पूर्ण गुणवत्ता परसेप्शन को सपोर्ट करता है; high इमेज इनपुट डिटेल स्तर अब 2.56M कुल पिक्सल या 2048-पिक्सल अधिकतम डायमेंशन तक सपोर्ट करता है. API यूज़र्स के साथ शुरुआती टेस्टिंग में हमने original या high detail का उपयोग करने पर लोकलाइज़ेशन क्षमता, इमेज समझ और क्लिक एक्यूरेसी में मजबूत सुधार देखे.
“हमारे evals में, जहाँ ~30K HOA और प्रॉपर्टी टैक्स पोर्टल्स पर कंप्यूटर उपयोग प्रदर्शन मापा गया, GPT-5.4 ने पहले प्रयास में 95% सफलता दर हासिल की और तीन प्रयासों के भीतर 100% सफलता प्राप्त की, जबकि पिछले CUA मॉडलों के साथ यह ~73–79% थी. इसने ~70% कम tokens का उपयोग करते हुए सेशन्स लगभग ~3x तेज़ पूरे किए, जिससे बड़े पैमाने पर विश्वसनीयता और लागत दक्षता में महत्वपूर्ण सुधार हुआ.”
API में, डेवलपर्स अपडेटेड कंप्यूटर टूल का उपयोग करके इन क्षमताओं तक पहुँच सकते हैं। सुझाए गए सर्वोत्तम तरीकों के लिए कृपया हमारी अपडेटेड डॉक्यूमेंटेशन(एक नई विंडो में खुलेगा) देखें.
GPT‑5.4, GPT‑5.3‑Codex की कोडिंग ताकत को अग्रणी नॉलेज वर्क और कंप्यूटर-यूज़ क्षमताओं के साथ जोड़ता है, जो खास तौर पर लंबे समय तक चलने वाले टास्क्स में महत्वपूर्ण होती हैं जहाँ मॉडल टूल्स का उपयोग कर सकता है, इटरेट कर सकता है और कम मैनुअल हस्तक्षेप के साथ काम को आगे बढ़ा सकता है. यह SWE-Bench Pro पर GPT‑5.3‑Codex के बराबर या उससे बेहतर प्रदर्शन करता है, जबकि रीज़निंग एफर्ट्स में कम लेटेंसी बनाए रखता है.
हम अपने मॉडलों के प्रोडक्शन व्यवहार को देखकर और उसे ऑफ़लाइन सिमुलेट करके लेटेंसी का अनुमान लगाते हैं. लेटेंसी के इस अनुमान में टूल कॉल की अवधि (कोड एक्ज़ीक्यूशन समय), सैंपल किए गए tokens और इनपुट tokens शामिल होते हैं. वास्तविक दुनिया में लेटेंसी काफ़ी अलग हो सकती है और कई ऐसे कारकों पर निर्भर करती है जो हमारी सिमुलेशन में शामिल नहीं हैं. रीज़निंग प्रयासों को none से xhigh तक परीक्षण किया गया.
जब इसे चालू किया जाता है, तो Codex में /fast mode GPT‑5.4 के साथ 1.5x तक तेज़ टोकन वेग देता है. यह वही मॉडल और वही इंटेलिजेंस है, बस तेज़. इसका मतलब है कि यूज़र्स फ्लो में रहते हुए कोडिंग टास्क्स, इटरेशन और डिबगिंग को आगे बढ़ा सकते हैं. डेवलपर्स API के माध्यम से प्रायोरिटी प्रोसेसिंग(एक नई विंडो में खुलेगा) का उपयोग करके GPT‑5.4 को उसी तेज़ गति पर एक्सेस कर सकते हैं.
मूल्यांकन और आंतरिक टेस्टिंग में हमने पाया कि GPT‑5.4 जटिल frontend टास्क्स में उत्कृष्ट है, और हमारे पहले लॉन्च किए गए किसी भी मॉडल की तुलना में अधिक एस्थेटिक और अधिक कार्यात्मक परिणाम देता है.
मॉडल की बेहतर कंप्यूटर-यूज़ और कोडिंग क्षमताओं के साथ मिलकर काम करने का प्रदर्शन करने के लिए, हम “Playwright (Interactive)(एक नई विंडो में खुलेगा)” नाम का एक प्रयोगात्मक Codex स्किल भी जारी कर रहे हैं. इससे Codex वेब और Electron ऐप्स को विज़ुअली डिबग कर सकता है; यह जिस ऐप को बना रहा है, उसी समय उसे टेस्ट करने के लिए भी इस्तेमाल किया जा सकता है.
GPT‑5.4 से बनाया गया थीम पार्क सिमुलेशन गेम, एक ही हल्के-से निर्दिष्ट प्रॉम्प्ट से, ब्राउज़र प्ले-टेस्टिंग के लिए Playwright Interactive और आइसोमेट्रिक एसेट सेट के लिए इमेज जेनरेशन का उपयोग करते हुए. सिमुलेशन में टाइल-आधारित पाथ प्लेसमेंट, राइड और सीनरी का निर्माण, मेहमानों का पाथफाइंडिंग, कतारबंदी, और राइड चक्र शामिल हैं, जबकि पार्क मेट्रिक्स जैसे पैसा, मेहमानों की संख्या, खुशी, स्वच्छता, और रेटिंग इस बात के आधार पर बढ़ते या घटते हैं कि लेआउट कैसा प्रदर्शन करता है और मेहमान उस पर कैसे प्रतिक्रिया देते हैं. Playwright का उपयोग ब्राउज़र प्ले-टेस्ट्स को ऑटोमेट करने के लिए किया गया—पार्क को बनाकर और विस्तार करके, पाथ्स और अट्रैक्शन्स को जोड़कर और हटाकर, कैमरा नेविगेशन की जाँच करके, और कई राउंड्स के प्ले के दौरान यह सुनिश्चित करके कि गेस्ट्स, क्यूज़, राइड स्टेट्स और UI मेट्रिक्स सही तरीके से अपडेट हो रहे हैं.
प्रॉम्प्ट: $playwright-interactive और $imagegen का उपयोग करें. एक इंटरैक्टिव आइसोमेट्रिक थीम पार्क सिमुलेशन गेम बनाएं जिसे मैं ब्राउज़र में बना सकूँ और नेविगेट कर सकूँ. गेम के ओवरऑल विज़ुअल विज़न को सेट करने और गेम के एसेट्स जनरेट करने के लिए imagegen का उपयोग करें, जिनमें राइड्स, पाथ्स, टेरेन, पेड़, पानी, फूड स्टॉल्स, डेकोरेशन्स, बिल्डिंग्स, आइकॉन्स और UI इलस्ट्रेशन्स शामिल हों. दुनिया cohesive, पॉलिश्ड और विज़ुअली रिच लगनी चाहिए, और आइसोमेट्रिक पर्सपेक्टिव से अच्छी तरह काम करने वाली प्रीमियम आर्ट डायरेक्शन होनी चाहिए. मुझे पाथ्स जोड़ने और हटाने दें, अट्रैक्शन्स जोड़ने दें, सीनरी की पोज़िशन सेट करने दें, और गेस्ट एक्टिविटी, राइड स्टेटस और पार्क ग्रोथ मॉनिटर करते हुए पार्क में स्मूदली मूव करने दें. भरोसेमंद गेस्ट मूवमेंट, money, साफ़-सफाई, क्यूइंग और खुशी जैसे सरल पार्क मैनेजमेंट सिस्टम शामिल करें, और अनुभव को रफ प्रोटोटाइप की बजाय प्लेफुल, स्पष्ट और पूरा महसूस कराएँ. रियलिज़्म से ज़्यादा चार्म, रीडेबिलिटी और मजबूत गेम-फील को प्राथमिकता दें.
प्ले-टेस्टिंग के दौरान, कई राउंड्स के प्ले में पार्क बनाकर और विस्तार करके ज़रूर देखें, यह सुनिश्चित करें कि प्लेसमेंट और नेविगेशन स्मूदली काम करते हैं, कन्फर्म करें कि गेस्ट्स पार्क लेआउट और अट्रैक्शन्स पर प्रतिक्रिया देते हैं, और सुनिश्चित करें कि विज़ुअल्स, UI और इंटरैक्शन्स स्थिर और cohesive महसूस हों.
“हमारे इंजीनियर GPT-5.4 पाते हैं की पिछले मॉडलों की तुलना में अधिक प्राकृतिक और आत्मविश्वासी. यह अस्पष्ट समस्याओं पर बिना खुद पर दोबारा संदेह किए काम करता है और काम को आगे बढ़ाए रखने के लिए कार्यों को समानांतर रूप से चलाने में सक्रिय रहता है.”
GPT‑5.4 के साथ, हमने मॉडल्स के बाहरी टूल्स के साथ काम करने के तरीके को काफी बेहतर बनाया है. अब एजेंट्स बड़े टूल इकोसिस्टम में काम कर सकते हैं, सही टूल्स को अधिक भरोसेमंद तरीके से चुन सकते हैं और कम लागत व लेटेंसी के साथ मल्टी-स्टेप वर्कफ्लो पूरा कर सकते हैं.
API में GPT‑5.4 टूल सर्च(एक नई विंडो में खुलेगा) पेश करता है, जिससे कई टूल्स दिए जाने पर मॉडल्स अधिक कुशलता से काम कर सकते हैं.
पहले, जब किसी मॉडल को टूल्स दिए जाते थे, तो सभी टूल डिफिनिशन्स प्रॉम्प्ट में पहले से शामिल होती थीं. कई टूल्स वाले सिस्टम्स में इससे हर रिक्वेस्ट में हजारों—या कभी-कभी दसियों हजार—टोकन्स जुड़ जाते थे, जिससे लागत बढ़ती थी, रिस्पॉन्स धीमे हो जाते थे और कॉन्टेक्स्ट में ऐसी जानकारी भर जाती थी जिसका मॉडल कभी उपयोग भी नहीं कर सकता.
टूल सर्च के साथ, GPT‑5.4 को उपलब्ध टूल्स की एक हल्की सूची और टूल सर्च क्षमता दी जाती है. जब मॉडल को किसी टूल का उपयोग करना होता है, तो वह उस टूल की डिफिनिशन खोजकर उसी समय बातचीत में जोड़ सकता है.
यह तरीका टूल-हेवी वर्कफ्लो के लिए आवश्यक टोकन्स की संख्या को काफी कम कर देता है और कैश को सुरक्षित रखता है, जिससे रिक्वेस्ट तेज़ और सस्ती हो जाती हैं. इससे एजेंट्स बड़े टूल इकोसिस्टम के साथ भी भरोसेमंद तरीके से काम कर सकते हैं. MCP सर्वर्स, जिनमें टूल डिफिनिशन्स के दसियों हजार टोकन्स हो सकते हैं, के लिए यह दक्षता लाभ काफी बड़ा हो सकता है.
दक्षता में हुए सुधार को दिखाने के लिए, हमने Scale के MCP Atlas(एक नई विंडो में खुलेगा) बेंचमार्क के 250 टास्क का मूल्यांकन किया, जहाँ सभी 36 MCP सर्वर दो मोड में सक्षम थे: (1) हर MCP फ़ंक्शन को सीधे मॉडल कॉन्टेक्स्ट में उपलब्ध कराना, और (2) सभी MCP सर्वरों को टूल सर्च के पीछे रखना. टूल-सर्च कॉन्फ़िगरेशन ने कुल टोकन उपयोग को 47% तक कम कर दिया, जबकि एक्यूरेसी समान बनी रही.
उदाहरण टोकन काउंट MCP-Atlas पब्लिक डेटासेट के 250 टास्क के औसत से लिए गए हैं.
GPT‑5.4 टूल कॉलिंग को भी बेहतर बनाता है, जिससे रीज़निंग के दौरान टूल्स का कब और कैसे उपयोग करना है यह तय करना अधिक सटीक और कुशल हो जाता है, खासकर API में. GPT‑5.2 की तुलना में, यह Toolathlon पर कम टर्न्स में अधिक एक्यूरेसी हासिल करता है, जो एक बेंचमार्क है जो यह परखता है कि AI एजेंट्स वास्तविक दुनिया के टूल्स और APIs का उपयोग करके मल्टी-स्टेप टास्क्स को कितना अच्छी तरह पूरा कर सकते हैं. उदाहरण के लिए, एक एजेंट को ईमेल पढ़ने, असाइनमेंट अटैचमेंट्स निकालने, उन्हें अपलोड करने, उनका मूल्यांकन करने और परिणामों को स्प्रेडशीट में रिकॉर्ड करने की आवश्यकता हो सकती है.
टूल यील्ड वह स्थिति होती है जब असिस्टेंट टूल के रिस्पॉन्स का इंतज़ार करने के लिए यील्ड करता है. अगर तीन टूल्स को पैरेलल में कॉल किया जाए और उसके बाद तीन और टूल्स को पैरेलल में कॉल किया जाए, तो यील्ड की संख्या दो होगी. टूल यील्ड्स, टूल कॉल्स की तुलना में लेटेंसी का बेहतर प्रॉक्सी होते हैं क्योंकि वे पैरेललाइज़ेशन के फायदों को दर्शाते हैं.
लेटेंसी-संवेदनशील यूज़ केस में, जहाँ रीज़निंग effort को None रखना बेहतर माना जाता है, GPT‑5.4 अपने पूर्ववर्तियों से भी बेहतर प्रदर्शन करता है.
τ2-bench(एक नई विंडो में खुलेगा) में, मॉडल को कस्टमर सर्विस टास्क पूरा करने के लिए टूल्स का उपयोग करना होता है, जहाँ एक सिम्युलेटेड यूज़र हो सकता है जो बातचीत कर सकता है और वर्ल्ड स्टेट पर एक्शन ले सकता है. रीजनिंग एफर्ट None पर सेट किया गया था.
GPT‑5.4 एजेंटिक वेब सर्च में बेहतर है. BrowseComp पर, जो यह मापता है कि AI एजेंट्स कठिन-से-खोजी जाने वाली जानकारी पाने के लिए वेब को कितनी लगातार ब्राउज़ कर सकते हैं, GPT‑5.4 ने GPT‑5.2 की तुलना में 17%abs की छलांग लगाई, और GPT‑5.4 Pro 89.3% का नया स्टेट-ऑफ़-द-आर्ट सेट करता है.
व्यवहार में इसका मतलब है कि GPT‑5.4 Thinking उन सवालों के जवाब देने में ज्यादा मजबूत है जिनके लिए वेब पर कई स्रोतों से जानकारी एक साथ जुटानी पड़ती है. यह कई राउंड में लगातार खोज करके सबसे प्रासंगिक स्रोतों की पहचान कर सकता है, खासकर “ढेर में सुई ढूँढने जैसा” जैसे प्रश्नों के लिए, और उन्हें एक स्पष्ट, अच्छी तरह तर्कसंगत उत्तर में संयोजित कर सकता है.
BrowseComp में, हमने सर्च ब्लॉकलिस्ट का उपयोग किया जिसमें उन वेबसाइट्स को मूल्यांकन से बाहर रखा गया था जिनमें बेंचमार्क के उत्तर मौजूद थे, ताकि कंटैमिनेशन रोका जा सके और प्रदर्शन का निष्पक्ष माप सुनिश्चित किया जा सके. GPT‑5.4 को GPT‑5.2 की तुलना में बाद की तारीख पर मापा गया था, इसलिए स्कोर्स मॉडल, हमारे सर्च सिस्टम और इंटरनेट की स्थिति में हुए बदलावों को दर्शाते हैं. GPT‑5.4 का परीक्षण एक लंबी और अपडेट की गई ब्लॉकलिस्ट के साथ किया गया था. मॉडल्स ChatGPT सर्च टूल का उपयोग करते हैं, जिसमें API सर्च की तुलना में छोटे अंतर हो सकते हैं.
“मल्टी-स्टेप टूल उपयोग के लिए GPT-5.4 xhigh नया स्टेट-ऑफ-द-आर्ट है. Zapier इंडस्ट्री के सबसे सख्त टूल उपयोग बेंचमार्क्स में से कुछ चलाता है, जहाँ मॉडलों को सैकड़ों उन्नत वास्तविक-विश्व वर्कफ़्लो में टेस्ट किया जाता है. GPT-5.4 ने वह काम पूरा किया जहाँ पिछले मॉडल हार मान लेते थे — अब तक का सबसे अधिक दृढ़ मॉडल.”
जैसे Codex काम शुरू करते समय अपना तरीका बताता है, वैसे ही ChatGPT में GPT‑5.4 Thinking अब लंबे और अधिक जटिल क्वेरीज के लिए प्रीएंबल के साथ अपने काम का आउटलाइन देगा. आप बीच में ही अतिरिक्त निर्देश जोड़ सकते हैं या उसकी दिशा को समायोजित कर सकते हैं. इससे मॉडल को ठीक उसी परिणाम की ओर मार्गदर्शित करना आसान हो जाता है जो आप चाहते हैं, बिना दोबारा शुरू किए या कई अतिरिक्त टर्न्स की आवश्यकता के. यह फीचर अभी chatgpt.com(एक नई विंडो में खुलेगा) और Android ऐप पर उपलब्ध है, और जल्द ही iOS ऐप पर भी आएगा.
मॉडल कठिन टास्क्स पर अधिक समय तक सोच सकता है, जबकि बातचीत के पहले के स्टेप्स की मजबूत समझ बनाए रखता है. इससे यह लंबे वर्कफ्लो और अधिक जटिल प्रॉम्प्ट्स को संभाल सकता है, और पूरे समय उत्तरों को सुसंगत और प्रासंगिक बनाए रखता है.
इस वीडियो की स्पीड उदाहरण के तौर पर बढ़ा दी गई थी।
पिछले कुछ महीनों में, हमने GPT‑5.4 को डिप्लॉयमेंट के लिए तैयार करते हुए GPT‑5.3‑Codex के साथ पेश किए गए सेफगार्ड्स को लगातार बेहतर बनाया है. GPT‑5.3‑Codex की तरह, हम GPT‑5.4 को अपने Preparedness Framework के तहत उच्च साइबर क्षमता के रूप में मानते हैं, और इसे सिस्टम कार्ड में दस्तावेज़ित संबंधित सुरक्षा उपायों के साथ डिप्लॉय कर रहे हैं. इनमें विस्तारित साइबर सेफ्टी स्टैक शामिल हैं, जिनमें मॉनिटरिंग सिस्टम्स, ट्रस्टेड एक्सेस कंट्रोल्स, और ज़ीरो डेटा रिटेंशन (ZDR) सरफेसेज़ पर ग्राहकों के लिए उच्च-जोखिम वाली रिक्वेस्ट्स के लिए एसिंक्रोनस ब्लॉकिंग शामिल है, साथ ही व्यापक सुरक्षा इकोसिस्टम में निरंतर निवेश भी.
क्योंकि साइबरसिक्योरिटी क्षमताएँ स्वभावतः ड्यूल-यूज़ होती हैं, इसलिए हम अपनी नीतियों और क्लासिफ़ायर्स को लगातार कैलिब्रेट करते हुए डिप्लॉयमेंट में सावधानीपूर्ण दृष्टिकोण बनाए रखते हैं. ZDR surfaces पर कुछ ग्राहकों के लिए, रिक्वेस्ट-लेवल ब्लॉकिंग अभी भी हमारे साइबर जोखिम न्यूनीकरण स्टैक का हिस्सा है; और क्योंकि क्लासिफ़ायर्स अभी भी बेहतर हो रहे हैं, इसलिए इन सेफगार्ड्स को और परिष्कृत करते समय कुछ फॉल्स पॉज़िटिव्स हो सकते हैं. इन अपडेट्स का उद्देश्य यह बेहतर बनाना है कि सेफगार्ड्स व्यवहार में कैसे काम करते हैं, जिसमें अनावश्यक अस्वीकृतियों और बहुत अधिक सावधानीभरे जवाब को कम करना शामिल है, जबकि दुरुपयोग के खिलाफ मजबूत सुरक्षा बनाए रखना भी.
हमने यह बेहतर समझने के लिए कि मॉडल कैसे रीज़न करते हैं और संभावित दुरुपयोग का पता लगाने में कैसे मदद मिल सकती है, Chain-of-Thought (CoT) मॉनिटरएबिलिटी पर अपनी सेफ्टी रिसर्च जारी रखी है. इस काम के हिस्से के रूप में, हम एक नया ओपन-सोर्स मूल्यांकन, CoT कंट्रोलएबिलिटी, पेश कर रहे हैं, जो यह मापता है कि क्या मॉडल मॉनिटरिंग से बचने के लिए जानबूझकर अपनी रीज़निंग को अस्पष्ट कर सकते हैं। हमने पाया कि GPT‑5.4 Thinking की अपने CoT को नियंत्रित करने की क्षमता कम है, जो सुरक्षा के लिए एक सकारात्मक गुण है. यह संकेत देता है कि मॉडल अपनी रीज़निंग को छिपाने की क्षमता नहीं रखता और CoT मॉनिटरिंग एक प्रभावी सुरक्षा टूल बना रहता है.
GPT‑5.4 आज ChatGPT और Codex में धीरे-धीरे रोलआउट हो रहा है. API में GPT‑5.4 अब gpt-5.4 के रूप में उपलब्ध है. GPT‑5.4 Pro API में भी gpt-5.4-pro के रूप में उपलब्ध है डेवलपर्स के लिए, जिन्हें सबसे कॉम्प्लेक्स टास्क्स पर अधिकतम परफ़ॉर्मेंस चाहिए.
ChatGPT में, GPT‑5.4 Thinking आज से ChatGPT Plus, Team, और Pro यूज़र्स के लिए उपलब्ध है, GPT‑5.2 को बदलते हुए. Thinking. GPT‑5.2 Thinking पेड यूज़र्स के लिए मॉडल पिकर में Legacy Models सेक्शन के तहत तीन महीने तक उपलब्ध रहेगा, जिसके बाद इसे 5 जून, 2026 को रिटायर कर दिया जाएगा. Enterprise और Edu प्लान्स वाले लोग एडमिन सेटिंग्स के ज़रिए अर्ली एक्सेस इनेबल कर सकते हैं. GPT‑5.4 Pro, Pro और Enterprise प्लान्स के लिए उपलब्ध है. कॉन्टेक्स्ट विंडो(एक नई विंडो में खुलेगा) ChatGPT में GPT‑5.4 के लिए Thinking, GPT‑5.2 Thinking से अपरिवर्तित रहता है.
GPT‑5.4 हमारा पहला मुख्य रीज़निंग मॉडल है जो GPT‑5.3‑codex की अत्याधुनिक कोडिंग क्षमताओं को शामिल करता है और जो ChatGPT, the API और Codex में रोलआउट हो रहा है. हम इसे GPT‑5.4 कह रहे हैं ताकि उस प्रगति को दर्शाया जा सके और Codex का उपयोग करते समय मॉडलों के बीच चयन को सरल बनाया जा सके. समय के साथ आप उम्मीद कर सकते हैं कि हमारे Instant मॉडल्स और Thinking मॉडल्स अलग-अलग गति से विकसित होंगे.
Codex में GPT‑5.4 में 1M कॉन्टेक्स्ट विंडो के लिए एक्सपेरिमेंटल सपोर्ट शामिल है। डेवलपर्स model_context_window और model_auto_compact_token_limit को कॉन्फ़िगर करके इसे आज़मा सकते हैं. जो रिक्वेस्ट्स मानक 272K कॉन्टेक्स्ट विंडो से अधिक होती हैं, वे उपयोग सीमा के विरुद्ध सामान्य दर से 2x पर गिनी जाती हैं.
API में GPT‑5.4 की प्रति टोकन कीमत GPT‑5.2 से अधिक है ताकि इसकी बेहतर क्षमताओं को दर्शाया जा सके, जबकि इसकी अधिक टोकन दक्षता कई टास्क्स के लिए आवश्यक कुल टोकन्स की संख्या को कम करने में मदद करती है. Batch और Flex प्राइसिंग मानक API दर के आधे पर उपलब्ध हैं, जबकि प्रायोरिटी प्रोसेसिंग मानक API दर के दोगुने पर उपलब्ध है.
API मॉडल | इनपुट प्राइस | कैश्ड इनपुट प्राइस | आउटपुट प्राइस |
gpt-5.2 | $1.75 / M टोकन्स | $0.175 / M टोकन्स | $14 / M टोकन्स |
gpt-5.4 | $2.50 / M टोकन्स | $0.25 / M टोकन्स | $15 / M टोकन्स |
gpt-5.2-pro | $21 / M टोकन्स | - | $168 / M टोकन्स |
gpt-5.4-pro | $30 / M टोकन्स | - | $180 / M टोकन्स |
पेशेवर
इवैल | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
इन्वेस्टमेंट बैंकिंग मॉडलिंग टास्क्स (आंतरिक) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
कोडिंग
इवैल | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.30% | 62.20% | — |
कंप्यूटर यूज़ और विज़न
इवैल | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (कोई टूल नहीं) | 81.2% | — | — | 79.5% | — |
MMMU Pro (टूल्स के साथ) | 82.1% | — | — | 80.4% | — |
टूल उपयोग
इवैल | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-बेंच टेलीकॉम | 98.9% | — | — | 98.7% | — |
शैक्षणिक
इवैल | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
अत्याधुनिक साइंस रिसर्च | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath टियर 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath टियर 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA डायमंड | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
Humanity's Last Exam (कोई टूल नहीं) | 39.8% | 42.7% | — | 34.5% | 36.6% |
Humanity's Last Exam (टूल्स के साथ) | 52.1% | 58.7% | — | 45.5% | 50.0% |
लंबा कॉन्टेक्स्ट
इवैल | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks parents 0–128K (सटीकता) | 89.8% | — | — | 89.0% | — |
Graphwalks parents 256K–1M (सटीकता) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-नीडल 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
एब्सट्रैक्ट रीज़निंग
इवैल | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (सत्यापित) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (Verified) | 73.3% | 83.3% | — | 52.9% | 54.2% (high) |
रीज़निंग के बिना इवैल्स
इवैल | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (नॉर्मलाइज़्ड एडिट डिस्टेंस) | 0.109 | 0.140 | — |
Tau2-बेंच टेलीकॉम | 64.3% | 57.2% | 43.6% |
इवैल्युएशन्स को रीज़निंग एफर्ट xhigh पर सेट करके रन किया गया, सिवाय उन जगहों के जहाँ अन्यथा निर्दिष्ट किया गया हो. बेंचमार्क्स एक शोध वातावरण में किए गए थे, जो कुछ मामलों में प्रोडक्शन ChatGPT से थोड़ा अलग परिणाम दे सकते हैं.
लेखक
फ़ुटनोट
1 मानव प्रदर्शन OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(एक नई विंडो में खुलेगा) में रिपोर्ट किया गया है.


