5 मार्च 2026

पेश हैं GPT‑5.4

प्रोफेशनल काम के लिए डिज़ाइन किया गया

लोड किया जा रहा है...

आज हम ChatGPT में GPT‑5.4 रिलीज़ कर रहे हैं (GPT‑5.4 Thinking के रूप में), API और Codex में. यह प्रोफेशनल काम के लिए हमारा अब तक का सबसे सक्षम और कुशल फ्रंटियर मॉडल है. हम ChatGPT और API में GPT‑5.4 Pro भी रिलीज़ कर रहे हैं, उन लोगों के लिए जो जटिल टास्क्स पर अधिकतम परफॉर्मेंस चाहते हैं.

GPT‑5.4 हमारे हाल के रीज़निंग, कोडिंग और एजेंटिक वर्कफ्लो में हुई प्रगति के बेहतरीन पहलुओं को एक ही फ्रंटियर मॉडल में एक साथ लाता है. यह GPT‑5.3‑Codex⁠ की इंडस्ट्री-लीडिंग कोडिंग क्षमताओं को शामिल करता है और साथ ही यह भी बेहतर बनाता है कि मॉडल टूल्स, सॉफ़्टवेयर एनवायरनमेंट्स और स्प्रेडशीट्स, प्रेज़ेंटेशन तथा डॉक्यूमेंट्स से जुड़े प्रोफेशनल टास्क्स में कैसे काम करता है. इसका परिणाम एक ऐसा मॉडल है जो जटिल वास्तविक काम को सटीक, प्रभावी और कुशल तरीके से पूरा करता है—कम आगे-पीछे की बातचीत में वही परिणाम देता है जो आपने माँगा था.

ChatGPT में, GPT‑5.4 Thinking अब अपनी सोचने की प्रक्रिया का एक शुरुआती प्लान दे सकता है, ताकि आप काम करते समय बीच में ही दिशा समायोजित कर सकें जब यह काम कर रहा हो, और बिना अतिरिक्त टर्न्स के ऐसा अंतिम आउटपुट पा सकें जो आपकी ज़रूरत के अधिक करीब हो. GPT‑5.4 Thinking डीप वेब रिसर्च, को भी बेहतर बनाता है, खासकर बहुत ही विशिष्ट क्वेरीज़ के लिए, और उन सवालों के लिए जिनमें लंबे समय तक सोचने की ज़रूरत होती है, कॉन्टेक्स्ट को बेहतर बनाए रखता है. मिलकर, ये सुधार ऐसे उच्च-गुणवत्ता वाले उत्तर देते हैं जो तेज़ी से मिलते हैं और दिए गए टास्क के लिए प्रासंगिक बने रहते हैं.

Codex और API में, GPT‑5.4 हमारा पहला जनरल-पर्पस मॉडल है जिसे नेटिव, अत्याधुनिक कंप्यूटर-यूज़ क्षमताओं के साथ जारी किया गया है, जिससे एजेंट्स कंप्यूटर चला सकते हैं और अलग-अलग ऐप्लिकेशन्स में जटिल वर्कफ्लो पूरा कर सकते हैं. यह 1M टोकन्स तक का कॉन्टेक्स्ट सपोर्ट करता है, जिससे एजेंट्स लंबे समयावधि वाले टास्क्स की योजना बना सकते हैं, उन्हें पूरा कर सकते हैं और सत्यापित कर सकते हैं. GPT‑5.4 टूल सर्च के साथ बड़े टूल और कनेक्टर इकोसिस्टम में मॉडल्स के काम करने के तरीके को भी बेहतर बनाता है, जिससे एजेंट्स सही टूल्स को अधिक कुशलता से खोज और उपयोग कर सकते हैं, बिना इंटेलिजेंस से समझौता किए. अंत में, GPT‑5.4 अब तक हमारा सबसे टोकन-एफिशिएंट रीज़निंग मॉडल है, जो GPT‑5.2 की तुलना में समस्याएँ हल करने के लिए काफ़ी कम टोकन्स का उपयोग करता है—जिससे टोकन उपयोग कम होता है और गति बढ़ती है.

सामान्य रीज़निंग, कोडिंग और प्रोफेशनल नॉलेज वर्क में हुई प्रगति के साथ मिलकर, GPT‑5.4 ChatGPT, API और Codex में अधिक विश्वसनीय एजेंट्स, तेज़ डेवलपर वर्कफ्लो और उच्च-गुणवत्ता वाले आउटपुट संभव बनाता है.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (जीत या टाई)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.80%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.30%	65.8%

*पहले 64.7% के रूप में रिपोर्ट किया गया था. GPT‑5.3‑Codex मूल इमेज रेज़ोल्यूशन को प्रिज़र्व करने वाले नए पेश किए गए API पैरामीटर के साथ 74.0% हासिल करता है.

नॉलेज वर्क

GPT‑5.2 की क्षमताओं पर आगे निर्माण करते हुए सामान्य रीज़निंग क्षमताओं के साथ, GPT‑5.4 उन वास्तविक दुनिया के टास्क्स पर, जो पेशेवरों के लिए मायने रखते हैं, और भी अधिक सुसंगत और परिष्कृत परिणाम देता है.

GDPval⁠ पर, जो 44 व्यवसायों में अच्छी तरह से परिभाषित नॉलेज वर्क तैयार करने की एजेंट्स की क्षमताओं का परीक्षण करता है, GPT‑5.4 एक नया स्टेट ऑफ़ द आर्ट हासिल करता है, और 83.0% तुलनाओं में उद्योग के पेशेवरों के बराबर या उनसे बेहतर है, जबकि GPT‑5.2 के लिए यह 71.0% है.

GDPval में, मॉडल्स अच्छी तरह परिभाषित नॉलेज वर्क को पूरा करने की कोशिश करते हैं, जो U.S. GDP में योगदान देने वाली शीर्ष नौ इंडस्ट्रीज़ के 44 पेशों को कवर करता है. टास्क्स वास्तविक कार्य आउटपुट मांगते हैं, जैसे सेल्स प्रेज़ेंटेशन्स, अकाउंटिंग स्प्रेडशीट्स, अर्जेंट केयर शेड्यूल्स, मैन्युफैक्चरिंग डायग्राम्स या छोटे वीडियो. GPT‑5.4 के लिए रीज़निंग एफर्ट xhigh पर और GPT‑5.2 के लिए heavy पर सेट किया गया था (ChatGPT में थोड़ा कम स्तर).

“GPT-5.4 वह सबसे अच्छा मॉडल है जिसे हमने अब तक आज़माया है. यह अब हमारे APEX-Agents बेंचमार्क के लीडरबोर्ड पर शीर्ष पर है, जो प्रोफेशनल सर्विसेज़ के काम के लिए मॉडल के प्रदर्शन को मापता है. यह स्लाइड डेक्स, फाइनेंशियल मॉडल्स और लीगल विश्लेषण जैसे लॉन्ग-होराइजन डिलिवरेबल्स बनाने में उत्कृष्ट है, और प्रतिस्पर्धी फ्रंटियर मॉडलों की तुलना में तेज़ और कम लागत पर शीर्ष प्रदर्शन देता है.”

— Brendan Foody, CEO, Mercor

हमने GPT‑5.4 में सुधार पर विशेष ध्यान दिया स्प्रेडशीट्स, प्रेज़ेंटेशन और डॉक्यूमेंट्स बनाने और संपादित करने की क्षमता. स्प्रेडशीट मॉडलिंग टास्क्स के एक आंतरिक बेंचमार्क पर, जो एक जूनियर इन्वेस्टमेंट बैंकिंग एनालिस्ट कर सकता है, GPT‑5.4 ने औसत 87.5% स्कोर हासिल किया, जबकि GPT‑5.2 का स्कोर 68.4% था. प्रेज़ेंटेशन मूल्यांकन प्रॉम्प्ट्स के एक सेट पर, मानव रेटर्स ने 68.0% मामलों में GPT‑5.4 की प्रेज़ेंटेशन्स को GPT‑5.2 की तुलना में अधिक पसंद किया, बेहतर एस्थेटिक्स, अधिक विज़ुअल विविधता और इमेज जनरेशन के अधिक प्रभावी उपयोग के कारण.

GPT-5.2 vs GPT-5.4 के स्प्रेडशीट आउटपुट का साइड-बाय-साइड उदाहरण

दस्तावेज़ रीज़निंग एफर्ट को xhigh पर सेट करके जनरेट किए गए थे।

आप ChatGPT में GPT‑5.4 का उपयोग करके इन क्षमताओं को आज़मा सकते हैं. Thinking या Pro यदि आप Enterprise ग्राहक हैं, तो हम हमारे नए जारी किए गए ChatGPT for Excel और Google Sheets प्लगइन्स⁠(एक नई विंडो में खुलेगा) का उपयोग करने की सलाह देते हैं, जिसे आज ही लॉन्च किया गया है. हमने Codex और API में उपलब्ध अपने स्प्रेडशीट⁠(एक नई विंडो में खुलेगा) और प्रेज़ेंटेशन स्किल्स⁠(एक नई विंडो में खुलेगा) को भी अपडेट किया है.

GPT‑5.4 को वास्तविक दुनिया के काम में बेहतर बनाने के लिए, हमने हैलुसिनेशन्स और एरर्स को कम करने की दिशा में अपनी प्रगति जारी रखी. GPT‑5.4 अब तक का हमारा सबसे अधिक तथ्यात्मक मॉडल है: डी-आइडेंटिफाइड प्रॉम्प्ट्स के एक सेट पर, जहाँ यूज़र्स ने तथ्यात्मक एरर्स को फ्लैग किया था, GPT‑5.4 के GPT‑5.2 की तुलना में इसके व्यक्तिगत दावे 33% कम गलत होने की संभावना रखते हैं और इसके पूरे उत्तरों में किसी भी त्रुटि के होने की संभावना 18% कम है।

“GPT-5.4 दस्तावेज़-प्रधान कानूनी काम के लिए एक नया मानक स्थापित करता है. हमारे BigLaw Bench eval पर, इसका स्कोर 91% था. अन्य मॉडलों की तुलना में, GPT-5.4 वर्तमान में जटिल लेन-देन विश्लेषण को व्यवस्थित करने, लंबे कॉन्ट्रैक्ट्स में सटीकता बनाए रखने और लीगल पेशेवरों को आवश्यक उच्च स्तर की डिटेल प्रदान करने में बेहतर है.”

— Niko Grupen, Harvey में एप्लाइड रिसर्च के प्रमुख

कंप्यूटर यूज़ और विज़न

GPT‑5.4 हमारा पहला जनरल-पर्पस मॉडल है जिसमें नेटिव कंप्यूटर-यूज़ क्षमताएँ हैं और यह डेवलपर्स और एजेंट्स दोनों के लिए एक बड़ा कदम है. यह उन डेवलपर्स के लिए वर्तमान में उपलब्ध सबसे अच्छा मॉडल है जो ऐसे एजेंट्स बना रहे हैं जो वेबसाइट्स और सॉफ्टवेयर सिस्टम्स में वास्तविक टास्क्स पूरा करते हैं.

हमने GPT‑5.4 को कंप्यूटर-यूज़ वर्कलोड्स की एक विस्तृत रेंज में उच्च प्रदर्शन देने के लिए डिज़ाइन किया है. यह Playwright जैसी लाइब्रेरीज़ के माध्यम से कंप्यूटर चलाने के लिए कोड लिखने में उत्कृष्ट है, साथ ही स्क्रीनशॉट्स के आधार पर माउस और कीबोर्ड कमांड भी जारी कर सकता है. इसका व्यवहार डेवलपर मैसेजेस के माध्यम से नियंत्रित किया जा सकता है, यानी डेवलपर्स इसे विशेष यूज़ केस के अनुसार समायोजित कर सकते हैं. डेवलपर्स कस्टम कन्फर्मेशन पॉलिसीज़ निर्धारित करके मॉडल के सेफ्टी व्यवहार को अलग-अलग जोखिम स्तरों के अनुसार कॉन्फ़िगर भी कर सकते हैं.

मॉडल का प्रदर्शन और लचीलापन उन बेंचमार्क्स में दिखाई देता है जो अलग-अलग सेटिंग्स में कंप्यूटर यूज़ को परखते हैं. OSWorld-Verified पर, जो स्क्रीनशॉट्स और कीबोर्ड/माउस एक्शन्स के माध्यम से डेस्कटॉप एनवायरनमेंट में नेविगेट करने की मॉडल की क्षमता को मापता है, GPT‑5.4 ने अत्याधुनिक 75.0% सफलता दर हासिल की सक्‍सेस रेट, GPT‑5.2’s से कहीं ज़्यादा 47.3%, और 72.4%.पर ह्यूमन परफ़ॉर्मेंस को पीछे छोड़ते हुए¹

WebArena-Verified पर, जो ब्राउज़र उपयोग का परीक्षण करता है, GPT‑5.4 ने DOM और स्क्रीनशॉट-ड्रिवन इंटरैक्शन दोनों का उपयोग करते हुए 67.3% की अग्रणी सफलता दर हासिल की, जबकि GPT‑5.2 की सफलता दर 65.4% है. Online-Mind2Web पर, जो ब्राउज़र उपयोग का भी परीक्षण करता है, GPT‑5.4 केवल स्क्रीनशॉट-आधारित ऑब्ज़र्वेशन का उपयोग करके 92.8% की सफलता दर हासिल करता है, जो ChatGPT Atlas के Agent Mode की 70.9% सफलता दर से बेहतर है.

टूल यील्ड वह स्थिति होती है जब असिस्टेंट टूल के रिस्पॉन्स का इंतज़ार करने के लिए यील्ड करता है. अगर तीन टूल्स को पैरेलल में कॉल किया जाए और उसके बाद तीन और टूल्स को पैरेलल में कॉल किया जाए, तो यील्ड की संख्या दो होगी. टूल यील्ड्स, टूल कॉल्स की तुलना में लेटेंसी का बेहतर प्रॉक्सी होते हैं क्योंकि वे पैरेललाइज़ेशन के फायदों को दर्शाते हैं.

GPT‑5.4 ब्राउज़र इंटरफ़ेस के स्क्रीनशॉट्स की व्याख्या करता है और ईमेल भेजने तथा कैलेंडर इवेंट शेड्यूल करने के लिए कोऑर्डिनेट-आधारित क्लिकिंग के ज़रिए UI एलिमेंट्स के साथ इंटरैक्ट करता है.

GPT‑5.4 का सुधरा हुआ कंप्यूटर-यूज़ मॉडल की सुधरी हुई सामान्य विज़ुअल परसेप्शन क्षमताओं पर आधारित है. MMMU-Pro पर, जो किसी मॉडल की विज़ुअल समझ और रीज़निंग का एक टेस्ट है, GPT‑5.4 बिना टूल उपयोग के 81.2% सफलता दर हासिल करता है, जो GPT‑5.2 की तुलना में एक सुधार है 79.5%. बेहतर विज़ुअल परसेप्शन बेहतर डॉक्यूमेंट पार्सिंग क्षमताओं में भी बदलता है. OmniDocBench पर, रीज़निंग एफर्ट के बिना GPT‑5.4 ने औसत एरर 0.109 हासिल किया (जिसे मॉडल की प्रिडिक्शन और ग्राउंड ट्रुथ के बीच नॉर्मलाइज़्ड एडिट डिस्टेंस से मापा जाता है), जो GPT‑5.2 के 0.140 से बेहतर है.

MMMUPro को रीज़निंग एफर्ट xhigh पर सेट करके रन किया गया. OmniDocBench को रीज़निंग effort को none पर सेट करके रन किया गया, ताकि कम-लागत, कम-लेटेंसी परफ़ॉर्मेंस को दर्शाया जा सके.

हम घनी और हाई-रिज़ॉल्यूशन इमेजेस के लिए विज़ुअल समझ को भी बेहतर बना रहे हैं, जहाँ पूरी fidelity महत्वपूर्ण होती है. GPT‑5.4 से शुरू करते हुए, हम एक original इमेज इनपुट डिटेल⁠(एक नई विंडो में खुलेगा) स्तर पेश कर रहे हैं, जो 10.24M कुल पिक्सल या 6000-पिक्सल अधिकतम डायमेंशन (जो भी कम हो) तक पूर्ण गुणवत्ता परसेप्शन को सपोर्ट करता है; high इमेज इनपुट डिटेल स्तर अब 2.56M कुल पिक्सल या 2048-पिक्सल अधिकतम डायमेंशन तक सपोर्ट करता है. API यूज़र्स के साथ शुरुआती टेस्टिंग में हमने original या high detail का उपयोग करने पर लोकलाइज़ेशन क्षमता, इमेज समझ और क्लिक एक्यूरेसी में मजबूत सुधार देखे.

“हमारे evals में, जहाँ ~30K HOA और प्रॉपर्टी टैक्स पोर्टल्स पर कंप्यूटर उपयोग प्रदर्शन मापा गया, GPT-5.4 ने पहले प्रयास में 95% सफलता दर हासिल की और तीन प्रयासों के भीतर 100% सफलता प्राप्त की, जबकि पिछले CUA मॉडलों के साथ यह ~73–79% थी. इसने ~70% कम tokens का उपयोग करते हुए सेशन्स लगभग ~3x तेज़ पूरे किए, जिससे बड़े पैमाने पर विश्वसनीयता और लागत दक्षता में महत्वपूर्ण सुधार हुआ.”

— Dod Fraser, CEO, Mainstay

API में, डेवलपर्स अपडेटेड कंप्यूटर टूल का उपयोग करके इन क्षमताओं तक पहुँच सकते हैं। सुझाए गए सर्वोत्तम तरीकों के लिए कृपया हमारी अपडेटेड डॉक्यूमेंटेशन⁠(एक नई विंडो में खुलेगा) देखें.

कोडिंग

GPT‑5.4, GPT‑5.3‑Codex की कोडिंग ताकत को अग्रणी नॉलेज वर्क और कंप्यूटर-यूज़ क्षमताओं के साथ जोड़ता है, जो खास तौर पर लंबे समय तक चलने वाले टास्क्स में महत्वपूर्ण होती हैं जहाँ मॉडल टूल्स का उपयोग कर सकता है, इटरेट कर सकता है और कम मैनुअल हस्तक्षेप के साथ काम को आगे बढ़ा सकता है. यह SWE-Bench Pro पर GPT‑5.3‑Codex के बराबर या उससे बेहतर प्रदर्शन करता है, जबकि रीज़निंग एफर्ट्स में कम लेटेंसी बनाए रखता है.

हम अपने मॉडलों के प्रोडक्शन व्यवहार को देखकर और उसे ऑफ़लाइन सिमुलेट करके लेटेंसी का अनुमान लगाते हैं. लेटेंसी के इस अनुमान में टूल कॉल की अवधि (कोड एक्ज़ीक्यूशन समय), सैंपल किए गए tokens और इनपुट tokens शामिल होते हैं. वास्तविक दुनिया में लेटेंसी काफ़ी अलग हो सकती है और कई ऐसे कारकों पर निर्भर करती है जो हमारी सिमुलेशन में शामिल नहीं हैं. रीज़निंग प्रयासों को none से xhigh तक परीक्षण किया गया.

जब इसे चालू किया जाता है, तो Codex में /fast mode GPT‑5.4 के साथ 1.5x तक तेज़ टोकन वेग देता है. यह वही मॉडल और वही इंटेलिजेंस है, बस तेज़. इसका मतलब है कि यूज़र्स फ्लो में रहते हुए कोडिंग टास्क्स, इटरेशन और डिबगिंग को आगे बढ़ा सकते हैं. डेवलपर्स API के माध्यम से प्रायोरिटी प्रोसेसिंग⁠(एक नई विंडो में खुलेगा) का उपयोग करके GPT‑5.4 को उसी तेज़ गति पर एक्सेस कर सकते हैं.

मूल्यांकन और आंतरिक टेस्टिंग में हमने पाया कि GPT‑5.4 जटिल frontend टास्क्स में उत्कृष्ट है, और हमारे पहले लॉन्च किए गए किसी भी मॉडल की तुलना में अधिक एस्थेटिक और अधिक कार्यात्मक परिणाम देता है.

मॉडल की बेहतर कंप्यूटर-यूज़ और कोडिंग क्षमताओं के साथ मिलकर काम करने का प्रदर्शन करने के लिए, हम “Playwright (Interactive)⁠(एक नई विंडो में खुलेगा)” नाम का एक प्रयोगात्मक Codex स्किल भी जारी कर रहे हैं. इससे Codex वेब और Electron ऐप्स को विज़ुअली डिबग कर सकता है; यह जिस ऐप को बना रहा है, उसी समय उसे टेस्ट करने के लिए भी इस्तेमाल किया जा सकता है.

GPT‑5.4 से बनाया गया थीम पार्क सिमुलेशन गेम, एक ही हल्के-से निर्दिष्ट प्रॉम्प्ट से, ब्राउज़र प्ले-टेस्टिंग के लिए Playwright Interactive और आइसोमेट्रिक एसेट सेट के लिए इमेज जेनरेशन का उपयोग करते हुए. सिमुलेशन में टाइल-आधारित पाथ प्लेसमेंट, राइड और सीनरी का निर्माण, मेहमानों का पाथफाइंडिंग, कतारबंदी, और राइड चक्र शामिल हैं, जबकि पार्क मेट्रिक्स जैसे पैसा, मेहमानों की संख्या, खुशी, स्वच्छता, और रेटिंग इस बात के आधार पर बढ़ते या घटते हैं कि लेआउट कैसा प्रदर्शन करता है और मेहमान उस पर कैसे प्रतिक्रिया देते हैं. Playwright का उपयोग ब्राउज़र प्ले-टेस्ट्स को ऑटोमेट करने के लिए किया गया—पार्क को बनाकर और विस्तार करके, पाथ्स और अट्रैक्शन्स को जोड़कर और हटाकर, कैमरा नेविगेशन की जाँच करके, और कई राउंड्स के प्ले के दौरान यह सुनिश्चित करके कि गेस्ट्स, क्यूज़, राइड स्टेट्स और UI मेट्रिक्स सही तरीके से अपडेट हो रहे हैं.

प्रॉम्प्ट: $playwright-interactive और $imagegen का उपयोग करें. एक इंटरैक्टिव आइसोमेट्रिक थीम पार्क सिमुलेशन गेम बनाएं जिसे मैं ब्राउज़र में बना सकूँ और नेविगेट कर सकूँ. गेम के ओवरऑल विज़ुअल विज़न को सेट करने और गेम के एसेट्स जनरेट करने के लिए imagegen का उपयोग करें, जिनमें राइड्स, पाथ्स, टेरेन, पेड़, पानी, फूड स्टॉल्स, डेकोरेशन्स, बिल्डिंग्स, आइकॉन्स और UI इलस्ट्रेशन्स शामिल हों. दुनिया cohesive, पॉलिश्ड और विज़ुअली रिच लगनी चाहिए, और आइसोमेट्रिक पर्सपेक्टिव से अच्छी तरह काम करने वाली प्रीमियम आर्ट डायरेक्शन होनी चाहिए. मुझे पाथ्स जोड़ने और हटाने दें, अट्रैक्शन्स जोड़ने दें, सीनरी की पोज़िशन सेट करने दें, और गेस्ट एक्टिविटी, राइड स्टेटस और पार्क ग्रोथ मॉनिटर करते हुए पार्क में स्मूदली मूव करने दें. भरोसेमंद गेस्ट मूवमेंट, money, साफ़-सफाई, क्यूइंग और खुशी जैसे सरल पार्क मैनेजमेंट सिस्टम शामिल करें, और अनुभव को रफ प्रोटोटाइप की बजाय प्लेफुल, स्पष्ट और पूरा महसूस कराएँ. रियलिज़्म से ज़्यादा चार्म, रीडेबिलिटी और मजबूत गेम-फील को प्राथमिकता दें.

प्ले-टेस्टिंग के दौरान, कई राउंड्स के प्ले में पार्क बनाकर और विस्तार करके ज़रूर देखें, यह सुनिश्चित करें कि प्लेसमेंट और नेविगेशन स्मूदली काम करते हैं, कन्फर्म करें कि गेस्ट्स पार्क लेआउट और अट्रैक्शन्स पर प्रतिक्रिया देते हैं, और सुनिश्चित करें कि विज़ुअल्स, UI और इंटरैक्शन्स स्थिर और cohesive महसूस हों.

“हमारे इंजीनियर GPT-5.4 पाते हैं की पिछले मॉडलों की तुलना में अधिक प्राकृतिक और आत्मविश्वासी. यह अस्पष्ट समस्याओं पर बिना खुद पर दोबारा संदेह किए काम करता है और काम को आगे बढ़ाए रखने के लिए कार्यों को समानांतर रूप से चलाने में सक्रिय रहता है.”

— Lee Robinson, Cursor में डेवलपर एजुकेशन के उपाध्यक्ष

टूल उपयोग

GPT‑5.4 के साथ, हमने मॉडल्स के बाहरी टूल्स के साथ काम करने के तरीके को काफी बेहतर बनाया है. अब एजेंट्स बड़े टूल इकोसिस्टम में काम कर सकते हैं, सही टूल्स को अधिक भरोसेमंद तरीके से चुन सकते हैं और कम लागत व लेटेंसी के साथ मल्टी-स्टेप वर्कफ्लो पूरा कर सकते हैं.

टूल सर्च

API में GPT‑5.4 टूल सर्च⁠(एक नई विंडो में खुलेगा) पेश करता है, जिससे कई टूल्स दिए जाने पर मॉडल्स अधिक कुशलता से काम कर सकते हैं.

पहले, जब किसी मॉडल को टूल्स दिए जाते थे, तो सभी टूल डिफिनिशन्स प्रॉम्प्ट में पहले से शामिल होती थीं. कई टूल्स वाले सिस्टम्स में इससे हर रिक्वेस्ट में हजारों—या कभी-कभी दसियों हजार—टोकन्स जुड़ जाते थे, जिससे लागत बढ़ती थी, रिस्पॉन्स धीमे हो जाते थे और कॉन्टेक्स्ट में ऐसी जानकारी भर जाती थी जिसका मॉडल कभी उपयोग भी नहीं कर सकता.

टूल सर्च के साथ, GPT‑5.4 को उपलब्ध टूल्स की एक हल्की सूची और टूल सर्च क्षमता दी जाती है. जब मॉडल को किसी टूल का उपयोग करना होता है, तो वह उस टूल की डिफिनिशन खोजकर उसी समय बातचीत में जोड़ सकता है.

यह तरीका टूल-हेवी वर्कफ्लो के लिए आवश्यक टोकन्स की संख्या को काफी कम कर देता है और कैश को सुरक्षित रखता है, जिससे रिक्वेस्ट तेज़ और सस्ती हो जाती हैं. इससे एजेंट्स बड़े टूल इकोसिस्टम के साथ भी भरोसेमंद तरीके से काम कर सकते हैं. MCP सर्वर्स, जिनमें टूल डिफिनिशन्स के दसियों हजार टोकन्स हो सकते हैं, के लिए यह दक्षता लाभ काफी बड़ा हो सकता है.

दक्षता में हुए सुधार को दिखाने के लिए, हमने Scale के MCP Atlas⁠(एक नई विंडो में खुलेगा) बेंचमार्क के 250 टास्क का मूल्यांकन किया, जहाँ सभी 36 MCP सर्वर दो मोड में सक्षम थे: (1) हर MCP फ़ंक्शन को सीधे मॉडल कॉन्टेक्स्ट में उपलब्ध कराना, और (2) सभी MCP सर्वरों को टूल सर्च के पीछे रखना. टूल-सर्च कॉन्फ़िगरेशन ने कुल टोकन उपयोग को 47% तक कम कर दिया, जबकि एक्यूरेसी समान बनी रही.

उदाहरण टोकन काउंट MCP-Atlas पब्लिक डेटासेट के 250 टास्क के औसत से लिए गए हैं.

एजेंटिक टूल कॉलिंग

GPT‑5.4 टूल कॉलिंग को भी बेहतर बनाता है, जिससे रीज़निंग के दौरान टूल्स का कब और कैसे उपयोग करना है यह तय करना अधिक सटीक और कुशल हो जाता है, खासकर API में. GPT‑5.2 की तुलना में, यह Toolathlon पर कम टर्न्स में अधिक एक्यूरेसी हासिल करता है, जो एक बेंचमार्क है जो यह परखता है कि AI एजेंट्स वास्तविक दुनिया के टूल्स और APIs का उपयोग करके मल्टी-स्टेप टास्क्स को कितना अच्छी तरह पूरा कर सकते हैं. उदाहरण के लिए, एक एजेंट को ईमेल पढ़ने, असाइनमेंट अटैचमेंट्स निकालने, उन्हें अपलोड करने, उनका मूल्यांकन करने और परिणामों को स्प्रेडशीट में रिकॉर्ड करने की आवश्यकता हो सकती है.

लेटेंसी-संवेदनशील यूज़ केस में, जहाँ रीज़निंग effort को None रखना बेहतर माना जाता है, GPT‑5.4 अपने पूर्ववर्तियों से भी बेहतर प्रदर्शन करता है.

τ2-bench⁠⁠(एक नई विंडो में खुलेगा) में, मॉडल को कस्टमर सर्विस टास्क पूरा करने के लिए टूल्स का उपयोग करना होता है, जहाँ एक सिम्युलेटेड यूज़र हो सकता है जो बातचीत कर सकता है और वर्ल्ड स्टेट पर एक्शन ले सकता है. रीजनिंग एफर्ट None पर सेट किया गया था.

बेहतर वेब सर्च

GPT‑5.4 एजेंटिक वेब सर्च में बेहतर है. BrowseComp पर, जो यह मापता है कि AI एजेंट्स कठिन-से-खोजी जाने वाली जानकारी पाने के लिए वेब को कितनी लगातार ब्राउज़ कर सकते हैं, GPT‑5.4 ने GPT‑5.2 की तुलना में 17%_abs की छलांग लगाई, और GPT‑5.4 Pro 89.3% का नया स्टेट-ऑफ़-द-आर्ट सेट करता है.

व्यवहार में इसका मतलब है कि GPT‑5.4 Thinking उन सवालों के जवाब देने में ज्यादा मजबूत है जिनके लिए वेब पर कई स्रोतों से जानकारी एक साथ जुटानी पड़ती है. यह कई राउंड में लगातार खोज करके सबसे प्रासंगिक स्रोतों की पहचान कर सकता है, खासकर “ढेर में सुई ढूँढने जैसा” जैसे प्रश्नों के लिए, और उन्हें एक स्पष्ट, अच्छी तरह तर्कसंगत उत्तर में संयोजित कर सकता है.

BrowseComp में, हमने सर्च ब्लॉकलिस्ट का उपयोग किया जिसमें उन वेबसाइट्स को मूल्यांकन से बाहर रखा गया था जिनमें बेंचमार्क के उत्तर मौजूद थे, ताकि कंटैमिनेशन रोका जा सके और प्रदर्शन का निष्पक्ष माप सुनिश्चित किया जा सके. GPT‑5.4 को GPT‑5.2 की तुलना में बाद की तारीख पर मापा गया था, इसलिए स्कोर्स मॉडल, हमारे सर्च सिस्टम और इंटरनेट की स्थिति में हुए बदलावों को दर्शाते हैं. GPT‑5.4 का परीक्षण एक लंबी और अपडेट की गई ब्लॉकलिस्ट के साथ किया गया था. मॉडल्स ChatGPT सर्च टूल का उपयोग करते हैं, जिसमें API सर्च की तुलना में छोटे अंतर हो सकते हैं.

“मल्टी-स्टेप टूल उपयोग के लिए GPT-5.4 xhigh नया स्टेट-ऑफ-द-आर्ट है. Zapier इंडस्ट्री के सबसे सख्त टूल उपयोग बेंचमार्क्स में से कुछ चलाता है, जहाँ मॉडलों को सैकड़ों उन्नत वास्तविक-विश्व वर्कफ़्लो में टेस्ट किया जाता है. GPT-5.4 ने वह काम पूरा किया जहाँ पिछले मॉडल हार मान लेते थे — अब तक का सबसे अधिक दृढ़ मॉडल.”

— Wade, CEO, Zapier

स्टीयरएबिलिटी

जैसे Codex काम शुरू करते समय अपना तरीका बताता है, वैसे ही ChatGPT में GPT‑5.4 Thinking अब लंबे और अधिक जटिल क्वेरीज के लिए प्रीएंबल के साथ अपने काम का आउटलाइन देगा. आप बीच में ही अतिरिक्त निर्देश जोड़ सकते हैं या उसकी दिशा को समायोजित कर सकते हैं. इससे मॉडल को ठीक उसी परिणाम की ओर मार्गदर्शित करना आसान हो जाता है जो आप चाहते हैं, बिना दोबारा शुरू किए या कई अतिरिक्त टर्न्स की आवश्यकता के. यह फीचर अभी chatgpt.com⁠(एक नई विंडो में खुलेगा) और Android ऐप पर उपलब्ध है, और जल्द ही iOS ऐप पर भी आएगा.

मॉडल कठिन टास्क्स पर अधिक समय तक सोच सकता है, जबकि बातचीत के पहले के स्टेप्स की मजबूत समझ बनाए रखता है. इससे यह लंबे वर्कफ्लो और अधिक जटिल प्रॉम्प्ट्स को संभाल सकता है, और पूरे समय उत्तरों को सुसंगत और प्रासंगिक बनाए रखता है.

इस वीडियो की स्पीड उदाहरण के तौर पर बढ़ा दी गई थी।

सुरक्षा

पिछले कुछ महीनों में, हमने GPT‑5.4 को डिप्लॉयमेंट के लिए तैयार करते हुए GPT‑5.3‑Codex के साथ पेश किए गए सेफगार्ड्स को लगातार बेहतर बनाया है. GPT‑5.3‑Codex की तरह, हम GPT‑5.4 को अपने Preparedness Framework के तहत उच्च साइबर क्षमता के रूप में मानते हैं, और इसे सिस्टम कार्ड⁠ में दस्तावेज़ित संबंधित सुरक्षा उपायों के साथ डिप्लॉय कर रहे हैं. इनमें विस्तारित साइबर सेफ्टी स्टैक शामिल हैं, जिनमें मॉनिटरिंग सिस्टम्स, ट्रस्टेड एक्सेस कंट्रोल्स, और ज़ीरो डेटा रिटेंशन (ZDR) सरफेसेज़ पर ग्राहकों के लिए उच्च-जोखिम वाली रिक्वेस्ट्स के लिए एसिंक्रोनस ब्लॉकिंग शामिल है, साथ ही व्यापक सुरक्षा इकोसिस्टम में निरंतर निवेश भी.

क्योंकि साइबरसिक्योरिटी क्षमताएँ स्वभावतः ड्यूल-यूज़ होती हैं, इसलिए हम अपनी नीतियों और क्लासिफ़ायर्स को लगातार कैलिब्रेट करते हुए डिप्लॉयमेंट में सावधानीपूर्ण दृष्टिकोण बनाए रखते हैं. ZDR surfaces पर कुछ ग्राहकों के लिए, रिक्वेस्ट-लेवल ब्लॉकिंग अभी भी हमारे साइबर जोखिम न्यूनीकरण स्टैक का हिस्सा है; और क्योंकि क्लासिफ़ायर्स अभी भी बेहतर हो रहे हैं, इसलिए इन सेफगार्ड्स को और परिष्कृत करते समय कुछ फॉल्स पॉज़िटिव्स हो सकते हैं. इन अपडेट्स का उद्देश्य यह बेहतर बनाना है कि सेफगार्ड्स व्यवहार में कैसे काम करते हैं, जिसमें अनावश्यक अस्वीकृतियों और बहुत अधिक सावधानीभरे जवाब को कम करना शामिल है, जबकि दुरुपयोग के खिलाफ मजबूत सुरक्षा बनाए रखना भी.

हमने यह बेहतर समझने के लिए कि मॉडल कैसे रीज़न करते हैं और संभावित दुरुपयोग का पता लगाने में कैसे मदद मिल सकती है, Chain-of-Thought (CoT) मॉनिटरएबिलिटी पर अपनी सेफ्टी रिसर्च जारी रखी है. इस काम के हिस्से के रूप में, हम एक नया ओपन-सोर्स मूल्यांकन, CoT कंट्रोलएबिलिटी⁠, पेश कर रहे हैं, जो यह मापता है कि क्या मॉडल मॉनिटरिंग से बचने के लिए जानबूझकर अपनी रीज़निंग को अस्पष्ट कर सकते हैं। हमने पाया कि GPT‑5.4 Thinking की अपने CoT को नियंत्रित करने की क्षमता कम है, जो सुरक्षा के लिए एक सकारात्मक गुण है. यह संकेत देता है कि मॉडल अपनी रीज़निंग को छिपाने की क्षमता नहीं रखता और CoT मॉनिटरिंग एक प्रभावी सुरक्षा टूल बना रहता है.

उपलब्धता और प्राइसिंग

GPT‑5.4 आज ChatGPT और Codex में धीरे-धीरे रोलआउट हो रहा है. API में GPT‑5.4 अब gpt-5.4 के रूप में उपलब्ध है. GPT‑5.4 Pro API में भी gpt-5.4-pro के रूप में उपलब्ध है डेवलपर्स के लिए, जिन्हें सबसे कॉम्प्लेक्स टास्क्स पर अधिकतम परफ़ॉर्मेंस चाहिए.

ChatGPT में, GPT‑5.4 Thinking आज से ChatGPT Plus, Team, और Pro यूज़र्स के लिए उपलब्ध है, GPT‑5.2 को बदलते हुए. Thinking. GPT‑5.2 Thinking पेड यूज़र्स के लिए मॉडल पिकर में Legacy Models सेक्शन के तहत तीन महीने तक उपलब्ध रहेगा, जिसके बाद इसे 5 जून, 2026 को रिटायर कर दिया जाएगा. Enterprise और Edu प्लान्स वाले लोग एडमिन सेटिंग्स के ज़रिए अर्ली एक्सेस इनेबल कर सकते हैं. GPT‑5.4 Pro, Pro और Enterprise प्लान्स के लिए उपलब्ध है. कॉन्टेक्स्ट विंडो⁠(एक नई विंडो में खुलेगा) ChatGPT में GPT‑5.4 के लिए Thinking, GPT‑5.2 Thinking से अपरिवर्तित रहता है.

GPT‑5.4 हमारा पहला मुख्य रीज़निंग मॉडल है जो GPT‑5.3‑codex की अत्याधुनिक कोडिंग क्षमताओं को शामिल करता है और जो ChatGPT, the API और Codex में रोलआउट हो रहा है. हम इसे GPT‑5.4 कह रहे हैं ताकि उस प्रगति को दर्शाया जा सके और Codex का उपयोग करते समय मॉडलों के बीच चयन को सरल बनाया जा सके. समय के साथ आप उम्मीद कर सकते हैं कि हमारे Instant मॉडल्स और Thinking मॉडल्स अलग-अलग गति से विकसित होंगे.

Codex में GPT‑5.4 में 1M कॉन्टेक्स्ट विंडो के लिए एक्सपेरिमेंटल सपोर्ट शामिल है। डेवलपर्स model_context_window और model_auto_compact_token_limit को कॉन्फ़िगर करके इसे आज़मा सकते हैं. जो रिक्वेस्ट्स मानक 272K कॉन्टेक्स्ट विंडो से अधिक होती हैं, वे उपयोग सीमा के विरुद्ध सामान्य दर से 2x पर गिनी जाती हैं.

API में GPT‑5.4 की प्रति टोकन कीमत GPT‑5.2 से अधिक है ताकि इसकी बेहतर क्षमताओं को दर्शाया जा सके, जबकि इसकी अधिक टोकन दक्षता कई टास्क्स के लिए आवश्यक कुल टोकन्स की संख्या को कम करने में मदद करती है. Batch और Flex प्राइसिंग मानक API दर के आधे पर उपलब्ध हैं, जबकि प्रायोरिटी प्रोसेसिंग मानक API दर के दोगुने पर उपलब्ध है.

API मॉडल	इनपुट प्राइस	कैश्ड इनपुट प्राइस	आउटपुट प्राइस
gpt-5.2	$1.75 / M टोकन्स	$0.175 / M टोकन्स	$14 / M टोकन्स
gpt-5.4	$2.50 / M टोकन्स	$0.25 / M टोकन्स	$15 / M टोकन्स
gpt-5.2-pro	$21 / M टोकन्स	-	$168 / M टोकन्स
gpt-5.4-pro	$30 / M टोकन्स	-	$180 / M टोकन्स

इवैल्युएशन्स

पेशेवर

इवैल	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
इन्वेस्टमेंट बैंकिंग मॉडलिंग टास्क्स (आंतरिक)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

कोडिंग

इवैल	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57.7%	—	56.8%	55.6%	—
Terminal-Bench 2.0	75.1%	—	77.30%	62.20%	—

कंप्यूटर यूज़ और विज़न

इवैल	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75.0%	—	74.0%	47.3%	—
MMMU Pro (कोई टूल नहीं)	81.2%	—	—	79.5%	—
MMMU Pro (टूल्स के साथ)	82.1%	—	—	80.4%	—

टूल उपयोग

इवैल	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-बेंच टेलीकॉम	98.9%	—	—	98.7%	—

शैक्षणिक

इवैल	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
अत्याधुनिक साइंस रिसर्च	33.0%	36.7%	—	25.2%	—
FrontierMath टियर 1–3	47.6%	—	—	40.7%	—
FrontierMath टियर 4	27.1%	38.0%	—	18.8%	31.3%
GPQA डायमंड	92.8%	94.4%	92.6%	92.4%	93.2%
Humanity's Last Exam (कोई टूल नहीं)	39.8%	42.7%	—	34.5%	36.6%
Humanity's Last Exam (टूल्स के साथ)	52.1%	58.7%	—	45.5%	50.0%

लंबा कॉन्टेक्स्ट

इवैल	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93.0%	—	—	94.0%	—
Graphwalks BFS 256K–1M	21.4%	—	—	—	—
Graphwalks parents 0–128K (सटीकता)	89.8%	—	—	89.0%	—
Graphwalks parents 256K–1M (सटीकता)	32.4%	—	—	—	—
OpenAI MRCR v2 8-नीडल 4K–8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-needle 8K–16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-needle 16K–32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-needle 32K–64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-needle 64K–128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-needle 128K–256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-needle 256K–512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36.6%	—	—	—	—

एब्सट्रैक्ट रीज़निंग

इवैल	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (सत्यापित)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (Verified)	73.3%	83.3%	—	52.9%	54.2% (high)

रीज़निंग के बिना इवैल्स

इवैल	GPT‑5.4 (none)	GPT‑5.2 (none)	GPT‑4.1
OmniDocBench (नॉर्मलाइज़्ड एडिट डिस्टेंस)	0.109	0.140	—
Tau2-बेंच टेलीकॉम	64.3%	57.2%	43.6%

इवैल्युएशन्स को रीज़निंग एफर्ट xhigh पर सेट करके रन किया गया, सिवाय उन जगहों के जहाँ अन्यथा निर्दिष्ट किया गया हो. बेंचमार्क्स एक शोध वातावरण में किए गए थे, जो कुछ मामलों में प्रोडक्शन ChatGPT से थोड़ा अलग परिणाम दे सकते हैं.