आज आम्ही ChatGPT मध्ये GPT‑5.4 रिलीज करत आहोत (GPT‑5.4 थिंकिंग), API, आणि Codex. व्यावसायिक कामासाठी हे आमचे सर्वात सक्षम आणि कार्यक्षम अत्याधुनिक मॉडेल आहे. आम्ही ChatGPT आणि API मध्ये GPT‑5.4 Pro देखील रिलीज करत आहोत, क्लिष्ट कामांसाठी जास्तीत जास्त परफॉर्मन्स हवा असलेल्या लोकांसाठी.
GPT‑5.4 आमच्या रीझनिंग, कोडिंग आणि एजंटिक वर्कफ्लोजमधील अलीकडील प्रगतीतील सर्वोत्तम गोष्टी एकत्र करून एका अत्याधुनिक मॉडेलमध्ये आणते. यात GPT‑5.3‑Codex च्या उद्योगातील आघाडीच्या कोडिंग क्षमतांचा समावेश आहे, तसेच स्प्रेडशीट्स, प्रेझेंटेशन्स आणि डॉक्युमेंट्स यांचा समावेश असलेल्या साधनांमध्ये, सॉफ्टवेअर वातावरणांमध्ये आणि व्यावसायिक कामांमध्ये मॉडेल कसे कार्य करते ते सुधारते. परिणाम म्हणजे असे मॉडेल, जे गुंतागुंतीचे खरे काम अचूकपणे, प्रभावीपणे आणि कार्यक्षमतेने पूर्ण करते—कमी संवादातून तुम्ही जे मागितले तेच प्रदान करते.
ChatGPT मध्ये GPT‑5.4 थिंकिंग आता त्याच्या विचारांचा एक आगाऊ आराखडा देऊ शकते, त्यामुळे ते काम करत असताना तुम्ही प्रतिसादाच्या मध्यात दिशा समायोजित करू शकता , आणि अतिरिक्त फेऱ्यांशिवाय तुम्हाला जे हवे आहे त्याच्याशी अधिक जवळून जुळणारा अंतिम आउटपुट मिळवू शकता. GPT‑5.4 Thinking मुळे डीप वेब संशोधन, विशेषतः अत्यंत विशिष्ट क्वेरीजसाठी, सुधारते, तसेच अधिक दीर्घ विचार आवश्यक असलेल्या प्रश्नांसाठी संदर्भ अधिक चांगल्या प्रकारे टिकवून ठेवता येतो. एकत्रितपणे, या सुधारणा म्हणजे अधिक उच्च-गुणवत्तेची उत्तरे जी अधिक जलद मिळतात आणि हातातील कामाशी संबंधित राहतात.
Codex आणि API मध्ये, GPT‑5.4 हे आम्ही रिलीज केलेले नेटिव्ह, स्टेट-ऑफ-द-आर्ट संगणक वापर क्षमतांसह पहिले जनरल-पर्पज मॉडेल आहे, ज्यामुळे एजंट्सना संगणक ऑपरेट करता येतात आणि अॅप्लिकेशन्समध्ये जटिल वर्कफ्लोज पार पाडता येतात. हे 1M टोकनपर्यंतचा संदर्भ समर्थित करते, ज्यामुळे एजंट्सना दीर्घ कालावधीत टास्क्सचे नियोजन, अंमलबजावणी आणि पडताळणी करता येते. GPT‑5.4 मोठ्या टूल्स आणि कनेक्टर्सच्या इकोसिस्टम्समध्ये tool search सह मॉडेल्स कसे काम करतात हेही सुधारते, ज्यामुळे एजंट्सना इंटेलिजन्सचा त्याग न करता योग्य टूल्स अधिक कार्यक्षमतेने शोधता आणि वापरता येतात. शेवटी, GPT‑5.4 हे आमचे सर्वात टोकन कार्यक्षम रीझनिंग मॉडेल आहे, GPT‑5.2 च्या तुलनेत समस्या सोडवण्यासाठी लक्षणीय कमी टोकन वापरते—यामुळे टोकन वापर कमी होतो आणि वेग वाढतो.
सामान्य रीझनिंग, कोडिंग, आणि व्यावसायिक ज्ञान कार्यातील प्रगतींसह, GPT‑5.4 अधिक विश्वासार्ह एजंट्स, जलद डेव्हलपर कार्यप्रवाह, आणि ChatGPT, API, आणि Codex मध्ये उच्च-गुणवत्तेची आउटपुट सक्षम करते.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (विजय किंवा बरोबरी) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro (सार्वजनिक) | 57.7% | 56.8% | 55.6% |
OSWorld-व्हेरिफाइड | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*पूर्वी 64.7% म्हणून अहवाल दिला होता. GPT‑5.3‑Codex मूळ प्रतिमा रिझोल्यूशन जतन करणाऱ्या नव्याने सादर केलेल्या API पॅरामीटरसह 74.0% साध्य करते.
GPT‑5.2 च्या आधारावर सामान्य रीझनिंग क्षमतांसह, GPT‑5.4 व्यावसायिकांसाठी महत्त्वाच्या वास्तविक-जगातील कामांवर आणखी अधिक सातत्यपूर्ण आणि परिष्कृत परिणाम देते.
On GDPval, जे 44 व्यवसायांमध्ये चांगल्या प्रकारे निर्दिष्ट ज्ञान काम तयार करण्यासाठी एजंट्सच्या क्षमतांची चाचणी करते, GPT‑5.4 एक नवीन अत्याधुनिक मानक साध्य करते, 83.0% तुलनांमध्ये उद्योग व्यावसायिकांशी जुळते किंवा त्यांना मागे टाकते, GPT‑5.2 साठी 71.0% च्या तुलनेत.
GDPval मध्ये, मॉडेल 44 व्यवसायांमध्ये चांगले-निर्दिष्ट ज्ञान कार्य करण्याचा प्रयत्न करतात, जे U.S. GDP मध्ये सर्वाधिक योगदान देणाऱ्या शीर्ष 9 उद्योगांमधून आहेत. कामांमध्ये विक्री सादरीकरणे, लेखा स्प्रेडशीट्स, तातडीच्या काळजीच्या वेळापत्रक, उत्पादन आकृत्या, किंवा लघु व्हिडिओ यांसारखी वास्तविक कामाची उत्पादने समाविष्ट असतात. GPT‑5.4 साठी रीझनिंग प्रयत्न xhigh वर आणि GPT‑5.2 साठी heavy वर सेट केला होता (ChatGPT मध्ये थोडीशी कमी पातळी).
“GPT-5.4 हे आम्ही कधीही वापरून पाहिलेले सर्वोत्कृष्ट मॉडेल आहे. आमच्या APEX-Agents बेंचमार्कमध्ये, जो व्यावसायिक सेवा कामासाठी मॉडेलची कामगिरी मोजतो, हे आता लीडरबोर्डच्या शीर्षस्थानी आहे. हे स्लाइड डेक्स, आर्थिक मॉडेल्स, आणि कायदेशीर विश्लेषण यांसारखी दीर्घ-कालावधीची वितरित उत्पादने तयार करण्यात उत्कृष्ट आहे, स्पर्धात्मक अत्याधुनिक मॉडेल्सपेक्षा अधिक वेगाने आणि कमी खर्चात चालत असतानाही सर्वोच्च कार्यक्षमता प्रदान करते.”
आम्ही GPT‑5.4 चे सुधारण्यात विशेष लक्ष केंद्रित केले स्प्रेडशीट्स, प्रेझेंटेशन्स आणि दस्तऐवज तयार करण्याची आणि संपादित करण्याची क्षमता. ज्युनियर इन्व्हेस्टमेंट बँकिंग ऍनालिस्ट करू शकतील अशा स्प्रेडशीट मॉडेलिंग कामांच्या आंतरिक बेंचमार्कवर, GPT‑5.4 चा सरासरी स्कोअर 87.5% आहे, GPT‑5.2 साठी 68.4% च्या तुलनेत. सादरीकरण मूल्यांकन प्रॉम्प्ट्सच्या एका संचावर, मानवी रेटर्सनी अधिक मजबूत सौंदर्यदृष्ट्या, अधिक दृश्य वैविध्य, आणि इमेज जनरेशनचा अधिक प्रभावी वापर यांमुळे GPT‑5.2 मधील सादरीकरणांपेक्षा GPT‑5.4 मधील सादरीकरणांना 68.0% वेळा प्राधान्य दिले.

दस्तऐवज रीझनिंग इफर्ट xhigh वर सेट करून तयार केले गेले
तुम्ही ChatGPT मध्ये GPT‑5.4 वापरून या क्षमता वापरून पाहू शकता Thinking किंवा Pro. तुम्ही Enterprise ग्राहक असाल, तर आम्ही आजच लॉन्च केलेल्या, नव्याने रिलीज केलेल्या Excel आणि Google Sheets साठीच्या आमच्या ChatGPT plugins(नवीन विंडोमध्ये उघडेल) वापरण्याची शिफारस करतो. आम्ही Codex आणि API मध्ये उपलब्ध असलेली आमची स्प्रेडशीट(नवीन विंडोमध्ये उघडेल) आणि प्रेझेंटेशन कौशल्ये(नवीन विंडोमध्ये उघडेल) ही अद्यतनित केली आहेत.
GPT‑5.4 तयार करण्यासाठी वास्तविक-जगातील कामात अधिक चांगले होत असताना, आम्ही भ्रम आणि चुका कमी करण्याच्या दिशेने आमची प्रगती सुरू ठेवली. GPT‑5.4 हे आमचे आतापर्यंतचे सर्वात तथ्याधारित मॉडेल आहे: वापरकर्त्यांनी तथ्यात्मक चुका फ्लॅग केलेल्या डी-आयडेंटिफाइड प्रॉम्प्ट्सच्या संचावर, GPT‑5.4’s वैयक्तिक दावे 33% कमी खोटे असण्याची शक्यता असते आणि त्याच्या पूर्ण प्रतिसादांमध्ये GPT‑5.2 च्या तुलनेत कोणतीही त्रुटी असण्याची शक्यता 18% कमी असते.
“GPT-5.4 दस्तऐवज-प्रधान कायदेशीर कामासाठी एक नवा मानदंड प्रस्थापित करते. आमच्या BigLaw Bench मूल्यमापनावर, त्याने 91% गुण मिळवले. इतर मॉडेल्सच्या तुलनेत, GPT-5.4 सध्या गुंतागुंतीच्या व्यवहार विश्लेषणाची रचना करण्यात, दीर्घ करारांमध्ये अचूकता टिकवून ठेवण्यात, आणि कायदेशीर व्यावसायिकांना आवश्यक असलेला उच्च स्तराचा तपशील देण्यात अधिक सक्षम आहे.
GPT‑5.4 हे आमचे पहिले सर्वसाधारण-उद्देशाचे मॉडेल आहे, ज्यामध्ये मूळ संगणक-वापर क्षमता आहेत आणि हे डेव्हलपर्स आणि एजंट्स दोघांसाठीही एक मोठे पाऊल पुढे टाकते. वेबसाइट्स आणि सॉफ्टवेअर प्रणालींमध्ये वास्तविक कामे पूर्ण करणारे एजंट्स तयार करणाऱ्या डेव्हलपर्ससाठी सध्या उपलब्ध असलेले हे सर्वोत्तम मॉडेल आहे.
आम्ही GPT‑5.4 ची रचना संगणक-वापराच्या वर्कलोड्सच्या विस्तृत श्रेणीमध्ये उच्च कार्यक्षमता देण्यासाठी केली आहे. Playwright सारख्या libraries द्वारे संगणक चालवण्यासाठी कोड लिहिण्यात, तसेच screenshots च्या प्रतिसादात माऊस आणि कीबोर्ड कमांड्स जारी करण्यात ते उत्कृष्ट आहे. त्याचे वर्तन डेव्हलपर मेसेजेसद्वारे स्टिअरेबल आहे, म्हणजेच डेव्हलपर्स विशिष्ट युज केसेससाठी वर्तन समायोजित करू शकतात. डेव्हलपर्स कस्टम पुष्टीकरण धोरणे निर्दिष्ट करून वेगवेगळ्या रिस्क टॉलरन्स पातळ्यांनुसार मॉडेलचे सुरक्षा वर्तन कॉन्फिगरही करू शकतात.
मॉडेलची कामगिरी आणि लवचिकता विविध सेटिंग्जमध्ये संगणक वापराची चाचणी घेणाऱ्या बेंचमार्क्समध्ये प्रतिबिंबित होते. OSWorld-Verified वर, जे स्क्रीनशॉट्स आणि कीबोर्ड/माऊस कृतींमधून डेस्कटॉप वातावरणात नेव्हिगेट करण्याची मॉडेलची क्षमता मोजते, GPT‑5.4 एक अत्याधुनिक 75.0% साध्य करते यशाचा दर, GPT‑5.2’s पेक्षा खूपच जास्त 47.3%, आणि 72.4%वर मानवी कामगिरीला मागे टाकत आहे.1
WebArena-Verified वर, जे ब्राउझर वापराची चाचणी करते, GPT‑5.4 DOM- आणि स्क्रीनशॉट-आधारित परस्परसंवाद दोन्ही वापरताना 67.3% यशदरासह आघाडीवर आहे, GPT‑5.2 च्या 65.4% च्या तुलनेत. Online-Mind2Web वर, जो ब्राउझर वापराचीही चाचणी करतो, GPT‑5.4 फक्त स्क्रीनशॉट-आधारित निरीक्षणांचा वापर करून 92.8% यशाचा दर साध्य करतो, आणि ChatGPT Atlas च्या एजंट मोडपेक्षा सुधारणा करतो, ज्याचा यशाचा दर 70.9% आहे.
टूल यील्ड म्हणजे जेव्हा असिस्टंट टूल प्रतिसादांची प्रतीक्षा करण्यासाठी यील्ड करतो. जर तीन टूल्स पॅरलेलमध्ये कॉल केली गेली आणि त्यानंतर आणखी तीन टूल्स पॅरलेलमध्ये कॉल केली गेली, तर उत्पन्नांची संख्या 2 असेल. साधनांच्या उत्पन्नांची संख्या ही लेटन्सीचे अधिक चांगले सूचक आहे, कारण ती समांतरतेचे फायदे प्रतिबिंबित करते.
GPT‑5.4 ब्राउझर इंटरफेसचे स्क्रीनशॉट समजून घेतो आणि ईमेल पाठवण्यासाठी व कॅलेंडर इव्हेंट शेड्यूल करण्यासाठी समन्वय-आधारित क्लिकिंगद्वारे UI घटकांशी संवाद साधतो.
GPT‑5.4 चा सुधारित संगणक वापर हा मॉडेलच्या सुधारित सर्वसाधारण दृश्यात्मक आकलन क्षमतांवर आधारित आहे. MMMU-Pro वर, मॉडेलच्या व्हिज्युअल समज आणि रीझनिंगची चाचणी, GPT‑5.4 टूल वापराशिवाय 81.2% यश दर साध्य करते, over GPT‑5.2’s पेक्षा सुधारणा 79.5%. सुधारित दृश्य आकलनामुळे दस्तऐवज पार्सिंग क्षमताही अधिक चांगल्या होतात. OmniDocBench वर, रीझनिंग प्रयत्नांशिवाय GPT‑5.4 सरासरी त्रुटी (मॉडेलच्या अंदाज आणि ग्राउंड ट्रुथ यांमधील नॉर्मलाइझ्ड एडिट डिस्टन्सने मोजलेली) 0.109 साध्य करते, जी GPT‑5.2 च्या 0.140 वरून सुधारली आहे.
MMMUPro रीझनिंग इफर्ट xhigh वर सेट करून चालवले गेले. कमी खर्च, कमी लेटन्सी कामगिरी प्रतिबिंबित करण्यासाठी OmniDocBench रीझनिंग एफ़र्ट none वर सेट करून चालवले गेले.
पूर्ण निष्ठा महत्त्वाची असलेल्या दाट, उच्च-रिझोल्यूशन प्रतिमांसाठी आम्ही दृश्य समज देखील सुधारत आहोत. GPT‑5.4 पासून सुरू करून, आम्ही एक original प्रतिमा इनपुट डिटेल(नवीन विंडोमध्ये उघडेल) स्तर सादर करत आहोत, जो 10.24M एकूण पिक्सेल्स किंवा 6000-पिक्सेल कमाल परिमाण (यापैकी जे कमी असेल) पर्यंत फुल-फिडेलिटी परसेप्शनला सपोर्ट करतो; high प्रतिमा इनपुट डिटेल स्तर आता 2.56M एकूण पिक्सेल्स किंवा 2048-पिक्सेल कमाल परिमाण पर्यंत सपोर्ट करतो. API वापरकर्त्यांसोबतच्या सुरुवातीच्या चाचणीत, original किंवा high detail वापरताना आम्ही स्थानिकीकरण क्षमता, प्रतिमा समज आणि क्लिक अचूकता यामध्ये लक्षणीय सुधारणा पाहिली.
“~30K HOA आणि प्रॉपर्टी टॅक्स पोर्टल्समध्ये संगणक-वापर कार्यक्षमता मोजणाऱ्या आमच्या इव्हॅल्समध्ये, GPT-5.4 ने पहिल्याच प्रयत्नात 95% यश दर आणि तीन प्रयत्नांत 100% यश दर साध्य केला, पूर्वीच्या CUA मॉडेल्ससह ~73–79% च्या तुलनेत. याने ~3x वेगाने सत्रे पूर्ण केली आणि ~70% कमी टोकन वापरले, ज्यामुळे प्रमाणात विश्वासार्हता आणि खर्च कार्यक्षमता लक्षणीयरीत्या सुधारली."
API मध्ये, डेव्हलपर्स अपडेट केलेल्या computer टूलचा वापर करून या कॅपॅबिलिटीजला ॲक्सेस करू शकतात. कृपया शिफारस केलेल्या सर्वोत्तम पद्धतींसाठी आमचे अद्ययावत दस्तऐवजीकरण(नवीन विंडोमध्ये उघडेल) पहा.
GPT‑5.4 हे GPT‑5.3‑Codex मधील कोडिंग सामर्थ्ये आघाडीच्या ज्ञान-कार्य आणि संगणक-वापर क्षमतांसह एकत्र करते, ज्या दीर्घकाळ चालणाऱ्या कामांमध्ये सर्वाधिक महत्त्वाच्या ठरतात, जिथे मॉडेल साधने वापरू शकते, पुनरावृत्ती करू शकते, आणि कमी मॅन्युअल हस्तक्षेपात काम अधिक पुढे नेऊ शकते. हे SWE-Bench Pro वर GPT‑5.3‑Codex इतकी किंवा त्याहून चांगली कामगिरी करते, तसेच रीझनिंग प्रयत्नांमध्ये कमी लेटन्सी राखते.
आम्ही आमच्या मॉडेल्सच्या प्रॉडक्शन वर्तनाकडे पाहून आणि हे ऑफलाइन सिम्युलेट करून लेटन्सीचा अंदाज लावतो. लेटन्सीचा अंदाज टूल कॉल कालावधी (कोड कार्यान्वयन वेळ), सॅम्पल केलेली टोकन, आणि इनपुट टोकन यांचा विचार करतो. वास्तविक जगातील लेटन्सीमध्ये मोठ्या प्रमाणावर फरक असू शकतो आणि आमच्या सिम्युलेशनमध्ये कॅप्चर न झालेल्या अनेक घटकांवर ते अवलंबून असते. रीझनिंग करण्याचे प्रयत्न शून्यापासून xhigh पर्यंत वाढवले गेले.
टॉगल ऑन केल्यावर, Codex मधील /fast मोड GPT‑5.4 सह 1.5x पर्यंत अधिक वेगवान टोकन वेग देतो. हे तेच मॉडेल आणि तीच बुद्धिमत्ता आहे, फक्त अधिक वेगवान. याचा अर्थ वापरकर्ते प्रवाहात राहून कोडिंग टास्क्स, इटरेशन आणि डीबगिंगमधून पुढे जाऊ शकतात. विकसक प्राधान्य प्रोसेसिंग(नवीन विंडोमध्ये उघडेल) वापरून API द्वारे त्याच जलद गतीने GPT‑5.4 मध्ये प्रवेश करू शकतात.
मूल्यांकन आणि अंतर्गत चाचणीत आम्हाला आढळले की GPT‑5.4 जटिल फ्रंटएंड कार्यांमध्ये उत्कृष्ट आहे, आणि आम्ही यापूर्वी लॉन्च केलेल्या कोणत्याही मॉडेल्सपेक्षा लक्षणीयरीत्या अधिक सौंदर्यपूर्ण आणि अधिक कार्यक्षम परिणाम देते.
मॉडेलच्या सुधारित संगणक-वापर आणि कोडिंग क्षमतांचे एकत्रितपणे काम कसे होते याचे प्रात्यक्षिक म्हणून, आम्ही “Playwright (Interactive)(नवीन विंडोमध्ये उघडेल)” नावाचे एक प्रायोगिक Codex कौशल्य देखील रिलीज करत आहोत. यामुळे Codex ला वेब आणि Electron ॲप्सचे दृश्यरित्या डीबगिंग करता येते; ते तयार करत असतानाच, ते तयार करत असलेल्या ॲपची चाचणी करण्यासाठीही याचा वापर करता येतो.
GPT‑5.4 सह तयार केलेला थीम पार्क सिम्युलेशन गेम, एका एकमेव हलक्याशा निर्दिष्ट प्रॉम्प्टमधून, ब्राउझर प्ले-टेस्टिंगसाठी Playwright Interactive आणि आयसोमेट्रिक अॅसेट सेटसाठी इमेज जनरेशन वापरून. या सिम्युलेशनमध्ये टाइल-आधारित मार्ग मांडणी, राइड आणि सीनरीचे बांधकाम, पाहुण्यांचे मार्गशोधन, रांगेत उभे राहणे, आणि राइड सायकल्स यांचा समावेश आहे, तर पैसे, पाहुण्यांची संख्या, आनंद, स्वच्छता, आणि रेटिंग यांसारखी पार्क मेट्रिक्स मांडणी कशी कामगिरी करते आणि पाहुणे त्याला कसा प्रतिसाद देतात यावरून वाढतात किंवा घटतात. Playwright चा वापर ब्राउझर प्ले-टेस्ट्स ऑटोमेट करण्यासाठी केला गेला: पार्क तयार करून आणि त्याचा विस्तार करून, पाथ्स आणि आकर्षणे ठेवून व काढून, कॅमेरा नेव्हिगेशन तपासून, आणि अनेक राउंड्सच्या प्लेमध्ये पाहुणे, रांगा, राइड स्टेट्स, आणि UI मेट्रिक्स योग्यरीत्या अपडेट होत आहेत याची पडताळणी करून.
प्रॉम्प्ट: $playwright-interactive आणि $imagegen वापरा. मी ब्राउझरमध्ये तयार करू आणि नेव्हिगेट करू शकतो असा एक इंटरॅक्टिव्ह आयसोमेट्रिक थीम पार्क सिम्युलेशन गेम तयार करा. एकूण व्हिज्युअल व्हिजन ठरवण्यासाठी आणि गेमची साधने तयार करण्यासाठी imagegen वापरा—यात राइड्स, पाथ्स, टेरेन, झाडे, पाणी, फूड स्टॉल्स, सजावट, इमारती, चिन्हे आणि UI चित्रण यांचा समावेश असावा. जग एकसंध, पॉलिश्ड आणि दृश्यदृष्ट्या समृद्ध वाटले पाहिजे, आयसोमेट्रिक दृष्टीकोनातून उत्तम काम करणाऱ्या प्रीमियम आर्ट डायरेक्शनसह. मला पाथ्स ठेवता आणि काढता येऊ द्या, आकर्षणे जोडता येऊ द्या, सीनरीची मांडणी करता येऊ द्या, आणि पाहुण्यांची हालचाल, राइडची स्थिती आणि पार्कची वाढ यावर लक्ष ठेवत पार्कमध्ये स्मूथपणे फिरता येऊ द्या. विश्वासार्ह पाहुण्यांची हालचाल, पैसे, स्वच्छता, रांगेचे व्यवस्थापन आणि आनंद यांसारख्या सोप्या पार्क व्यवस्थापन प्रणाली समाविष्ट करा, आणि अनुभव रफ प्रोटोटाइपसारखा न वाटता खेळकर, स्पष्ट आणि पूर्ण वाटेल असा करा. वास्तववादापेक्षा आकर्षण, वाचनीयता आणि मजबूत गेम फील यांना प्राधान्य द्या.
प्ले टेस्टिंग करताना, खेळाच्या अनेक फेऱ्यांमध्ये पार्क तयार करून त्याचा विस्तार करण्याची खात्री करा, प्लेसमेंट आणि नेव्हिगेशन सुरळीतपणे कार्य करतात याची पडताळणी करा, पाहुणे पार्कच्या मांडणीला आणि आकर्षणांना कसा प्रतिसाद देतात याची पुष्टी करा, आणि दृश्ये, UI आणि परस्परसंवाद स्थिर आणि सुसंगत वाटतात याची खात्री करा.
“आमच्या अभियंत्यांना GPT-5.4 मागील मॉडेलपेक्षा अधिक नैसर्गिक आणि अधिक ठाम . ते स्वतःवर शंका न घेता संदिग्ध समस्यांमधून मार्ग काढत काम करतं, आणि गोष्टी पुढे सरकत राहाव्यात म्हणून काम समांतरपणे करण्याबाबत ते सक्रिय असतं.”
GPT‑5.4 सह, आम्ही बाह्य साधनांसोबत मॉडेल कसे काम करतात यामध्ये लक्षणीयरीत्या सुधारणा केली आहे. एजंट्स आता अधिक मोठ्या टूल इकोसिस्टम्समध्ये काम करू शकतात, योग्य टूल्स अधिक विश्वासार्हपणे निवडू शकतात, आणि कमी खर्च व लेटन्सीसह मल्टी-स्टेप वर्कफ्लोज पूर्ण करू शकतात.
API मध्ये, GPT‑5.4 टूल शोध(नवीन विंडोमध्ये उघडेल) सादर करते, ज्यामुळे अनेक टूल्स दिली असताना मॉडेल्स कार्यक्षमतेने काम करू शकतात.
पूर्वी, जेव्हा एखाद्या मॉडेलला टूल्स दिल्या जात, तेव्हा सर्व टूल परिभाषा प्रॉम्प्टमध्ये सुरुवातीला समाविष्ट केल्या जात. अनेक टूल्स असलेल्या सिस्टीम्ससाठी, यामुळे प्रत्येक विनंतीमध्ये हजारो—किंवा अगदी दहा हजारो—टोकन जोडले जाऊ शकतात, ज्यामुळे खर्च वाढतो, प्रतिसाद मंदावतात, आणि मॉडेल कदाचित कधीच वापरणार नाही अशी माहिती कॉन्टेक्स्टमध्ये भरून जाते.
टूल शोधासह, GPT‑5.4 ला त्याऐवजी उपलब्ध टूल्सची एक साधी यादी तसेच टूल शोध क्षमता मिळते. जेव्हा मॉडेलला एखादे टूल वापरण्याची गरज असते, तेव्हा ते त्या टूलची परिभाषा शोधू शकते आणि त्या क्षणी ती संभाषणात समाविष्ट करू शकते.
हा दृष्टिकोन टूल-हेवी कार्यप्रवाहांसाठी आवश्यक असलेल्या टोकनची संख्या लक्षणीयरीत्या कमी करतो आणि कॅशे जतन करतो, ज्यामुळे विनंत्या अधिक जलद आणि स्वस्त होतात. हे एजंट्सना अधिक मोठ्या साधन परिसंस्थांसोबत विश्वासार्हपणे काम करण्यास देखील सक्षम करते. दहा हजारो टोकन असू शकणाऱ्या साधन परिभाषा असलेल्या MCP सर्व्हर्ससाठी, कार्यक्षमतेतील वाढ लक्षणीय असू शकते.
कार्यक्षमता वाढीचे प्रात्यक्षिक दाखवण्यासाठी, आम्ही Scale च्या MCP Atlas(नवीन विंडोमध्ये उघडेल) बेंचमार्कमधील 250 कार्यांचे मूल्यांकन केले, दोन मोड्समध्ये सर्व 36 MCP सर्व्हर सक्षम करून: (1) प्रत्येक MCP फंक्शन थेट मॉडेल संदर्भात उघडणे, आणि (2) सर्व MCP सर्व्हर टूल शोधामागे ठेवणे. टूल-शोध कॉन्फिगरेशनने समान अचूकता साध्य करताना एकूण टोकन वापर 47% ने कमी केला.
उदाहरण टोकन मोजणी MCP-Atlas सार्वजनिक डेटासेटमधील 250 कार्यांची सरासरी काढून मिळते.
GPT‑5.4 टूल कॉलिंगमध्येही सुधारणा करते, ज्यामुळे रीझनिंगदरम्यान, विशेषतः API मध्ये, टूल्स कधी आणि कसे वापरायचे हे ठरवताना ते अधिक अचूक आणि कार्यक्षम बनते. GPT‑5.2 च्या तुलनेत, Toolathlon वर कमी टर्नमध्ये ते अधिक अचूकता साध्य करते; हा एक बेंचमार्क आहे जो AI एजंट्स वास्तविक जगातील साधने आणि APIs वापरून बहु-टप्प्यांची कामे पूर्ण किती चांगल्या प्रकारे करू शकतात याची चाचणी करतो. उदाहरणार्थ, एका एजंटला ईमेल वाचणे, असाइनमेंटची अटॅचमेंट्स काढणे, त्या अपलोड करणे, त्यांचे मूल्यांकन करणे आणि स्प्रेडशीटमध्ये निकाल नोंदवणे आवश्यक असते.
टूल यील्ड म्हणजे जेव्हा असिस्टंट टूल प्रतिसादांची प्रतीक्षा करण्यासाठी यील्ड करतो. जर तीन टूल्स पॅरलेलमध्ये कॉल केली गेली आणि त्यानंतर आणखी तीन टूल्स पॅरलेलमध्ये कॉल केली गेली, तर उत्पन्नांची संख्या 2 असेल. साधनांच्या उत्पन्नांची संख्या ही लेटन्सीचे अधिक चांगले सूचक आहे, कारण ती समांतरतेचे फायदे प्रतिबिंबित करते.
लेटन्सी-संवेदनशील वापर प्रकरणांसाठी जिथे रीझनिंग effort None प्राधान्य दिले जाते, तिथे GPT‑5.4 त्याच्या पूर्वसुरींपेक्षा आणखी सुधारणा करते.
मध्ये τ2-bench(नवीन विंडोमध्ये उघडेल), मॉडेलला टूल्स वापरून ग्राहक सेवा कार्य पूर्ण करणे आवश्यक आहे, जिथे एक सिम्युलेटेड वापरकर्ता असू शकतो जो संवाद साधू शकतो आणि वर्ल्ड स्टेटवर क्रिया करू शकतो. रीझनिंग प्रयत्न None असे सेट केले होते.
GPT‑5.4 एजंटिक वेब सर्चमध्ये अधिक सक्षम आहे. BrowseComp वर, AI एजंट्सना कठीणपणे सापडणारी माहिती शोधण्यासाठी वेबवर सातत्याने ब्राउझ करण्याची क्षमता किती चांगली आहे याचे मोजमाप, GPT‑5.4 GPT‑5.2 पेक्षा 17%abs ने झेप घेते, आणि GPT‑5.4 Pro ने 89.3% चे एक नवीन अत्याधुनिक मानक स्थापित केले.
व्यवहारात, याचा अर्थ GPT‑5.4 वेबवरील अनेक स्रोतांमधील माहिती एकत्र करून उत्तर द्यावे लागणाऱ्या प्रश्नांची उत्तरे देण्यात Thinking अधिक मजबूत आहे. हे अनेक फेऱ्यांमध्ये अधिक सातत्याने शोध घेऊन सर्वात संबंधित स्रोत ओळखू शकते, विशेषतः “गवताच्या ढिगाऱ्यातील सुई” प्रकारच्या प्रश्नांसाठी, आणि त्यांचे संकलन करून स्पष्ट, सुबोध आणि तर्कसंगत उत्तर तयार करू शकते.
BrowseComp मध्ये, दूषितीकरण टाळण्यासाठी आणि कार्यक्षमतेचे न्याय्य मोजमाप सुनिश्चित करण्यासाठी, आम्ही मूल्यांकनातून बेंचमार्क उत्तरे असलेल्या वेबसाइट्स वगळणारी शोध ब्लॉकलिस्ट वापरली. GPT‑5.4 चे मोजमाप GPT‑5.2 पेक्षा नंतरच्या तारखेला करण्यात आले, म्हणून स्कोअर्स मॉडेल, आमची शोध प्रणाली आणि इंटरनेटची स्थिती यांमधील बदल प्रतिबिंबित करतात. GPT‑5.4 ची चाचणी अधिक लांब, अद्ययावत ब्लॉकलिस्टसह करण्यात आली. मॉडेल्स ChatGPT शोध साधन वापरतात, ज्यामध्ये API शोध पेक्षा लहान फरक असू शकतात.
“GPT-5.4 xhigh हे बहु-चरण साधन वापरासाठी नवीन स्टेट-ऑफ-द-आर्ट आहे. Zapier उद्योगातील काही सर्वात कठोर टूल यूज बेंचमार्क्स चालवते, शेकडो अॅडव्हान्स्ड रिअल-वर्ल्ड वर्कफ्लोजमध्ये मॉडेल्सची चाचणी घेते. GPT-5.4 ने मागील मॉडेल्सने हार मानलेल्या ठिकाणी काम पूर्ण केले - आजपर्यंतचे सर्वात चिकाटीचे मॉडेल.
Codex काम सुरू करताना जसा त्याचा दृष्टिकोन मांडतो, त्याचप्रमाणे, GPT‑5.4 ChatGPT मधील Thinking आता अधिक लांब, अधिक गुंतागुंतीच्या क्वेरीजसाठी प्रीअॅम्बलसह आपले काम मांडून दाखवेल. तुम्ही सूचनाही जोडू शकता किंवा प्रतिसादाच्या मध्यात त्याची दिशा समायोजित करू शकता. यामुळे पुन्हा सुरुवात न करता किंवा अनेक अतिरिक्त टर्न्सची गरज न पडता, तुम्हाला हवे असलेले अचूक परिणाम मिळवण्यासाठी मॉडेलला मार्गदर्शन करणे अधिक सोपे होते. हे वैशिष्ट्य आता chatgpt.com(नवीन विंडोमध्ये उघडेल) आणि Android अॅपवर उपलब्ध आहे, iOS अॅपवर लवकरच येत आहे.
मॉडेल कठीण कामांवर अधिक काळ विचार करू शकते आणि संभाषणातील आधीच्या टप्प्यांची अधिक मजबूत जाणीव राखू शकते. यामुळे ते अधिक लांब वर्कफ्लो आणि अधिक क्लिष्ट प्रॉम्प्ट हाताळू शकते आणि संपूर्ण प्रक्रियेत उत्तरे सुसंगत आणि संबंधित ठेवते.
हे व्हिडिओ चित्रणात्मक उद्देशांसाठी वेग वाढवला आहे.
अलीकडच्या महिन्यांत, GPT‑5.4 तैनातीसाठी तयार करत असताना, GPT‑5.3‑Codex सोबत आम्ही सादर केलेल्या संरक्षण उपायांमध्ये आम्ही सुधारणा करत राहिलो आहोत. GPT‑5.3‑Codex प्रमाणेच, आम्ही आमच्या प्रिपेयर्डनेस फ्रेमवर्क अंतर्गत GPT‑5.4 ला उच्च सायबर क्षमता म्हणून मानत आहोत आणि आम्ही ते सिस्टम कार्ड मध्ये नमूद केल्याप्रमाणे संबंधित संरक्षणांसह तैनात करत आहोत. यामध्ये विस्तारित सायबर सुरक्षा स्टॅक, निरीक्षण प्रणाली, विश्वासार्ह प्रवेश नियंत्रणे, आणि झीरो डेटा रिटेन्शन (ZDR) पृष्ठभागांवर असलेल्या ग्राहकांसाठी उच्च-जोखीम असलेल्या विनंत्यांसाठी असिंक्रोनस ब्लॉकिंग, तसेच व्यापक सुरक्षा परिसंस्थेमध्ये सुरू असलेली गुंतवणूक यांचा समावेश आहे.
सायबरसुरक्षा क्षमता स्वभावतः दुहेरी-वापराच्या असल्यामुळे, आम्ही आमची धोरणे आणि वर्गीकरणकर्ते समायोजित करत राहात असताना तैनातीसाठी सावधगिरीचा दृष्टिकोन राखतो. ZDR पृष्ठभागांवरील काही विशिष्ट ग्राहकांसाठी, विनंती-स्तरावरील ब्लॉकिंग आमच्या सायबर जोखीम शमन स्टॅकचा भाग राहतो; क्लासिफायर्स अजूनही सुधारत असल्यामुळे, आम्ही हे सुरक्षा उपाय अधिक परिष्कृत करत राहतो तशी काही खोटी सकारात्मक प्रकरणे होऊ शकतात. या अद्यतनांचा उद्देश व्यवहारात सुरक्षात्मक उपाय कसे कार्य करतात ते सुधारण्याचा आहे, ज्यामध्ये अनावश्यक नकार आणि अतिशय सावधगिरीच्या सूचनांसह येणारी उत्तरे कमी करणे समाविष्ट आहे, तसेच गैरवापराविरुद्ध मजबूत संरक्षणे कायम ठेवणेही आहे.
मॉडेल्स कसे तर्क करतात हे अधिक चांगल्या प्रकारे समजून घेण्यासाठी आणि संभाव्य गैरवर्तन शोधण्यात मदत करण्यासाठी आम्ही चेन-ऑफ-थॉट (CoT) मॉनिटरॅबिलिटीवरील आमचे सुरक्षा संशोधन सुरू ठेवले आहे. या कामाचा भाग म्हणून, आम्ही एक नवीन ओपन-सोर्स मूल्यांकन सादर करतो, CoT controllability, जे मॉडेल्स मॉनिटरिंग टाळण्यासाठी त्यांच्या रीझनिंगला जाणूनबुजून अस्पष्ट करू शकतात का हे मोजते. आम्हाला आढळले की GPT‑5.4 Thinking ची त्याच्या CoT वर नियंत्रण ठेवण्याची क्षमता कमी आहे, जी सुरक्षिततेसाठी एक सकारात्मक गुणधर्म आहे, यावरून असे सूचित होते की मॉडेलमध्ये त्याचे रीझनिंग लपवण्याची क्षमता नाही आणि CoT मॉनिटरिंग हे एक प्रभावी सुरक्षा साधन राहते.
GPT‑5.4 आज ChatGPT आणि Codex मध्ये हळूहळू रोलआउट होत आहे. API मध्ये GPT‑5.4 आता gpt-5.4 म्हणून उपलब्ध आहे. GPT‑5.4 Pro API मध्ये gpt-5.4-pro म्हणून देखील उपलब्ध आहे अशा विकसकांसाठी ज्यांना सर्वात जटिल कामांसाठी कमाल कार्यक्षमता आवश्यक आहे.
ChatGPT मध्ये GPT‑5.4 Thinking आजपासून ChatGPT Plus, Team, आणि Pro वापरकर्त्यांसाठी उपलब्ध आहे, जे GPT‑5.2 Thinking ची जागा घेत आहे. GPT‑5.2 Thinking सशुल्क वापरकर्त्यांसाठी Legacy Models विभागातील मॉडेल पिकरमध्ये तीन महिन्यांसाठी उपलब्ध राहील, त्यानंतर ते 5 जून, 2026 रोजी निवृत्त केले जाईल. Enterprise आणि Edu योजनांवरील वापरकर्ते अॅडमिन सेटिंग्जद्वारे प्रारंभिक प्रवेश सक्षम करू शकतात. GPT‑5.4 Pro आणि Enterprise योजनांसाठी Pro उपलब्ध आहे. संदर्भ विंडोज(नवीन विंडोमध्ये उघडेल) ChatGPT मध्ये GPT‑5.4 साठी थिंकिंग GPT‑5.2 थिंकिंगमधून अपरिवर्तित राहते.
GPT‑5.4 हे आमचे पहिले मुख्य प्रवाहातील रीझनिंग मॉडेल आहे, जे GPT‑5.3‑codex च्या अत्याधुनिक कोडिंग क्षमतांचा समावेश करते आणि ते ChatGPT, API आणि Codex मध्ये रोलआउट होत आहे. आम्ही त्याला GPT‑5.4 म्हणत आहोत जे त्या उडीचे प्रतिबिंब आहे आणि Codex वापरताना मॉडेल्समधील निवड सोपी करण्यासाठी आहे. कालांतराने, आमची Instant मॉडेल आणि Thinking मॉडेल वेगवेगळ्या गतीने विकसित होतील अशी तुम्ही अपेक्षा करू शकता.
Codex मधील GPT‑5.4 मध्ये 1M कॉन्टेक्स्ट विंडोसाठी प्रायोगिक सपोर्ट समाविष्ट आहे. डेव्हलपर्स model_context_window आणि model_auto_compact_token_limit कॉन्फिगर करून हे वापरून पाहू शकतात. मानक 272K संदर्भ विंडोपेक्षा जास्त असलेल्या विनंत्या वापर मर्यादांमध्ये सामान्य दराच्या 2x दराने मोजल्या जातात.
API मध्ये, GPT‑5.4 ची किंमत प्रति टोकन GPT‑5.2 पेक्षा जास्त आहे, त्याच्या सुधारित क्षमतांचे प्रतिबिंब म्हणून; तर त्याची अधिक टोकन कार्यक्षमता अनेक कामांसाठी आवश्यक असलेल्या एकूण टोकन्सची संख्या कमी करण्यास मदत करते. Batch आणि Flex प्राइसिंग मानक API दराच्या निम्म्या दरात उपलब्ध आहेत, तर Priority प्रोसेसिंग मानक API दराच्या दुप्पट दरात उपलब्ध आहे.
API मॉडेल | इनपुट किंमत | कॅश केलेल्या इनपुटची किंमत | आउटपुट किंमत |
gpt-5.2 | $1.75 / M टोकन | $0.175 / M टोकन | $14 / M टोकन |
gpt-5.4 | $2.50 / M टोकन | $0.25 / M टोकन | $15 / M टोकन |
gpt-5.2-pro | $21 / M टोकन | - | $168 (₹13,440) / M टोकन |
gpt-5.4-pro | $30 / M टोकन | - | $180 / M टोकन |
व्यावसायिक
मुल्यांकन | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
इन्व्हेस्टमेंट बँकिंग मॉडेलिंग टास्क (अंतर्गत) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
कोडिंग
मुल्यांकन | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (सार्वजनिक) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
कम्प्युटर वापर आणि दृष्टी
मुल्यांकन | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-व्हेरिफाइड | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (साधने नाहीत) | 81.2% | — | — | 79.5% | — |
MMMU Pro (साधनांसह) | 82.1% | — | — | 80.4% | — |
साधनांचा वापर
मुल्यांकन | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
अकॅडमिक
मुल्यांकन | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
अत्याधुनिक विज्ञान संशोधन | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath स्तर 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath स्तर 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
मानवतेची शेवटची परीक्षा (नो टूल्स) | 39.8% | 42.7% | — | 34.5% | 36.6% |
ह्यूमॅनिटीचा शेवटचा परीक्षेचा पेपर (साधनांसह) | 52.1% | 58.7% | — | 45.5% | 50.0% |
लांब संदर्भ
मुल्यांकन | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks पालक 0–128K (अचूकता) | 89.8% | — | — | 89.0% | — |
Graphwalks पालक 256K–1M (अचूकता) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 आठ needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
अमूर्त तर्क
मुल्यांकन | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (व्हेरीफाईड) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (व्हेरीफाईड) | 73.3% | 83.3% | — | 52.9% | 54.2% (उच्च) |
रीझनिंगशिवाय मुल्यांकन
मुल्यांकन | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (नॉर्मलाइझ्ड एडिट डिस्टन्स) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
रीझनिंग इफर्ट xhigh वर सेट करून Evals चालवले गेले, अन्यथा निर्दिष्ट केलेल्या ठिकाणी वगळता. संशोधन वातावरणात बेंचमार्क चाचण्या केल्या गेल्या, ज्यामुळे काही प्रकरणांमध्ये उत्पादन ChatGPT पेक्षा थोडासा वेगळा आउटपुट मिळू शकतो.
लेखक
फूटनोट्स
1 मानवी कामगिरीचा अहवाल OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(नवीन विंडोमध्ये उघडेल) मध्ये दिला आहे.


