आज, हम अपने API प्लैटफ़ॉर्म में GPT‑5 रिलीज़ कर रहे हैं—कोडिंग और एजेंटिक टास्क के लिए हमारा अब तक का सबसे बेहतरीन मॉडल.
GPT‑5 प्रमुख कोडिंग बेंचमार्क्स में बेहतरीन (SOTA) है, जिसने SWE-बेंच Verified पर 74.9% और Aider polyglot पर 88% स्कोर किया है. हमने GPT‑5 को एक सच्चा कोडिंग कोलैबोरेटर बनने के लिए ट्रेन किया. ये हाई-क्वालिटी वाला कोड तैयार करने और बग्स को ठीक करने, कोड को एडिट करने और कॉम्प्लेक्स कोडबेसेस के बारे में सवालों का जवाब देने जैसे सारे टास्क को हैंडल करने में बेहतरीन है. यह मॉडल नियंत्रित करने योग्य और सहयोगी है—यह उच्च सटीकता के साथ बहुत विस्तृत निर्देशों का पालन कर सकता है और टूल कॉल्स से पहले तथा उनके बीच अपने एक्शन की अग्रिम व्याख्या दे सकता है. ये मॉडल फ़्रंट-एंड कोडिंग में भी बेहतरीन तरीके से प्रदर्शन करता है, और इसने इंटर्नल टेस्टिंग में फ़्रंटएंड वेब डेवलपमेंट में OpenAI o3 को 70% तक पीछे छोड़ दिया है.
हमने स्टार्टअप्स और एंटरप्राइज़ेस के शुरुआती टेस्टर्स के साथ मिलकर GPT‑5 को रियल-वर्ल्ड के कोडिंग टास्क पर ट्रेन किया. Cursor कहते हैं GPT‑5 वह सबसे स्मार्ट मॉडल है जिसका हमने उपयोग किया है, और यह बेहद बुद्धिमान, आसानी से नियंत्रित किया जा सकने वाला है, और इसमें एक ऐसा पर्सनैलिटी है जो हमने अन्य मॉडलों में नहीं देखा." Windsurf ने साझा किया कि GPT‑5 उनके मूल्यांकनों (evals) में SOTA है और “अन्य फ्रंटियर मॉडलों की तुलना में इसकी टूल कॉलिंग त्रुटि दर आधी है." Vercel कहते हैं, “यह सबसे बेहतरीन फ्रंटएंड AI मॉडल है, जो एस्थेटिक सेंस और कोड क्वालिटी दोनों में शीर्ष प्रदर्शन करता है, और इसे अपनी ही एक अलग श्रेणी में रखता है.”
GPT‑5 लंबे समय तक चलने वाले एजेंटिक टास्क में भी बेहतरीन तरीके से प्रदर्शन करता है—जिसने τ2-बेंच टेलीकॉम (96.7%) पर SOTA परिणाम दिए, जो कि सिर्फ़ 2 महीने पहले रिलीज़ किया गया एक टूल-कॉलिंग बेंचमार्क है. GPT‑5 की बेहतर टूल इंटेलिजेंस इसे दर्जनों टूल कॉल्स को भरोसेमंद तरीके से एक साथ जोड़ने की सुविधा देती है—सीक्वेंस और पैरेलल दोनों में—बिना अपना रास्ता खोए, जिससे ये कॉम्प्लेक्स, रियल-वर्ल्ड के टास्क को एंड टू एंड एक्सीक्यूट करने में कहीं ज़्यादा बेहतर बन जाता है. ये टूल इंस्ट्रक्शन्स को और ज़्यादा सटीकता से फ़ॉलो करता है, टूल एरर को बेहतर तरीके से हैंडल करता है, और लॉन्ग-कॉन्टेक्स्ट कंटेंट रिट्रीवल में बेहतरीन तरीके से परफ़ॉर्म करता है. Manus कहते हैं GPT‑5 ने हमारे इंटर्नल बेंचमार्क्स पर किसी भी एकल मॉडल की तुलना में अब तक का सबसे बेहतरीन प्रदर्शन किया है.” Notion कहते हैं:“[मॉडल] की तेज़ रिस्पांस, ख़ासकर लो-रीज़निंग मोड में, GPT‑5 को एक आदर्श मॉडल बनाती हैं जब आपको जटिल कार्य एक ही बार में हल करने की आवश्यकता हो.” Inditex ने शेयर किया कि “जो चीज़ [GPT‑5] को वाकई में अलग बनाती है, वो है इसकी रीज़निंग की गहराई: बहुत बारीक, मल्टी-लेयर्ड जवाब जो असली सब्जेक्ट-मैटर की समझ को रिफ़्लेक्ट करते हैं.”
हम अपने API में नए फ़ीचर्स पेश कर रहे हैं ताकि डेवलपर्स को मॉडल जवाबों पर और ज़्यादा कंट्रोल मिल सके. GPT‑5 एक नए वर्बोसिटी पैरामीटर (वैल्यू: कम, मीडियम, ज़्यादा) को सपोर्ट करता है, जो ये कंट्रोल करने में मदद करता है कि जवाब छोटे और सटीक हों या लंबे और डिटेल में हों. GPT‑5 का reasoning_effort पैरामीटर अब पहले बहुत ज़्यादा रीज़निंग के बिना, तेज़ी से रिस्पांस पाने के लिए न्यूनतम मान ले सकता है. हमने एक नया टूल टाइप—कस्टम टूल्स—भी जोड़ा है ताकि GPT‑5 को JSON के बजाय प्लेन टेक्स्ट के साथ टूल्स को कॉल कर सके. कस्टम टूल्स डेवलपर द्वारा सप्लाई किए गए कॉन्टेक्स्ट-फ़्री ग्रैमर द्वारा सीमाएं निर्धारित करने का सपोर्ट करते हैं.
हम API में GPT‑5 को तीन साइज़ों में रिलीज़ कर रहे हैं—gpt-5, gpt-5-mini, और gpt-5-nano—ताकि डेवलपर्स को परफ़ॉर्मेंस, खर्चे और लेटेंसी के बीच बैलेंस कर पाने में और ज़्यादा फ़्लेक्सिबिलिटी मिल सके. जबकि ChatGPT में GPT‑5 रीज़निंग, नॉन-रीज़निंग, और राउटर मॉडल्स का एक सिस्टम है, API प्लैटफ़ॉर्म में GPT‑5 रीज़निंग मॉडल है जो ChatGPT को मैक्सिमम परफ़ॉर्मेंस देने में मदद करता है. ख़ास तौर से, मिनिमल रीज़निंग के साथ GPT‑5, ChatGPT में नॉन-रीज़निंग मॉडल के मुकाबले एक अलग मॉडल है, और डेवलपर्स के लिए बेहतर ट्यून किया गया है. ChatGPT में इस्तेमाल किया जानेवाला नॉन-रीज़निंग मॉडलgpt-5-chat-latest के तौर पर उपलब्ध है.
ChatGPT में GPT‑5 के बारे में पढ़ने और ChatGPT के अन्य सुधारों के बारे में जानने के लिए हमारारिसर्च ब्लॉगदेखें. यह जानने के लिए कि एंटरप्राइज़ GPT‑5 का उपयोग करने को लेकर क्यों उत्साहित हैं, हमारा एंटरप्राइज़ ब्लॉग देखें.
GPT‑5 हमारे द्वारा रिलीज़ किया गया अब तक का सबसे मज़बूत कोडिंग मॉडल है. यह कोडिंग बेंचमार्क्स और वास्तविक उपयोग मामलों में o3 से बेहतर प्रदर्शन करता है, और इसे Cursor, Windsurf, GitHub Copilot और Codex CLI जैसे एजेंटिक कोडिंग प्रोडक्ट्स में उत्कृष्टता के लिए फाइन-ट्यून किया गया है. GPT‑5 ने हमारे अल्फ़ा टेस्टर्स को प्रभावित किया, और उनके कई प्राइवेट इंटर्नल इवैल्यूएशन्स में रिकॉर्ड सेट किए.
रियल-वर्ल्ड के कोडिंग टास्क के लिए GPT‑5 पर शुरूआती फ़ीडबैक
“GPT-5 सबसे स्मार्ट कोडिंग मॉडल है जिसका हमने इस्तेमाल किया है. हमारी टीम ने पाया है कि GPT-5 अत्यंत बुद्धिमान है, इसे निर्देशित करना आसान है, और इसमें ऐसी पर्सनैलिटी है जो हमें किसी अन्य मॉडल में अब तक नहीं मिली. ये न सिर्फ़ मुश्किल, गहराई से छिपे हुए बग्स को पकड़ लेता है, बल्कि बेहद मुश्किल टास्क को भी आखिर तक पूरे करने के लिए लंबे, मल्टी-टर्न बैकग्राउंड एजेंट्स भी रन कर सकता है—ऐसे तरह के प्रॉब्लम्स जिनसे दूसरे मॉडल्स अटक जाते थे. ये PRs की प्लैनिंग बनाने और स्कोपिंग से लेकर एंड-टू-एंड बिल्ड्स को पूरा करने तक हर चीज़ के लिए हमारी मदद करता है."
SWE-बेंच Verified पर, जो रियल-वर्ल्ड के सॉफ़्टवेयर इंजीनियरिंग टास्क पर बेस्ड एक मूल्यांकन है, GPT‑5 74.9% स्कोर करता है, जो o3 के 69.1% से ज़्यादा है. ख़ास तौर से, GPT‑5 को उसकी ज़्यादा एफ़िशिएंसी और स्पीड के कारण हाई स्कोर मिलता है: रीज़निंग की ज़्यादा कोशिश के मामले में o3 के मुकाबले, GPT‑5 22% कम आउटपुट टोकन्स और 45% कम टूल कॉल्स का इस्तेमाल करता है.
SWE-बेंच Verified में, एक मॉडल को एक कोड रिपोज़िटरी और समस्या विवरण दिया जाता है, और समस्या को हल करने के लिए एक पैच जनरेट करना होता है. टेक्स्ट लेबल्स रीज़निंग की मेहनत को इंगित करते हैं. हमारे स्कोर में 500 में से 23 प्रॉब्लम्स शामिल नहीं हैं, जिनके सॉल्यूशन्स हमारे इंफ़्रास्ट्रक्चर्स पर भरोसेमंद तरीके से लागू नहीं हुए. GPT‑5 को एक छोटा-सा प्रॉम्प्ट दिया गया था जिसमें सॉल्यूशन्स को पूरी तरह से वेरिफ़ाई करने पर ज़ोर दिया गया था; वही प्रॉम्प्ट o3 के लिए फ़ायदेमंद नहीं था.
Aider polyglot पर, जो कोड एडिटिंग का एक मूल्यांकन है, GPT‑5 ने 88% का नया रिकॉर्ड बनाया है, जो o3 की तुलना में त्रुटि दर में एक-तिहाई की कमी दर्शाता है.
Aider polygot(एक नई विंडो में खुलेगा) (diff) में, एक मॉडल को Exercism से एक कोडिंग एक्सरसाइज़ दिया जाता है और उसे इसका समाधान कोड diff के तौर पर लिखना होता है. रीज़निंग मॉडल्स को हाई रीज़निंग की कोशिश के साथ रन किया गया.
हमने ये भी पाया है कि GPT‑5 कोडबेस में गहराई से जानकारी निकालने में बेहतरीन है, ताकि इनके बारे में सवालों के जवाब मिल सकें कि कैसे अलग-अलग हिस्से काम करते हैं या आपस में ऑपरेट करते हैं. OpenAI के रीइंफ़ोर्समेंट लर्निंग स्टैक जैसे कॉम्प्लेक्स कोडबेस में, हम देख रहे हैं कि GPT‑5 हमें अपने कोड के बारे में रीज़निंग करने और सवालों के जवाब देने में मदद कर सकता है, जिससे हमारे अपने रोज़ के काम तेज़ी से किए जा सकते हैं.
वेब ऐप्स के लिए फ़्रंटएंड कोड तैयार करते समय, GPT‑5 और ज़्यादा क्रिएटिव है, और इसके रिज़ल्ट्स बेहतर, और सही होते हैं. साथ ही साथ o3 के कम्पैरिज़न्स किए जाने पर, हमारे टेस्टर्स ने 70% समय GPT‑5 को पसंद किया.
यहां कुछ मज़ेदार, चुनिंदा एक्ज़ाम्प्ल्स दिए गए हैं कि GPT‑5 एक ही सिंगल प्रॉम्प्ट के साथ क्या कर सकता है:
प्रॉम्प्ट: प्लीज़ एक ऐसी सर्विस के लिए एक सुंदर, रीयलिस्टिक लैंडिंग पेजठ बनाओ जो एक कट्टर कॉफ़ी प्रेमी को $ 200 / माह की सब्सक्रिप्शन दे, जो कॉफ़ी रोस्ट करने और बेहतरीन espresso बनाने के लिए किराये पर साधन और ट्रेनिंग दे. टार्गेट ऑडियंस, बे एरिया के मध्यम-आयु वर्ग का एक व्यक्ति है, जो टेक में काम करता है और शिक्षित है, जिसके पास खर्च करने लायक आय है, और जो कॉफ़ी की कला और विज्ञान के प्रति जुनूनी हैं. 6 महीने के साइनअप के लिए कन्वर्ज़न हेतु ऑप्टिमाइज़ करो.
हमारी गैलरी में GPT‑5 के और ज़्यादा उदहारण यहां(एक नई विंडो में खुलेगा) देखें.
GPT‑5 एक बेहतर सहयोगी है, ख़ास तौर से Cursor, Windsurf, GitHub Copilot और Codex CLI जैसे एजेंटिक कोडिंग प्रोडक्ट्स में. जब ये काम करता है, GPT‑5 टूल कॉल्स के बीच में प्लैन्स, अपडेट और रीकैप्स को आउटपुट कर सकता है. हमारे पिछले मॉडल्स के मुकाबले, GPT‑5 आपकी मंज़ूरी के लिए रुके बिना या बहुत ज़्यादा कॉम्प्लेक्सिटी पर अड़चन डाले बिना एम्बिशियस टास्क को पूरा करने में और ज़्यादा प्रोएक्टिव है.
यहां एक उदहारण दिया गया है कि GPT‑5 एक कॉम्प्लेक्स टास्क करते समय कैसा दिख सकता है (इस केस में, एक रेस्टोरेंट के लिए एक वेबसाइट बनाना):
यूज़र द्वारा अपने रेस्टोरेंटके लिए वेबसाइट बनाने की रिक्वेस्ट के बाद, GPT‑5 एक क्विक प्लैन शेयर करता है, ऐप का ड्राफ़्ट तैयार करता है, डिपेंडेंसीज़ इंस्टॉल करता है, साइट कंटेंट बनाता है, कंपाइलेशन एरर चेक करने के लिए बिल्ड को रन करता है, अपने काम की समरी प्रस्तुत करता है, और आगे के संभावित स्टेप्स के बारे में सुझाव देता है. आपके इंतज़ार का समय बचाने के लिए इस वीडियो की स्पीड लगभग तीन गुना बढ़ा दी गई है; वेबसाइट बनाने में कुल तीन मिनट का समय लगा.
एजेंटिक कोडिंग के अलावा, GPT‑5 आम तौर पर एजेंटिक टास्क में बेहतर है. GPT‑5 ने इंस्ट्रक्शन फ़ॉलो करने (Scale MultiChallenge पर 69.6%, जैसा कि o3‑mini को ग्रेड मिला था) और टूल कॉलिंग (τ2-बेंच टेलीकॉम पर 96.7%) के बेंचमार्क्स पर नए रिकॉर्ड सेट किए. बेहतर टूल इंटेलिजेंस GPT‑5 को रियल-वर्ल्ड के टास्क को पूरा करने के लिए एक्शन्स को और ज़्यादा भरोसेमंद तरीके से एक साथ जोड़ने में मदद करता है.
एजेंटिक टास्क के लिए GPT‑5 पर शुरूआती फ़ीडबैक
“GPT-5 एक बड़ा कदम है. इसने हमारे इंटर्नल बेंचमार्क्स पर किसी भी सिंगल मॉडल से अब तक का बेहतरीन परफ़ॉर्मेंस हासिल किया. GPT-5 ने कई एजेंटिक टास्क में बेहतरीन तरीके से परफ़ॉर्म किया— हमारे द्वारा कोड की एक भी लाइन में बदलाव करने या कोई प्रॉम्प्ट तैयार करने से भी पहले. नए प्रीएम्बल्स और टूल के इस्तेमाल पर और ज़्यादा सटीक कंट्रोल ने हमारे एजेंट्स की स्थिरता और संचालन क्षमता में एक अहम छलांग लगाने में मदद की."
GPT‑5 इंडस्ट्री में ऐसी बाक़ी कंपनियों की तुलना में निर्देशों को ज़्यादा भरोसेमंद तरीके से फ़ॉलो करता है, और COLLIE, Scale MultiChallenge, और हमारे इंटरनल इंस्ट्रक्शन फ़ॉलोइंग इवैल पर अच्छे स्कोर प्राप्त करता है.
COLLIE(एक नई विंडो में खुलेगा) में, मॉडलों को ऐसा टेक्स्ट लिखना होता है जो विभिन्न प्रतिबंधों का पालन करता हो. Scale MultiChallenge(एक नई विंडो में खुलेगा) में,मॉडल्स को मल्टी-टर्न कन्वर्सेशन्स में चुनौती दी जाती है कि वे पिछले मैसेजेज़ से चार तरह की जानकारी का सही इस्तेमाल करें. हमारे स्कोर o3‑mini को ग्रेडर के तौर पर इस्तेमाल करके प्राप्त किए गए हैं, जो GPT‑4o की तुलना में ज़्यादा सही साबित हुआ. हमारे इंटर्नल OpenAI API इंस्ट्रक्शन फ़ॉलोविंग इवैल में, मॉडल्स को रियल डेवलपर फ़ीडबैक से निकाले गए मुश्किल इंस्ट्रक्शन्स को फ़ॉलो करना होता है. रीज़निंग मॉडल्स को हाई रीज़निंग की कोशिश के साथ रन किया गया.
हमने टूल कॉलिंग को उन तरीकों से बेहतर बनाने के लिए कड़ी मेहनत की जो डेवलपर्स के लिए मायने रखते हैं. GPT‑5 टूल इंस्ट्रक्शन्स को फ़ॉलो करने में बेहतर है, टूल एरर्स से निपटने में बेहतर है, और प्रोएक्टिव तरीके से सीक्वेंस या पैरेलल में कई टूल कॉल्स करने में बेहतर है. निर्देश दिए जाने पर, GPT‑5 लंबे एजेंटिक टास्क के दौरान प्रोग्रेस के बारे में यूज़र्स को अपडेट करने के लिए टूल कॉल्स से पहले और बीच में प्रीएम्बल मेसेजेज़ भी आउटपुट कर सकता है.
दो महीने पहले, τ2-बेंच टेलीकॉम को Sierra.ai द्वारा एक चैलेंजिंग टूल के इस्तेमाल के बेंचमार्क के तौर पर पब्लिश किया गया था, जिसमें बताया गया था कि कैसे लैंग्वेज मॉडल का परफ़ॉर्मेंस एक एन्वायर्नमेंट की स्थिति के साथ इंटरैक्ट करते समय बहुत ज़्यादा गिर जाता है जिसे यूज़र्स द्वारा बदला जा सकता है. उनके पब्लिकेशन(एक नई विंडो में खुलेगा) में, किसी भी मॉडल ने 49% से ज़्यादा स्कोर नहीं किया. GPT‑5 ने 97% स्कोर किया.
τ2-बेंच(एक नई विंडो में खुलेगा) में, एक मॉडल को कस्टमर सर्विस टास्क को पूरा करने के लिए टूल्स का इस्तेमाल करना चाहिए, जहां एक यूज़र हो सकता है जो कम्यूनिकेट कर सकता है और वर्ल्ड स्टेट पर एक्शन्स ले सकता है. रीज़निंग मॉडल्स को हाई रीज़निंग की कोशिश के साथ रन किया गया.
GPT‑5 लंबे-कॉन्टेक्स्ट के परफ़ॉर्मेंस में भी शानदार सुधार दिखाता है. OpenAI-MRCR पर, जो लॉन्ग-कॉन्टेक्स्ट इन्फ़ॉर्मेशन रिट्रीवल का एक माप है, GPT‑5, o3 और GPT‑4.1 से एक ऐसे मार्जिन से बेहतर परफ़ॉर्म करता है, जो लंबी इनपुट लंबाइयों के साथ काफ़ी बढ़ता जाता है.
OpenAI-MRCR(एक नई विंडो में खुलेगा) (मल्टी-राउंड को-रेफ़रेंस रिज़ॉल्यूशन) में, कई एक जैसे "सुई" वाली यूज़र रिक्वेस्ट को समान रिक्वेस्ट और जवाबों के लंबे "हेस्टैक्स" में डाला जाता है, और मॉडल को i-वें सुई के जवाब को दोबारा प्रोड्यूस करने के लिए कहा जाता है. मीन मैच रेशियो मॉडल के जवाब और सही जवाब के बीच एवरेज स्ट्रिंग मैच रेशियो को मापता है. 256k मैक्स इनपुट टोकन पर मौजूद पॉइंट्स 128k-256k इनपुट टोकन के एवरेज को रिप्रेज़ेंट करते हैं, और आगे भी इसी तरह. यहां, 256k, 256 * 1,024 = 262,114 टोकन को रिप्रेज़ेंट करता है. रीज़निंग मॉडल्स को हाई रीज़निंग की कोशिश के साथ रन किया गया.
हम BrowseComp Long Context(एक नई विंडो में खुलेगा) को भी ओपन सोर्स कर रहे हैं, जो लंबे-कॉन्टेक्स्ट सवाल-जवाब के इवैल्यूएशन के लिए एक नया बेंचमार्क है. इस बेंचमार्क में, मॉडल को एक यूज़र क्वेरी, प्रासंगिक सर्च रिज़ल्ट्स की एक लंबी लिस्ट दी जाती है, और उसेसर्च रिज़ल्ट्स के आधार पर सवाल का जवाब देना होता है. हमने BrowseComp Long Context को रीयलिस्टिक, मुश्किल और भरोसेमंद तरीके से सही मायनों में जांचे-परखे और सच्चे जवाब देने के लिए डिज़ाइन किया है. 128K-256K टोकन वाले इनपुट्स पर, GPT‑5 89% बार सही जवाब देता है.
API में, सभी GPT‑5 मॉडल्स मैक्सिमम 272,000 इनपुट टोकन स्वीकार कर सकते हैं और मैक्सिमम 128,000 रीज़निंग व आउटपुट टोकन एमिट कर सकते हैं, जिससे कॉन्टेक्स्ट की कुल लंबाई 400,000 टोकन हो जाती है.
GPT‑5 हमारे पिछले मॉडल्स के मुकाबले ज़्यादा भरोसेमंद है. LongFact और FactScore बेंचमार्क्स के प्रॉम्प्ट्स पर, GPT‑5, o3 के मुकाबले ~80% कम फ़ैक्चुअल एरर करता है. इससे ये एजेंटिक यूज़ केसेस के लिए ज़्यादा उपयुक्त बन जाता है, जहां करेक्टनेस मायने रखती है— ख़ास तौर से कोड, डेटा, और निर्णय-लेने में.
ज़्यादा बड़े स्कोर बदतर होते हैं. LongFact(एक नई विंडो में खुलेगा) और FActScore(एक नई विंडो में खुलेगा) में ओपन-एंडेड फ़ैक्ट-सीकिंग सवाल शामिल होते हैं. हम इन बेंचमार्क्स से मिले प्रॉम्प्ट्स पर जवाबों के फ़ैक्ट-चेक करने और फ़ैक्चुअल तरीके से गलत क्लेम्स के फ़्रैक्शन को मापने के लिए ब्राउज़िंग के साथ LLM-बेस्ड ग्रेडर का इस्तेमाल करते हैं. लागू करने और ग्रेडिंग का विवरण सिस्टम कार्ड में देखा जा सकता है. रीज़निंग मॉडल्स में हाई रीज़निंग की कोशिश का इस्तेमाल किया गया. सर्च इनेबल नहीं की हुई थी.
आम तौर पर, GPT‑5 को अपनी सीमाओं के प्रति ज़्यादा जागरूक होने और अचानक आने वाली मुश्किलों को बेहतर तरीके से हैंडल करने के लिए ट्रेन किया गया है. हमने GPT‑5 को स्वास्थ्य संबंधी प्रश्नों पर और भी अधिक सटीक बनाने के लिए प्रशिक्षित किया है (ज़्यादा जानकारी के लिए हमारा रिसर्च ब्लॉग पढ़ें). सभी लैंग्वेज मॉडल्स की तरह, हमारा सुझाव है कि आप GPT‑5 के काम को तब वेरिफ़ाई करें जब जोखिम ज़्यादा हों.
डेवलपर्स, API में reasoning_effort पैरामीटर के ज़रिये GPT‑5 के सोचने के समय को कंट्रोल कर सकते हैं. पहले की वैल्यू के अलावा—कम, मीडियम (डिफ़ॉल्ट), और ज़्यादा—GPT‑5 मिनिमल को भी सपोर्ट करता है, जिससे जवाब जल्दी देने के लिए GPT‑5 की रीज़निंग मिनिमम हो जाती है.
ज़्यादा reasoning_effort वैल्यूज़ क्वालिटी को मैक्सिमाइज़ करती हैं और कम वैल्यूज़ स्पीड को मैक्सिमाज़ करती हैं. सभी टास्क को एक्स्ट्रा रीज़निंग से एक जैसा फ़ायदा नहीं मिलता, इसलिए हमारा सुझाव है कि एक्सपेरिमेंट करके देखें कि आपके लिए ज़रूरी यूज़ केसेस में कौन सा वाला सबसे अच्छा काम करता है.
जैसे कि, कम से ऊपर की रीज़निंग सिंपल लॉन्ग-कॉन्टेक्स्ट रिट्रीवल में कुछ ख़ास मदद नहीं करती है, लेकिन एक विज़ुअल रीज़निंग बेंचमार्क, CharXiv Reasoning(एक नई विंडो में खुलेगा), में काफ़ी प्रतिशत पॉइंट्स जुड़ जाते हैं.
GPT‑5 की रीज़निंग की कोशिश अलग-अलग टास्क पर अलग-अलग फ़ायदे देती है. CharXiv रीज़निंग के लिए, GPT‑5 को एक Python टूल के लिए एक्सेस दी गई थी.
GPT‑5 के जवाबों की डिफ़ॉल्ट लंबाई को कंट्रोल करने में मदद के लिए, हमने एक नया API पैरामीटर वर्बोसिटी पेश किया है, जो वैल्यू के तौर पर कम, मीडियम (डिफ़ॉल्ट) और ज़्यादा को लेता है. अगर क्लियर इंस्ट्रक्शन्स, वर्बोसिटी के पैरामीटर्स के साथ कॉन्फ़्लिक्ट करते हों, तो क्लियर इंस्ट्रक्शन्स को प्राथमिकता दी जाती है. जैसे कि, अगर आप GPT‑5 से कहते हैं कि “एक 5 पैराग्राफ़ का निबंध लिखो”, तो इस मॉडल का जवाब हमेशा 5 पैराग्राफ़ों का होना चाहिए, चाहे वर्बोसिटी का लेवल कुछ भी हो (हालांकि, पैराग्राफ़ खुद लंबे या छोटे हो सकते हैं).
वर्बोसिटी=कम
वर्बोसिटी=मीडियम
वर्बोसिटी=ज़्यादा
यदि निर्देश दिया जाए, तो GPT‑5 टूल कॉल्स से पहले और बीच में यूज़र को दिखाई देने वाले प्रीएम्बल मेसेजेज़ आउटपुट करेगा. छिपे हुए रीज़निंग मेसेजेज़ के विपरीत, ये दिखाई देने वाले मेसेजेज़ GPT‑5 को यूज़र को प्लैन्स और प्रोग्रेस के बारे में बताने में मदद करते हैं, जिससे एंड यूज़र्स को टूल कॉल्स के पीछे की अप्रोच और इरादे को समझने में मदद मिलती है.
हम एक नया टूल टाइप—कस्टम टूल—पेश कर रहे हैं, जो GPT‑5 को JSON के बजाय प्लेनटेक्स्ट के साथ टूल को कॉल करने में मदद करता है. GPT‑5 को कस्टम टूल फ़ॉर्मेट्स को फ़ॉलो करने के लिए बाध्य करने के लिए, डेवलपर्स एक regex, या यहां तक कि ज़्यादा पूरे तरीके से बताये गए कॉन्टेक्स्ट-फ़्री ग्रैमर(एक नई विंडो में खुलेगा) दे सकते हैं.
पहले, डेवलपर-डिफ़ाइन्ड टूल्स के लिए हमारे इंटरफ़ेस को उन्हें JSON के साथ कॉल करने की ज़रुरत पड़ती थी, जो कि वेब APIs और डेवलपर्स द्वारा आमतौर पर इस्तेमाल किया जाने वाला एक आम फ़ॉर्मेट है. हालांकि, सही JSON आउटपुट करने के लिए मॉडल को सभी क्वोटेशन मार्क्स, बैकस्लैश, न्यूलाइन और दूसरे कंट्रोल करैक्टर्स से पूरी तरह से छोड़ने की ज़रुरत होती है. हालांकि हमारे मॉडल JSON को आउटपुट करने के लिए अच्छी तरह से ट्रेन किए गए हैं, फ़िर भी सैंकड़ों लाइनों के कोड या एक 5-पेज की रिपोर्ट, जैसे लंबे इनपुट्स पर एरर की संभावना बढ़ जाती है. कस्टम टूल्स के साथ, GPT‑5 टूल इनपुट्स को प्लेनटेक्स्ट के तौर पर लिख सकता है, उन सभी करैक्टर्स को छोड़े बिना, जिन्हें छोड़ने की ज़रुरत हो.
SWE-बेंच Verified पर JSON टूल्स के बजाय कस्टम टूल्स का इस्तेमाल करने पर, GPT‑5 का स्कोर लगभग समान है.
GPT‑5 सुरक्षा के मोर्चे पर आगे है और ये ज़्यादा मज़बूत, भरोसेमंद, और कारगर मॉडल है. GPT‑5 में हमारे पिछले मॉडलों की तुलना में काल्पनिक उत्तर देने की संभावना काफी कम है, यह उपयोगकर्ता को अपने कार्यों और क्षमताओं के बारे में अधिक ईमानदारी से बताता है, और जहाँ संभव हो, सुरक्षा सीमाओं के भीतर रहते हुए सबसे सहायक उत्तर प्रदान करता है. आप अधिक जानकारी हमारे रिसर्च ब्लॉग में पढ़ सकते हैं.
GPT‑5 अब API प्लैटफ़ॉर्म पर तीन साइज़ों में उपलब्ध है: gpt-5, gpt-5-mini, and gpt-5-nano. ये Responses API, Chat Completions API पर उपलब्ध है, और Codex CLI में डिफ़ॉल्ट है. GPT‑5 की कीमत $1.25/1M इनपुट टोकन्स और $10/1M आउटपुट टोकन्स है, GPT‑5 mini की कीमत $0.25/1M इनपुट टोकन्स और $2/1M आउटपुट टोकन्स है, और GPT‑5 nano की कीमत $0.05/1M इनपुट टोकन्स और $0.40/1M आउटपुट टोकन्स है.
ये मॉडल्स reasoning_effort और वर्बोसिटी API पैरामीटर्स के साथ-साथ कस्टम टूल्स को भी सपोर्ट करते हैं. वे पैरेलल टूल कॉलिंग, बिल्ट-इन टूल्स (वेब सर्च, फ़ाइल सर्च, इमेज जनरेशन, और भी बहुत कुछ), कोर API फ़ीचर्स (स्ट्रीमिंग, स्ट्रक्चर्ड आउटपुट्स, और भी बहुत कुछ), और कॉस्ट-सेविंग फ़ीचर्स जैसे कि प्रॉम्प्ट कैशिंग और Batch API को भी सपोर्ट करते हैं.
ChatGPT में इस्तेमाल किए जाने वाला GPT‑5 का नॉन-रीज़निंग वर्ज़न API में gpt-5-chat-latest के तौर पर उपलब्ध है, जिसकी कीमत $1.25/1M इनपुट टोकन्स और $10/1M आउटपुट टोकन्स है.
GPT‑5 को Microsoft 365 Copilot, Copilot, GitHub Copilot और Azure AI Foundry सहित Microsoft प्लेटफ़ॉर्म्स पर भी लॉन्च किया जा रहा है.
शुरू करने के लिए GPT‑5 डॉक्यूमेंटेशन(एक नई विंडो में खुलेगा), कीमतों की डिटेल्स(एक नई विंडो में खुलेगा), और प्रॉम्प्टिंग गाइड(एक नई विंडो में खुलेगा) देखें.
इंटेलिजेंस
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] हमारी पिछली ब्लॉग पोस्ट में रिपोर्ट किए गए नंबर्स में थोड़ा फ़र्क़ है, क्योंकि वे HLE के पुराने वर्ज़न पर रन किए गए थे.
मल्टीमॉडल
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
कोडिंग
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | $1.1 लाख | $75 हज़ार | $49 हज़ार | $86 हज़ार | $66 हज़ार | $34 हज़ार | $31 हज़ार | $9 हज़ार |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] हम उन 23/500 समस्याओं को छोड़ रहे हैं जो हमारे इन्फ्रास्ट्रक्चर पर नहीं चलाई जा सकीं. छोड़े गए सभी 23 टास्क की पूरी सूची इस प्रकार है' astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', और 'sphinx-doc__sphinx-9367'.
निर्देश को फ़ॉलो करें
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] नोट: हमने पाया कि मल्टीचैलेंज (GPT-4o) में डिफ़ॉल्ट ग्रेडर अक्सर मॉडल के रिस्पांस को गलत स्कोर देता है. हमने पाया कि ग्रेडर को o3-mini जैसे रीज़निंग मॉडल से स्वैप करने पर, हमारे द्वारा इंस्पेक्ट किए गए सैंपल्स पर ग्रेडिंग की एक्यूरेसी में बहुत ज़्यादा सुधार होता है.
फ़ंक्शन कॉलिंग
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
लंबा कॉन्टेक्स्ट
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
हेलुसिनेशन्स
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


