11 दिसंबर 2025

पेश है GPT‑5.2

सबसे एडवांस्ड फ्रंटियर मॉडल जो प्रोफेशनल काम और लंबे समय तक चलने वाले एजेंट्स के लिए बनाया गया है.

लोड किया जा रहा है...

हम पेश कर रहे हैं GPT‑5.2, पेशेवर ज्ञान कार्य के लिए अब तक का सबसे सक्षम मॉडल सीरीज.

पहले से ही, औसत ChatGPT Enterprise यूज़र कहते हैं⁠ कि AI उन्हें प्रतिदिन 40-60 मिनट सेव करता है, और भारी यूज़र कहते हैं कि यह उन्हें प्रति सप्ताह 10 घंटे से अधिक सेव करता है. हमने GPT‑5.2 को इस तरह डिज़ाइन किया है कि यह लोगों के लिए और भी अधिक आर्थिक मूल्य खोल सके; यह स्प्रेडशीट बनाएं, प्रेज़ेंटेशन तैयार करने, कोड लिखने, इमेज पहचानने, लंबे कॉन्टेक्स्ट समझने, उपकरणों का उपयोग करने और जटिल, बहु-चरणीय प्रोजेक्ट संभालने में बेहतर है.

GPT‑5.2 कई बेंचमार्क्स पर नई ऊँचाई स्थापित करता है, जिसमें GDPval शामिल है, जहाँ यह 44 व्यवसायों में फैले अच्छी तरह से परिभाषित जानकारी टास्क में उद्योग के पेशेवरों से बेहतर प्रदर्शन करता है.

	GPT‑5.2 Thinking	GPT‑5.1 Thinking
GDPval (जीत या बराबरी) ^{जानकारी कार्य टास्क}	70.9%	38.8% (GPT‑5)
SWE-बेंच Pro (पब्लिक) ^{सॉफ़्टवेयर इंजीनियरिंग}	55.6%	50.8%
SWE-बेंच वेरिफाइड ^{सॉफ़्टवेयर इंजीनियरिंग}	80.0%	76.3%
GPQA Diamond (कोई उपकरण नहीं) ^{विज्ञान के प्रश्न}	92.4%	88.1%
CharXiv Reasoning (Python के साथ) ^{वैज्ञानिक चित्रों के प्रश्न}	88.7%	80.3%
HMMT (फरवरी 2025) ^{गणित प्रतियोगिता}	99.4%	96.3%
FrontierMath (टियर 1–3) ^{एडवांस्ड मैथेमैटिक्स}	40.3%	31.0%
ARC-AGI-1 (Verified) ^{एब्सट्रैक्ट रीज़निंग}	86.2%	72.8%
ARC-AGI-2 (Verified) ^{एब्सट्रैक्ट रीज़निंग}	52.9%	17.6%

ChatGPT में GPT‑5.2 Instant, Thinking, और Pro आज से रोल आउट होना शुरू हो रहे हैं, शुरुआत पेड प्लान से होगी. API में अब यह सभी डेवलपर के लिए उपलब्ध है.

कुल मिलाकर, GPT‑5.2 में जनरल इंटेलिजेंस, लंबे कॉन्टेक्स्ट की समझ, एजेंटिक टूल-कॉलिंग और विज़न में बड़े सुधार आते हैं, जिससे यह जटिल वास्तविक-दुनिया वाले टास्क्स को शुरुआत से अंत तक पूरा करने में किसी भी पिछले मॉडल से बेहतर बन जाता है.

मॉडल परफॉर्मेंस

आर्थिक रूप से मूल्यवान टास्क

GPT‑5.2 Thinking अब तक का सबसे बेहतरीन मॉडल है, जो वास्तविक दुनिया और पेशेवर उपयोग के लिए सबसे उपयुक्त है. GDPval⁠ पर, जो 44 व्यवसायों में अच्छी तरह से परिभाषित जानकारी कार्य टास्क को मापने वाला एक मूल्यांकन है, GPT‑5.2 Thinking ने एक नया अत्याधुनिक स्कोर स्थापित किया है, और यह हमारा पहला मॉडल है जो मानव विशेषज्ञ स्तर पर या उससे ऊपर प्रदर्शन करता है. विशेष रूप से, GPT‑5.2 Thinking GDPval जानकारी कार्य टास्क पर 70.9% तुलना में शीर्ष उद्योग पेशेवरों को हराता है या उनके बराबर प्रदर्शन करता है, जैसा कि विशेषज्ञ मानव जजों ने आंका है. इन टास्क में प्रेज़ेंटेशन, स्प्रेडशीट और अन्य आर्टिफैक्ट बनाना शामिल है. GPT‑5.2 Thinking ने GDPval टास्कों के लिए आउटपुट को विशेषज्ञ पेशेवरों की तुलना में >11x गति से और <1% लागत पर उत्पन्न किया, यह सुझाव देते हुए कि मानव निगरानी के साथ, GPT‑5.2 पेशेवर कार्यों में सहायता कर सकता है. स्पीड और लागत का अनुमान ऐतिहासिक मेट्रिक्स पर आधारित है; ChatGPT में स्पीड अलग हो सकती है.

GDPval में, मॉडल 44 व्यवसायों में फैले अच्छी तरह से परिभाषित जानकारी कार्य का प्रयास करते हैं, जो अमेरिकी GDP में योगदान देने वाले शीर्ष नौ उद्योगों से हैं. टास्क असली वर्क प्रोडक्ट्स की मांग करते हैं, जैसे कि सेल्स प्रेज़ेंटेशन, अकाउंटिंग स्प्रेडशीट्स, अर्जेंट केयर शेड्यूल्स, मैन्युफैक्चरिंग डायग्राम्स, या शॉर्ट वीडियो. ChatGPT में GPT‑5.2 Thinking के पास ऐसे नए उपकरण हैं जो GPT‑5 थिंकिंग के पास नहीं हैं.

एक विशेष रूप से अच्छे आउटपुट की समीक्षा करते समय, एक GDPval जज ने टिप्पणी की, "यह आउटपुट गुणवत्ता में एक रोमांचक और ध्यान देने योग्य छलांग है... ऐसा लगता है कि इसे किसी पेशेवर कंपनी के कर्मचारियों द्वारा किया गया है, और इसका लेआउट और दोनों डिलिवरेबल्स के लिए दी गई सलाह आश्चर्यजनक रूप से अच्छी तरह से डिज़ाइन की गई है, हालांकि एक में अभी भी कुछ छोटे-मोटे सुधार करने बाकी हैं."

इसके अतिरिक्त, हमारे आंतरिक बेंचमार्क पर, जो जूनियर इन्वेस्टमेंट बैंकिंग एनालिस्ट स्प्रेडशीट मॉडलिंग टास्क को मापता है—जैसे कि एक फ़ॉर्च्यून 500 कंपनी के लिए सही प्रारूपण और उद्धरणों के साथ तीन-स्टेटमेंट मॉडल तैयार करना, या टेक-प्राइवेट के लिए एक लीवरेज्ड बायआउट मॉडल बनाना—GPT 5.2 Thinking का औसत स्कोर प्रति टास्क GPT‑5.1 की तुलना में 9.3% अधिक है. 59.1% से बढ़कर 68.4% तक पहुँच गया.

साइड-बाय-साइड तुलना से यह स्पष्ट होता है कि GPT‑5.2 द्वारा जनरेट की गई स्प्रेडशीट्स और स्लाइड्स में परिष्कार और स्वरूपण में सुधार हुआ है. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

प्रॉम्प्ट: एक वर्कफोर्स प्लानिंग मॉडल बनाएं: हेडकाउंट, हायरिंग प्लॉन, एट्रिशन, और बजट प्रभाव. इंजीनियरिंग, मार्केटिंग, कानूनी, और बिक्री विभाग शामिल करें.

ChatGPT में नई स्प्रेडशीट और प्रेज़ेंटेशन क्षमताओं का उपयोग करने के लिए, तुम्हें एक पेड प्लान पर होना चाहिए और GPT‑5.2 Thinking या Pro में से किसी एक का चयन करना होगा. जटिल जेनरेशन को तैयार करने में कई मिनट लग सकते हैं.

कोडिंग

GPT‑5.2 Thinking ने SWE-बेंच Pro पर 55.6% का नया स्टेट-ऑफ़-द-आर्ट स्थापित किया है, जो वास्तविक दुनिया के सॉफ़्टवेयर इंजीनियरिंग का एक कठोर मूल्यांकन है. SWE-bench Verified के विपरीत, जो केवल Python का परीक्षण करता है, SWE-bench Pro चार भाषाओं का परीक्षण करता है और इसका उद्देश्य अधिक प्रदूषण-प्रतिरोधी, चुनौतीपूर्ण, विविध और औद्योगिक रूप से प्रासंगिक होना है.

में SWE-बेंच Pro⁠(एक नई विंडो में खुलेगा)⁠⁠⁠, एक मॉडल को कोड रिपॉजिटरी दी जाती है और उसे एक वास्तविक सॉफ़्टवेयर इंजीनियरिंग टास्क को हल करने के लिए एक पैच जनरेट करना होता है.

SWE-Bench Verified (नॉट प्लॉटेड), GPT‑5.2 Thinking ने हमारा नया उच्चतम स्कोर 80% हासिल किया.

रोज़मर्रा के प्रोफेशनल उपयोग में, इसका मतलब है एक ऐसा मॉडल जो प्रोडक्शन कोड को ज़्यादा भरोसेमंद तरीके से डिबग कर सके, फीचर रिक्वेस्ट्स को इम्प्लिमेंट कर सके, बड़े कोडबेस को रिफ़ैक्टर कर सके, और कम मैनुअल इंटरवेंशन के साथ एंड-टू-एंड फिक्स शिप कर सके.

GPT‑5.2 Thinking फ्रंट-एंड सॉफ़्टवेयर इंजीनियरिंग में GPT‑5.1 Thinking से भी बेहतर है. शुरुआती टेस्टर्स ने पाया कि यह फ्रंट-एंड डिवेलपमेंट और जटिल या थोड़े हटकर UI काम—खासतौर पर 3D एलिमेंट्स वाले टास्क्स—में काफी ज़्यादा मज़बूत है, जिससे यह इंजीनियर्स के लिए पूरे स्टैक में एक बेहद उपयोगी रोज़मर्रा का पार्टनर बन जाता है. देखें कि एक प्रॉम्प्ट से क्या उत्पन्न हो सकता है, इसके कुछ उदाहरण:

प्रॉम्प्ट:निम्नलिखित आवश्यकताओं के साथ एक सिंगल HTML फ़ाइल में एक सिंगल-पेज ऐप बनाएं: - नाम: ओशन वेव सिमुलेशन - उद्देश्य: वास्तविक एनिमेटेड लहरें प्रदर्शित करना.- विशेषताएँ: हवा की गति, लहरों की ऊँचाई, प्रकाश व्यवस्था बदलें. - UI को शांत और वास्तविक दिखना चाहिए.

शुरूआती टेस्टर्स ने GPT‑5.2 के बारे में अपना फ़ीडबैक साझा किया कोडिंग क्षमताएँ:

"GPT-5.2 यह GPT-5 के बाद से एजेंटिक कोडिंग में GPT मॉडल्स के लिए सबसे बड़ी छलांग का प्रतिनिधित्व करता है और अपनी कीमत की श्रेणी में एक SOTA कोडिंग मॉडल है. संस्करण उन्नयन बुद्धिमत्ता में छलांग को कम आंकता है. हम इसे Windsurf और कई मुख्य Devin कार्यभारों में डिफ़ॉल्ट बनाने के लिए उत्साहित हैं."

Jeff Wang, CEO, Windsurf

फ़ैक्च्युएलिटी

GPT‑5.2 Thinking, GPT‑5.1 Thinking की तुलना में कम हैल्यूसीनेट करता है. ChatGPT के पहचान-रहित प्रश्नों के सेट पर, गलती वाले वाले उत्तर 38%_rel तक कम देखे गए. प्रोफेशनल्स के लिए, इसका मतलब है कि रिसर्च, लेखन, विश्लेषण और निर्णय सपोर्ट के लिए मॉडल का उपयोग करते समय कम गलतियाँ होती हैं—जिससे यह रोज़मर्रा के नॉलेज वर्क के लिए और भी भरोसेमंद बन जाता है.

रीज़निंग प्रयास को अधिकतम उपलब्ध स्तर पर सेट किया गया और एक खोज उपकरण इनेबल किया गया. अन्य मॉडलों द्वारा त्रुटियाँ पाई गईं, जो स्वयं भी त्रुटियाँ कर सकते हैं. दावे-स्तर की त्रुटि दरें प्रतिक्रिया-स्तर की त्रुटि दरों की तुलना में बहुत कम होती हैं, क्योंकि अधिकांश प्रतिक्रियाओं में कई दावे शामिल होते हैं.

सभी मॉडलों की तरह, GPT‑5.2 Thinking पूरी तरह परफ़ेक्ट नहीं है. किसी भी महत्वपूर्ण चीज़ के लिए, उसके उत्तरों को दोबारा जांचो.

लंबा कॉन्टेक्स्ट

GPT‑5.2 Thinking ने लंबे-कॉन्टेक्स्ट रीज़निंग में एक नया स्टेट-ऑफ़-द-आर्ट स्थापित किया है, OpenAI MRCRv2 पर टॉप परफॉर्मेंस हासिल करता है—यह इवैल्यूएशन है जो मॉडल की क्षमता को टेस्ट करता है कि वह लंबे डॉक्यूमेंट्स में फैली जानकारी को कितनी अच्छी तरह जोड़कर समझ सकता है. वास्तविक दुनिया के टास्क जैसे गहन डॉक्यूमेंट विश्लेषण, जो सैकड़ों हजारों टोकन्स में फैली जुड़ी हुई जानकारी को समझना पड़ता है, GPT‑5.2 Thinking, GPT‑5.1 Thinking की तुलना में काफी अधिक सटीक है. विशेष रूप से, यह पहला मॉडल है जिसे हमने देखा है जो 4-नीडल MRCR वेरिएंट पर लगभग 100% सटीकता प्राप्त करता है (256k token तक).

व्यावहारिक तौर पर, इसका मतलब है कि प्रोफेशनल्स GPT‑5.2 का इस्तेमाल करके रिपोर्ट्स, कॉन्ट्रैक्ट्स, रिसर्च पेपर्स, ट्रांसक्रिप्ट्स और मल्टी-फ़ाइल प्रोजेक्ट्स जैसे लंबे डॉक्यूमेंट्स पर काम कर सकते हैं, और हज़ारों token के बीच सामंजस्य और सटीकता बनाए रखता है. यह GPT‑5.2 को गहन विश्लेषण, संश्लेषण और जटिल बहु-स्रोत वर्कफ़्लो के लिए खासतौर पर उपयुक्त बनाता है.

In OpenAI-MRCR⁠ v2 (मल्टी-राउंड को-रेफ़रेंस रेज़ोल्यूशन्स)⁠(एक नई विंडो में खुलेगा) में, कई एक जैसी "सुई" वाली यूज़र रिक्वेस्ट्स को समान रिक्वेस्ट्स और जवाबों के लंबे "हेस्टैक्स" में डाला जाता है, और मॉडल से nth सुई के जवाब को दोबारा उत्पन्न करने के लिए कहा जाता है. संस्करण 2 में ~5% टास्क को ठीक किया गया है जिनमें गलत ग्राउंड ट्रुथ वैल्यूज थीं. मीन मैच रेशियो मॉडल के जवाब और सही जवाब के बीच औसत स्ट्रिंग मैच रेशियो को मापता है. 256k अधिकतम इनपुट टोकन पर मौजूद बिंदु 128k–256k इनपुट टोकन के औसत को दर्शाते हैं, और इसी तरह आगे भी. यहाँ, 256k का मतलब 256 * 1,024 = 262,114 टोकन है. तर्क प्रयास को अधिकतम उपलब्ध स्तर पर सेट किया गया था.

ऐसे टास्क के लिए जो अधिकतम कॉन्टेक्स्ट विंडो से परे सोचने से फ़ायदा मिलता है, GPT‑5.2 सोच हमारे नए रिस्पॉन्सेज /compact एंडपॉइंट के साथ संगत है, जो मॉडल की प्रभावी कॉन्टेक्स्ट विंडो को बढ़ाता है. यह GPT‑5.2 Thinking ऐसे टूल-हेवी और लंबे चलने वाले वर्कफ़्लोज़ को भी संभाल लेता है, जो वरना कॉन्टेक्स्ट लेंग्थ की वजह से सीमित हो जाते. हमारे API डॉक्यूमेंटेशन⁠(एक नई विंडो में खुलेगा) में और पढ़ें.

विज़न

GPT‑5.2 Thinking हमारा अब तक का सबसे मजबूत विज़न मॉडल है, जो चार्ट रीज़निंग और सॉफ़्टवेयर इंटरफ़ेस समझने में त्रुटि दर को लगभग आधा कर देता है.

रोज़मर्रा के प्रोफेशनल उपयोग में, इसका मतलब है कि मॉडल डैशबोर्ड्स, प्रॉडक्ट स्क्रीनशॉट्स, टेक्निकल डायग्राम्स और विज़ुअल रिपोर्ट्स को और ज़्यादा सटीक रूप से समझ सकता है—और फ़ाइनेंस, ऑपरेशन्स, इंजीनियरिंग, डिज़ाइन और कस्टमर सपोर्ट जैसे वर्कफ़्लोज़ में बेहतर मदद कर सकता है, जहाँ विज़ुअल जानकारी बेहद अहम होती है.

में CharXiv Reasoning⁠(एक नई विंडो में खुलेगा), मॉडल्स वैज्ञानिक पत्रों के विज़ुअल चार्ट्स पर सवालों के जवाब देते हैं. एक Python टूल इनेबल किया गया और रीज़निंग प्रयास को अधिकतम पर सेट किया गया.

में ScreenSpot-Pro⁠(एक नई विंडो में खुलेगा), मॉडल्स को विभिन्न पेशेवर सेटिंग्स से ग्राफ़िकल यूज़र इंटरफ़ेस के उच्च-रेज़ोल्यूशन स्क्रीनशॉट्स के बारे में रीज़न करना होता है. एक Python टूल इनेबल किया गया था और रीज़न प्रयास को अधिकतम पर सेट किया गया था. बिना Python टूल के, स्कोर बहुत कम होते हैं. हम ऐसे विज़न टास्क पर Python टूल को इनेबल करने की सिफारिश करते हैं.

पिछले मॉडलों की तुलना में, GPT‑5.2 Thinking की क्षमता को यह बेहतर समझ होती है कि इमेज के भीतर तत्व कैसे व्यवस्थित हैं, जो उन टास्क में मदद करता है जहाँ समस्या को हल करने में सापेक्ष लेआउट एक महत्वपूर्ण रोल निभाता है. नीचे दिए गए उदाहरण में, हम मॉडल से एक इमेज इनपुट (इस मामले में, एक मदरबोर्ड) में घटकों की पहचान करने और अनुमानित बाउंडिंग बॉक्स के साथ लेबल प्रदान करने के लिए कहते हैं. यहां तक कि कम गुणवत्ता वाली इमेज पर भी, GPT‑5.2 मुख्य क्षेत्रों की पहचान करता है और उन स्थानों पर बॉक्स लगाता है जो प्रत्येक घटक के सही स्थानों से लगभग मेल खाते हैं, जबकि GPT‑5.1 केवल कुछ हिस्सों को लेबल करता है और उनके स्थानिक व्यवस्था की समझ बहुत कमजोर दिखाता है.

GPT‑5.1

GPT‑5.2

टूल कॉलिंग

GPT‑5.2 Thinking ने Tau2-बेंच टेलीकॉम पर 98.7% का नया स्टेट ऑफ द आर्ट हासिल किया है, जो यह दर्शाता है कि यह लंबे, मल्टी-टर्न टास्क्स में टूल का विश्वसनीय रूप से उपयोग करने में सक्षम है.

लेटेंसी-संवेदनशील उपयोग मामलों के लिए, GPT‑5.2 Thinking reasoning.effort='none' पर भी कहीं बेहतर परफॉर्म करता है. GPT‑5.1 और GPT‑4.1 की तुलना में काफी अधिक बेहतर परफॉर्म कर रहा है.

में τ2-बेंच⁠⁠(एक नई विंडो में खुलेगा), मॉडल टूल्स का उपयोग करके एक सिम्युलेटेड यूज़र के साथ मल्टी-टर्न इंटरैक्शन में कस्टमर सपोर्ट टास्क को पूरा करते हैं. टेलीकॉम डोमेन के लिए, हमने सिस्टम प्रॉम्प्ट में एक संक्षिप्त, सामान्य रूप से सहायक निर्देश शामिल किया ताकि प्रदर्शन को बढ़ाया जा सके. हम एयरलाइन सबसेट को बाहर रखते हैं क्योंकि ग्राउंड ट्रुथ ग्रेडिंग की गुणवत्ता कम है.

प्रोफेशनल्स के लिए इसका मतलब है और भी मज़बूत एंड-टू-एंड वर्कफ़्लोज़—जैसे कस्टमर सपोर्ट केस हल करना, कई सिस्टम्स से डेटा निकालना, एनालिसिस चलाना, और कम रुकावटों के साथ फ़ाइनल आउटपुट तैयार करना.

उदाहरण के तौर पर, जब कोई जटिल कस्टमर सर्विस सवाल कई स्टेप्स में हल करने की ज़रूरत रखता है, तो मॉडल कई एजेंट्स के बीच पूरे वर्कफ़्लो को और ज़्यादा प्रभावी तरीक़े से कॉर्डिनेट कर सकता है. नीचे दिए गए केस में, एक यात्री ने फ्लाइट डिले होने, कनेक्शन छूट जाने, न्यूयॉर्क में रात भर रुकने, और मेडिकल सीटिंग की आवश्यकता की रिपोर्ट दी है. GPT‑5.2 पूरी टास्क चेन—रीबुकिंग, स्पेशल-असिस्टेंस सीटिंग, और मुआवजा—को मैनेज करता है, और GPT‑5.1 की तुलना में ज़्यादा पूरा और बेहतर परिणाम देता है.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1

GPT‑5.2

विज्ञान और गणित

हमारी उम्मीदों में से एक यह है कि AI सभी के लाभ के लिए वैज्ञानिक अनुसंधान को तेज़ी से आगे बढ़ाएगा. इस दिशा में, हम वैज्ञानिकों के साथ काम कर रहे हैं और उनकी बात सुन रहे हैं कि AI उनके काम को कैसे तेज कर सकता है, और पिछले महीने हमने कुछ शुरुआती सहयोगात्मक प्रयोग यहां⁠ साझा किए.

हम मानते हैं कि GPT‑5.2 Pro और GPT‑5.2 Thinking दुनिया के सबसे बेहतरीन मॉडल्स हैं जो वैज्ञानिकों की मदद करने और उनके काम को तेज़ करने में सक्षम हैं. GPQA Diamond पर, जो ग्रेजुएट-लेवल का Google-प्रूफ Q&A बेंचमार्क है, GPT‑5.2 Pro ने 93.2% हासिल किया, उसके बाद GPT‑5.2 Thinking 92.4% पर है.

GPQA डायमंड में, मॉडल⁠(एक नई विंडो में खुलेगा) भौतिकी, रसायन विज्ञान और जीवविज्ञान के बहुविकल्पीय प्रश्नों का उत्तर देते हैं. कोई उपकरण इनेबल नहीं थे और तर्क प्रयास को अधिकतम पर सेट किया गया था.

FrontierMath (टियर 1–3) पर, विशेषज्ञ स्तर की गणित का मूल्यांकन, GPT‑5.2 Thinking ने नया स्टेट-ऑफ़-द-आर्ट सेट किया, 40.3% समस्याएँ हल करके.

FrontierMath में, मॉडल⁠(एक नई विंडो में खुलेगा) विशेषज्ञ स्तर की गणितीय समस्याओं को हल करते हैं. एक Python टूल इनेबल किया गया और तर्क प्रयास को अधिकतम पर सेट किया गया.

हम देख रहे हैं कि AI मॉडल गणित और विज्ञान में प्रगति को सार्थक रूप से तेज़ कर रहे हैं और यह ठोस रूप से दिखाई दे रहा है. उदाहरण के लिए, हाल के कार्य⁠ में GPT‑5.2 के साथ Pro, शोधकर्ताओं ने सांख्यिकीय अधिगम सिद्धांत में एक खुले प्रश्न को एक्स्प्लोर किया. एक संकीर्ण, अच्छी तरह से निर्दिष्ट सेटिंग में, मॉडल ने एक प्रमाण प्रस्तावित किया जिसे बाद में लेखकों द्वारा वेरिफ़ाई किया गया और बाहरी विशेषज्ञों के साथ समीक्षा की गई, यह दर्शाते हुए कि फ्रंटियर मॉडल कैसे निकट मानव निगरानी के तहत गणितीय अनुसंधान में सहायता कर सकते हैं.

ARC-AGI 2

ARC-AGI-1 (Verified) पर, जो सामान्य तर्क क्षमता को मापने के लिए डिज़ाइन किया गया एक बेंचमार्क है, GPT‑5.2 पहला मॉडल है जिसने 90% की सीमा को पार किया है, पिछले साल o3‑preview करें द्वारा 87% से सुधार करते हुए, और उस प्रदर्शन को प्राप्त करने की लागत को लगभग 390 गुना कम कर दिया है.

ARC-AGI-2 (Verified) पर, जो कठिनाई को बढ़ाता है और तरल रीज़निंग को बेहतर तरीके से अलग करता है, GPT‑5.2 Thinking ने चेन-ऑफ-थॉट मॉडल्स के लिए नया स्टेट ऑफ़ द आर्ट हासिल किया, 52.9% स्कोर के साथ. GPT‑5.2 Pro और भी बेहतर प्रदर्शन करता है, 54.2% तक पहुँचता है, जिससे मॉडल की नई, अमूर्त समस्याओं के माध्यम से रीज़न करने की क्षमता और भी बढ़ जाती है.

इन मूल्यांकनों में सुधार GPT‑5.2 के प्रदर्शन को दर्शाते हैं. मजबूत बहु-चरणीय तर्क, अधिक मात्रात्मक सटीकता, और जटिल तकनीकी टास्क पर अधिक विश्वसनीय समस्या समाधान.

हमारे शुरुआती परीक्षकों का GPT‑5.2 के बारे में यह कहना है:

"GPT-5.2 हमारे लिए एक संपूर्ण आर्किटेक्चर बदलाव को संभव बनाया. हमने एक नाजुक, मल्टी-एजेंट सिस्टम को 20 से अधिक टूल्स के साथ एक सिंगल मेगा-एजेंट में समेट दिया. सबसे अच्छी बात यह है कि यह बस काम करता है. मेगा-एजेंट तेज़, स्मार्ट और 100 गुना आसान रखरखाव के लिए है. हम नाटकीय रूप से कम लेटेंसी, अधिक मजबूत टूल कॉलिंग देख रहे हैं, और अब हमें विस्तृत सिस्टम प्रॉम्प्ट्स की आवश्यकता नहीं है क्योंकि 5.2 एक साधारण, एक-लाइन प्रॉम्प्ट से साफ-सुथरा निष्पादित होगा. यह शुद्ध जादू जैसा लगता है.

Triple Whale के CEO AJ Orbach

ChatGPT में GPT‑5.2

ChatGPT में, यूज़रों को GPT‑5.2 का उपयोग रोज़ाना बेहतर महसूस होना चाहिए—यह अधिक संरचित, अधिक विश्वसनीय है, और फिर भी बात करने में मज़ेदार है.

GPT‑5.2 Instant रोज़मर्रा के काम और सीखने के लिए एक तेज़, सक्षम साधन है, जिसमें जानकारी खोजने वाले प्रश्नों, हाउ-टू और वॉक-थ्रू, तकनीकी लेखन, और अनुवाद में स्पष्ट सुधार दिखाई देते हैं. यह GPT‑5.1 Instant में पेश किए गए गर्मजोशी भरे बातचीत के टोन पर आधारित है. प्रारंभिक परीक्षकों ने विशेष रूप से यह नोट किया कि मुख्य जानकारी को सामने लाने वाले स्पष्टीकरण अधिक स्पष्ट और सटीक हैं.

GPT‑5.2 Thinking को गहन टास्क के लिए डिज़ाइन किया गया है, जो यूज़र्स को अधिक जटिल टास्क को अधिक परिष्कृत तरीके से निपटाने में मदद करता है—विशेष रूप से कोडिंग, लंबे डॉक्यूमेंट का सारांश बनाने, अपलोड करें की गई फ़ाइलों के बारे में प्रश्नों का उत्तर देने, गणित और तर्क को चरण-दर-चरण समझने, और योजना और निर्णय लेने में स्पष्ट संरचना और अधिक उपयोगी विवरण के साथ समर्थन करने के लिए.

GPT‑5.2 Pro हमारे सबसे स्मार्ट और भरोसेमंद विकल्पों में से एक है, खासकर उन मुश्किल सवालों के लिए जहाँ उच्च-गुणवत्ता वाला जवाब थोड़ा इंतज़ार करने लायक होता है. शुरुआती परीक्षणों में, इसमें बड़ी गलतियों की संख्या कम पाई गई है और प्रोग्रामिंग जैसे जटिल डोमेन में इसका प्रदर्शन और भी मज़बूत है.

सुरक्षा

GPT‑5.2 GPT‑5 के साथ पेश किए गए सेफ़ कंप्लीशन⁠ अनुसंधान पर आधारित है, जो मॉडल को सबसे सहायक उत्तर देने के लिए सिखाता है, जबकि सुरक्षा सीमाओं के भीतर रहता है.

इस रिलीज़ के साथ, हमने संवेदनशील बातचीत में हमारे मॉडलों की प्रतिक्रियाओं को मजबूत करने⁠ के लिए अपने काम को आगे बढ़ाया, जिसमें आत्महत्या या आत्म-हानि, मानसिक स्वास्थ्य संकट, या मॉडल पर भावनात्मक निर्भरता के संकेत देने वाले प्रॉम्प्ट्स के प्रति उनकी प्रतिक्रिया में महत्वपूर्ण सुधार किए हैं. इन लक्षित हस्तक्षेपों के कारण GPT‑5.2 में अवांछित प्रतिक्रियाओं की संख्या कम हो गई है. Instant और GPT‑5.2 Thinking मॉडल की तुलना GPT‑5.1 और GPT‑5 Instant और Thinking मॉडल. अधिक जानकारी सिस्टम कार्ड⁠ में देखी जा सकती है.

हम अपने उम्र अनुमान मॉडल⁠ को प्रारंभिक चरण में रोल आउट कर रहे हैं ताकि हम 18 वर्ष से कम उम्र के यूज़रों के लिए स्वचालित रूप से सामग्री सुरक्षा लागू कर सकें, जिससे संवेदनशील सामग्री तक पहुंच सीमित हो सके. यह हमारे 18 वर्ष से कम उम्र के यूज़र्स और हमारे पेरेंटल कंट्रोल के मौजूदा दृष्टिकोण को और विकसित करता है.

GPT‑5.2 चल रहे सुधारों की श्रृंखला में एक कदम है, और हम अभी भी बहुत दूर हैं. हालांकि यह रिलीज़ बुद्धिमत्ता और उत्पादकता में महत्वपूर्ण लाभ प्रदान करती है, हम जानते हैं कि कुछ क्षेत्रों में लोग और अधिक की अपेक्षा रखते हैं. ChatGPT में, हम अत्यधिक इनकार जैसी ज्ञात समस्याओं पर काम कर रहे हैं, जबकि समग्र रूप से सुरक्षा और विश्वसनीयता के स्तर को आगे बढ़ा रहे हैं. ये बदलाव जटिल हैं, और हमारा फ़ोकस उन्हें सही करने पर है.

मानसिक स्वास्थ्य मूल्यांकन

	GPT‑5.2 Instant	GPT‑5.1 Instant	GPT‑5.2 Thinking	GPT‑5.1 Thinking
मेंटल हेल्थ	0.995	0.883	0.915	0.684
इमोशनल रिलायंस	0.938	0.945	0.955	0.785
सेल्फ-हार्म	0.938	0.925	0.963	0.937

उपलब्धता और दाम

ChatGPT में, हम आज से GPT‑5.2 (Instant, Thinking, और Pro) को रोल आउट करना शुरू करेंगे, शुरुआत पेड प्लान (Plus, Pro, Go, Business, Enterprise) से होगी. हम GPT‑5.2 को धीरे-धीरे डिप्लॉय कर रहे हैं ताकि ChatGPT को जितना संभव हो सके, सुचारू और विश्वसनीय बनाए रखा जा सके; अगर आपको यह पहले नहीं दिखता है, तो कृपया बाद में फिर से कोशिश करें. ChatGPT में, GPT‑5.1 अभी भी भुगतान करने वाले यूज़र के लिए तीन महीने तक लेगेसी मॉडल के तहत उपलब्ध रहेगा, जिसके बाद हम GPT‑5.1 को बंद कर देंगे.

ChatGPT और API में मॉडल नामकरण

ChatGPT	API
ChatGPT‑5.2 Instant	GPT‑5.2‑chat‑latest
ChatGPT‑5.2 Thinking	GPT‑5.2
ChatGPT‑5.2 Pro	GPT‑5.2 Pro

हमारे API प्लेटफ़ॉर्म में, GPT‑5.2 थिंकिंग आज से Responses API और चैट एंडपॉइंट API में GPT‑5.2 के रूप में उपलब्ध है, और GPT‑5.2 इंस्टेंट के रूप में GPT‑5.2‑chat‑latest. GPT‑5.2 Pro Responses API में gpt-5.2-pro के रूप में उपलब्ध है. डेवलपर अब GPT‑5.2 में तर्क पैरामीटर सेट कर सकते हैं. Pro, और GPT‑5.2 दोनों. Pro और GPT‑5.2 अब सोचने की प्रक्रिया xhigh के नए पांचवें तर्क प्रयास का सपोर्ट करती है, उन टास्क के लिए जहां गुणवत्ता सबसे महत्वपूर्ण है.

GPT‑5.2 की कीमत $1.75 प्रति 1M इनपुट टोकन और $14 प्रति 1M आउटपुट टोकन है, और कैच किए गए इनपुट पर 90% की छूट मिलती है. कई एजेंटिक मूल्यांकनों पर, हमने पाया कि GPT‑5.2 के बावजूद भी प्रति टोकन अधिक लागत के बावजूद, GPT‑5.2 की बेहतर टोकन दक्षता के कारण एक निर्धारित गुणवत्ता स्तर को प्राप्त करने की लागत कम हो गई.

हालांकि ChatGPT सब्सक्रिप्शन के दाम वही रहते हैं, API में GPT‑5.2 की कीमत प्रति टोकन GPT‑5.1 से अधिक है क्योंकि यह एक अधिक सक्षम मॉडल है. यह अभी भी अन्य फ्रंटियर मॉडल की तुलना में कम कीमत पर है, ताकि लोग इसे अपने रोज़मर्रा के काम और मुख्य ऐप्लिकेशन्स में गहराई से इस्तेमाल करना जारी रख सकें.

प्रति मिलियन टोकन की कीमत

मॉडल	इनपुट	कैश्ड इनपुट	आउटपुट
gpt-5.2 / gpt-5.2-chat-latest	$1.75	$0.175	$14
gpt-5.2-pro	$21	-	$168
gpt-5.1 / gpt-5.1-chat-latest	$1.25	$0.125	$10
gpt-5-pro	$15	-	$120

हमारे पास GPT‑5.1 को डिप्रिकेट करने के कोई मौजूदा प्लॉन नहीं हैं. GPT‑5, या API में GPT‑4.1, और डेवलपरों को किसी भी डिप्रिकेशन प्लॉन के बारे में पहले से पर्याप्त सूचना दी जाएगी. हालांकि GPT‑5.2 Codex में बिना किसी बदलाव के अच्छी तरह से काम करेगा, हम आने वाले हफ्तों में Codex के लिए ऑप्टिमाइज़ किया गया GPT‑5.2 का एक संस्करण जारी करने की उम्मीद करते हैं.

हमारे साझेदार

GPT‑5.2 को हमारे लंबे समय से चले आ रहे साझेदार NVIDIA और Microsoft के साथ मिलकर विकसित किया गया. Azure डेटा सेंटर्स और NVIDIA GPUs, जिनमें H100, H200, और GB200-NVL72 शामिल हैं, OpenAI के बड़े पैमाने पर ट्रेनिंग इंफ्रास्ट्रक्चर का आधार हैं, जो मॉडल इंटेलिजेंस में महत्वपूर्ण सुधार लाते हैं. यह सहयोग हमें आत्मविश्वास के साथ कंप्यूट स्केलिंग करने और नए मॉडल को तेजी से बाजार में लाने की अनुमति देता है.

एपेंडिक्स

डिटेल्ड बेंचमार्क्स

नीचे, हम GPT‑5.2 के लिए व्यापक बेंचमार्क स्कोर प्रस्तुत करते हैं. सोच, GPT‑5.2 के लिए एक सबसेट के साथ प्रो

पेशेवर

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GDPval (ties allowed, wins or ties)	70.9%	74.1%	38.8% (GPT-5)
GDPval (ties allowed, clear wins)	49.8%	60.0%	35.5% (GPT-5)
GDPval (no ties)	61.0%	67.6%	37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)	68.4%	71.7%	59.1%

कोडिंग

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
SWE-Bench Pro, Public	55.6%	-	50.8%
SWE-bench Verified	80.0%	-	76.3%
SWE-Lancer, IC Diamond*	74.6%	-	69.7%

फ़ैक्च्युएलिटी

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ChatGPT answers without errors (w/ search)	93.9%	-	91.2%
ChatGPT answers without errors (no search)	88.0%	-	87.3%

लंबा कॉन्टेक्स्ट

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k	98.2%	-	65.3%
OpenAI MRCRv2, 8 needles, 8k–16k	89.3%	-	47.8%
OpenAI MRCRv2, 8 needles, 16k–32k	95.3%	-	44.0%
OpenAI MRCRv2, 8 needles, 32k–64k	92.0%	-	37.8%
OpenAI MRCRv2, 8 needles, 64k–128k	85.6%	-	36.0%
OpenAI MRCRv2, 8 needles, 128k–256k	77.0%	-	29.6%
BrowseComp Long Context 128k	92.0%	-	90.0%
BrowseComp Long Context 256k	89.8%	-	89.5%
GraphWalks bfs <128k	94.0%	-	76.8%
Graphwalks parents <128k	89.0%	-	71.5%

विज़न

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
CharXiv reasoning (no tools)	82.1%	-	67.0%
CharXiv reasoning (w/ Python)	88.7%	-	80.3%
MMMU Pro (no tools)	79.5%	-	-
MMMU Pro (w/ Python)	80.4%	-	79.0%
Video MMMU (no tools)	85.9%	-	82.9%
Screenspot Pro (w/ Python)	86.3%	-	64.2%

टूल यूज़

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
Tau2-bench Telecom	98.7%	-	95.6%
Tau2-bench Retail	82.0%	-	77.9%
BrowseComp	65.8%	77.9%	50.8%
Scale MCP-Atlas	60.6%	-	44.5%
Toolathlon	46.3%	-	36.1%

शैक्षणिक

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GPQA Diamond (no tools)	92.4%	93.2%	88.1%
HLE (no tools)	34.5%	36.6%	25.7%
HLE (w/ search, Python)	45.5%	50.0%	42.7%
MMMLU	89.6%	-	89.5%
HMMT, Feb 2025 (no tools)	99.4%	100.0%	96.3%
AIME 2025 (no tools)	100.0%	100.0%	94.0%
FrontierMath Tier 1–3 (w/ Python)	40.3%	-	31.0%
FrontierMath Tier 4 (w/ Python)	14.6%	-	12.5%

एब्सट्रैक्ट रीज़निंग

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ARC-AGI-1 (Verified)	86.2%	90.5%	72.8%
ARC-AGI-2 (Verified)	52.9%	54.2% (high)	17.6%

^{हमारे API में मॉडल को अधिकतम उपलब्ध तर्क प्रयास (GPT‑5.2 के लिए xhigh) के साथ चलाया गया. Thinking & Pro, और GPT‑5.1 Thinking के लिए उच्च, पेशेवर मूल्यांकन को छोड़कर, जहाँ GPT‑5.2 सोच को रीज़निंग एफर्ट के साथ भारी चलाया गया, जो ChatGPT Pro में उपलब्ध अधिकतम स्तर है. बेंचमार्क्स एक शोध वातावरण में किए गए थे, जो कुछ मामलों में प्रोडक्शन ChatGPT से थोड़ा अलग परिणाम दे सकते हैं.}

^{* SWE-Lancer के लिए, हम 40/237 समस्याओं को छोड़ते हैं जो हमारे इन्फ्रास्ट्रक्चर पर नहीं चल पाईं.}

2025

लेखक

OpenAI

पढ़ते रहें

सभी देखें

GPT 5.6 के साथ मूल्य-प्रदर्शन की सीमाएं आगे बढ़ाना

प्रोडक्ट30 जुलाई 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

कंपनी29 जुलाई 2026

ChatGPT में हेल्थ लॉन्च कर रहे हैं

प्रोडक्ट23 जुलाई 2026