हम पेश कर रहे हैं GPT‑5.2, पेशेवर ज्ञान कार्य के लिए अब तक का सबसे सक्षम मॉडल सीरीज.
पहले से ही, औसत ChatGPT Enterprise यूज़र कहते हैं कि AI उन्हें प्रतिदिन 40-60 मिनट सेव करता है, और भारी यूज़र कहते हैं कि यह उन्हें प्रति सप्ताह 10 घंटे से अधिक सेव करता है. हमने GPT‑5.2 को इस तरह डिज़ाइन किया है कि यह लोगों के लिए और भी अधिक आर्थिक मूल्य खोल सके; यह स्प्रेडशीट बनाएं, प्रेज़ेंटेशन तैयार करने, कोड लिखने, इमेज पहचानने, लंबे कॉन्टेक्स्ट समझने, उपकरणों का उपयोग करने और जटिल, बहु-चरणीय प्रोजेक्ट संभालने में बेहतर है.
GPT‑5.2 कई बेंचमार्क्स पर नई ऊँचाई स्थापित करता है, जिसमें GDPval शामिल है, जहाँ यह 44 व्यवसायों में फैले अच्छी तरह से परिभाषित जानकारी टास्क में उद्योग के पेशेवरों से बेहतर प्रदर्शन करता है.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (जीत या बराबरी) | 70.9% | 38.8% (GPT‑5) |
SWE-बेंच Pro (पब्लिक) | 55.6% | 50.8% |
SWE-बेंच वेरिफाइड | 80.0% | 76.3% |
GPQA Diamond (कोई उपकरण नहीं) | 92.4% | 88.1% |
CharXiv Reasoning (Python के साथ) | 88.7% | 80.3% |
HMMT (फरवरी 2025) | 99.4% | 96.3% |
FrontierMath (टियर 1–3) | 40.3% | 31.0% |
ARC-AGI-1 (Verified) | 86.2% | 72.8% |
ARC-AGI-2 (Verified) | 52.9% | 17.6% |
Notion(एक नई विंडो में खुलेगा), Box(एक नई विंडो में खुलेगा), Shopify(एक नई विंडो में खुलेगा), Harvey(एक नई विंडो में खुलेगा) और Zoom(एक नई विंडो में खुलेगा) ने देखा कि GPT‑5.2 अत्याधुनिक दीर्घकालिक तर्क और उपकरण-कॉलिंग प्रदर्शन प्रदर्शित करता है. Databricks(एक नई विंडो में खुलेगा), Hex(एक नई विंडो में खुलेगा) और Triple Whale(एक नई विंडो में खुलेगा) ने पाया कि GPT‑5.2 एजेंटिक डेटा साइंस और डॉक्यूमेंट टास्क में असाधारण है. Cognition(एक नई विंडो में खुलेगा), Warp(एक नई विंडो में खुलेगा), Charlie Labs(एक नई विंडो में खुलेगा), JetBrains(एक नई विंडो में खुलेगा) और Augment Code(एक नई विंडो में खुलेगा) का कहना है कि GPT‑5.2 अत्याधुनिक एजेंटिक कोडिंग प्रदर्शन प्रदान करता है, जिसमें इंटरैक्टिव कोडिंग, कोड समीक्षाएं और बग खोजने जैसे क्षेत्रों में मापने योग्य सुधार शामिल हैं.
ChatGPT में GPT‑5.2 Instant, Thinking, और Pro आज से रोल आउट होना शुरू हो रहे हैं, शुरुआत पेड प्लान से होगी. API में अब यह सभी डेवलपर के लिए उपलब्ध है.
कुल मिलाकर, GPT‑5.2 में जनरल इंटेलिजेंस, लंबे कॉन्टेक्स्ट की समझ, एजेंटिक टूल-कॉलिंग और विज़न में बड़े सुधार आते हैं, जिससे यह जटिल वास्तविक-दुनिया वाले टास्क्स को शुरुआत से अंत तक पूरा करने में किसी भी पिछले मॉडल से बेहतर बन जाता है.
GPT‑5.2 Thinking अब तक का सबसे बेहतरीन मॉडल है, जो वास्तविक दुनिया और पेशेवर उपयोग के लिए सबसे उपयुक्त है. GDPval पर, जो 44 व्यवसायों में अच्छी तरह से परिभाषित जानकारी कार्य टास्क को मापने वाला एक मूल्यांकन है, GPT‑5.2 Thinking ने एक नया अत्याधुनिक स्कोर स्थापित किया है, और यह हमारा पहला मॉडल है जो मानव विशेषज्ञ स्तर पर या उससे ऊपर प्रदर्शन करता है. विशेष रूप से, GPT‑5.2 Thinking GDPval जानकारी कार्य टास्क पर 70.9% तुलना में शीर्ष उद्योग पेशेवरों को हराता है या उनके बराबर प्रदर्शन करता है, जैसा कि विशेषज्ञ मानव जजों ने आंका है. इन टास्क में प्रेज़ेंटेशन, स्प्रेडशीट और अन्य आर्टिफैक्ट बनाना शामिल है. GPT‑5.2 Thinking ने GDPval टास्कों के लिए आउटपुट को विशेषज्ञ पेशेवरों की तुलना में >11x गति से और <1% लागत पर उत्पन्न किया, यह सुझाव देते हुए कि मानव निगरानी के साथ, GPT‑5.2 पेशेवर कार्यों में सहायता कर सकता है. स्पीड और लागत का अनुमान ऐतिहासिक मेट्रिक्स पर आधारित है; ChatGPT में स्पीड अलग हो सकती है.
GDPval में, मॉडल 44 व्यवसायों में फैले अच्छी तरह से परिभाषित जानकारी कार्य का प्रयास करते हैं, जो अमेरिकी GDP में योगदान देने वाले शीर्ष नौ उद्योगों से हैं. टास्क असली वर्क प्रोडक्ट्स की मांग करते हैं, जैसे कि सेल्स प्रेज़ेंटेशन, अकाउंटिंग स्प्रेडशीट्स, अर्जेंट केयर शेड्यूल्स, मैन्युफैक्चरिंग डायग्राम्स, या शॉर्ट वीडियो. ChatGPT में GPT‑5.2 Thinking के पास ऐसे नए उपकरण हैं जो GPT‑5 थिंकिंग के पास नहीं हैं.
एक विशेष रूप से अच्छे आउटपुट की समीक्षा करते समय, एक GDPval जज ने टिप्पणी की, "यह आउटपुट गुणवत्ता में एक रोमांचक और ध्यान देने योग्य छलांग है... ऐसा लगता है कि इसे किसी पेशेवर कंपनी के कर्मचारियों द्वारा किया गया है, और इसका लेआउट और दोनों डिलिवरेबल्स के लिए दी गई सलाह आश्चर्यजनक रूप से अच्छी तरह से डिज़ाइन की गई है, हालांकि एक में अभी भी कुछ छोटे-मोटे सुधार करने बाकी हैं."
इसके अतिरिक्त, हमारे आंतरिक बेंचमार्क पर, जो जूनियर इन्वेस्टमेंट बैंकिंग एनालिस्ट स्प्रेडशीट मॉडलिंग टास्क को मापता है—जैसे कि एक फ़ॉर्च्यून 500 कंपनी के लिए सही प्रारूपण और उद्धरणों के साथ तीन-स्टेटमेंट मॉडल तैयार करना, या टेक-प्राइवेट के लिए एक लीवरेज्ड बायआउट मॉडल बनाना—GPT 5.2 Thinking का औसत स्कोर प्रति टास्क GPT‑5.1 की तुलना में 9.3% अधिक है. 59.1% से बढ़कर 68.4% तक पहुँच गया.
साइड-बाय-साइड तुलना से यह स्पष्ट होता है कि GPT‑5.2 द्वारा जनरेट की गई स्प्रेडशीट्स और स्लाइड्स में परिष्कार और स्वरूपण में सुधार हुआ है. Thinking:

प्रॉम्प्ट: एक वर्कफोर्स प्लानिंग मॉडल बनाएं: हेडकाउंट, हायरिंग प्लॉन, एट्रिशन, और बजट प्रभाव. इंजीनियरिंग, मार्केटिंग, कानूनी, और बिक्री विभाग शामिल करें.
ChatGPT में नई स्प्रेडशीट और प्रेज़ेंटेशन क्षमताओं का उपयोग करने के लिए, तुम्हें एक पेड प्लान पर होना चाहिए और GPT‑5.2 Thinking या Pro में से किसी एक का चयन करना होगा. जटिल जेनरेशन को तैयार करने में कई मिनट लग सकते हैं.
GPT‑5.2 Thinking ने SWE-बेंच Pro पर 55.6% का नया स्टेट-ऑफ़-द-आर्ट स्थापित किया है, जो वास्तविक दुनिया के सॉफ़्टवेयर इंजीनियरिंग का एक कठोर मूल्यांकन है. SWE-bench Verified के विपरीत, जो केवल Python का परीक्षण करता है, SWE-bench Pro चार भाषाओं का परीक्षण करता है और इसका उद्देश्य अधिक प्रदूषण-प्रतिरोधी, चुनौतीपूर्ण, विविध और औद्योगिक रूप से प्रासंगिक होना है.
में SWE-बेंच Pro(एक नई विंडो में खुलेगा), एक मॉडल को कोड रिपॉजिटरी दी जाती है और उसे एक वास्तविक सॉफ़्टवेयर इंजीनियरिंग टास्क को हल करने के लिए एक पैच जनरेट करना होता है.
SWE-Bench Verified (नॉट प्लॉटेड), GPT‑5.2 Thinking ने हमारा नया उच्चतम स्कोर 80% हासिल किया.
रोज़मर्रा के प्रोफेशनल उपयोग में, इसका मतलब है एक ऐसा मॉडल जो प्रोडक्शन कोड को ज़्यादा भरोसेमंद तरीके से डिबग कर सके, फीचर रिक्वेस्ट्स को इम्प्लिमेंट कर सके, बड़े कोडबेस को रिफ़ैक्टर कर सके, और कम मैनुअल इंटरवेंशन के साथ एंड-टू-एंड फिक्स शिप कर सके.
GPT‑5.2 Thinking फ्रंट-एंड सॉफ़्टवेयर इंजीनियरिंग में GPT‑5.1 Thinking से भी बेहतर है. शुरुआती टेस्टर्स ने पाया कि यह फ्रंट-एंड डिवेलपमेंट और जटिल या थोड़े हटकर UI काम—खासतौर पर 3D एलिमेंट्स वाले टास्क्स—में काफी ज़्यादा मज़बूत है, जिससे यह इंजीनियर्स के लिए पूरे स्टैक में एक बेहद उपयोगी रोज़मर्रा का पार्टनर बन जाता है. देखें कि एक प्रॉम्प्ट से क्या उत्पन्न हो सकता है, इसके कुछ उदाहरण:
प्रॉम्प्ट: निम्नलिखित आवश्यकताओं के साथ एक सिंगल HTML फ़ाइल में एक सिंगल-पेज ऐप बनाएं:
- नाम: ओशन वेव सिमुलेशन
- उद्देश्य: वास्तविक एनिमेटेड लहरें प्रदर्शित करना.- विशेषताएँ: हवा की गति, लहरों की ऊँचाई, प्रकाश व्यवस्था बदलें.
- UI को शांत और वास्तविक दिखना चाहिए.
शुरूआती टेस्टर्स ने GPT‑5.2 के बारे में अपना फ़ीडबैक साझा किया कोडिंग क्षमताएँ:
"GPT-5.2 यह GPT-5 के बाद से एजेंटिक कोडिंग में GPT मॉडल्स के लिए सबसे बड़ी छलांग का प्रतिनिधित्व करता है और अपनी कीमत की श्रेणी में एक SOTA कोडिंग मॉडल है. संस्करण उन्नयन बुद्धिमत्ता में छलांग को कम आंकता है. हम इसे Windsurf और कई मुख्य Devin कार्यभारों में डिफ़ॉल्ट बनाने के लिए उत्साहित हैं."
GPT‑5.2 Thinking, GPT‑5.1 Thinking की तुलना में कम हैल्यूसीनेट करता है. ChatGPT के पहचान-रहित प्रश्नों के सेट पर, गलती वाले वाले उत्तर 38%rel तक कम देखे गए. प्रोफेशनल्स के लिए, इसका मतलब है कि रिसर्च, लेखन, विश्लेषण और निर्णय सपोर्ट के लिए मॉडल का उपयोग करते समय कम गलतियाँ होती हैं—जिससे यह रोज़मर्रा के नॉलेज वर्क के लिए और भी भरोसेमंद बन जाता है.
रीज़निंग प्रयास को अधिकतम उपलब्ध स्तर पर सेट किया गया और एक खोज उपकरण इनेबल किया गया. अन्य मॉडलों द्वारा त्रुटियाँ पाई गईं, जो स्वयं भी त्रुटियाँ कर सकते हैं. दावे-स्तर की त्रुटि दरें प्रतिक्रिया-स्तर की त्रुटि दरों की तुलना में बहुत कम होती हैं, क्योंकि अधिकांश प्रतिक्रियाओं में कई दावे शामिल होते हैं.
सभी मॉडलों की तरह, GPT‑5.2 Thinking पूरी तरह परफ़ेक्ट नहीं है. किसी भी महत्वपूर्ण चीज़ के लिए, उसके उत्तरों को दोबारा जांचो.
GPT‑5.2 Thinking ने लंबे-कॉन्टेक्स्ट रीज़निंग में एक नया स्टेट-ऑफ़-द-आर्ट स्थापित किया है, OpenAI MRCRv2 पर टॉप परफॉर्मेंस हासिल करता है—यह इवैल्यूएशन है जो मॉडल की क्षमता को टेस्ट करता है कि वह लंबे डॉक्यूमेंट्स में फैली जानकारी को कितनी अच्छी तरह जोड़कर समझ सकता है. वास्तविक दुनिया के टास्क जैसे गहन डॉक्यूमेंट विश्लेषण, जो सैकड़ों हजारों टोकन्स में फैली जुड़ी हुई जानकारी को समझना पड़ता है, GPT‑5.2 Thinking, GPT‑5.1 Thinking की तुलना में काफी अधिक सटीक है. विशेष रूप से, यह पहला मॉडल है जिसे हमने देखा है जो 4-नीडल MRCR वेरिएंट पर लगभग 100% सटीकता प्राप्त करता है (256k token तक).
व्यावहारिक तौर पर, इसका मतलब है कि प्रोफेशनल्स GPT‑5.2 का इस्तेमाल करके रिपोर्ट्स, कॉन्ट्रैक्ट्स, रिसर्च पेपर्स, ट्रांसक्रिप्ट्स और मल्टी-फ़ाइल प्रोजेक्ट्स जैसे लंबे डॉक्यूमेंट्स पर काम कर सकते हैं, और हज़ारों token के बीच सामंजस्य और सटीकता बनाए रखता है. यह GPT‑5.2 को गहन विश्लेषण, संश्लेषण और जटिल बहु-स्रोत वर्कफ़्लो के लिए खासतौर पर उपयुक्त बनाता है.
In OpenAI-MRCR v2 (मल्टी-राउंड को-रेफ़रेंस रेज़ोल्यूशन्स)(एक नई विंडो में खुलेगा) में, कई एक जैसी "सुई" वाली यूज़र रिक्वेस्ट्स को समान रिक्वेस्ट्स और जवाबों के लंबे "हेस्टैक्स" में डाला जाता है, और मॉडल से nth सुई के जवाब को दोबारा उत्पन्न करने के लिए कहा जाता है. संस्करण 2 में ~5% टास्क को ठीक किया गया है जिनमें गलत ग्राउंड ट्रुथ वैल्यूज थीं. मीन मैच रेशियो मॉडल के जवाब और सही जवाब के बीच औसत स्ट्रिंग मैच रेशियो को मापता है. 256k अधिकतम इनपुट टोकन पर मौजूद बिंदु 128k–256k इनपुट टोकन के औसत को दर्शाते हैं, और इसी तरह आगे भी. यहाँ, 256k का मतलब 256 * 1,024 = 262,114 टोकन है. तर्क प्रयास को अधिकतम उपलब्ध स्तर पर सेट किया गया था.
ऐसे टास्क के लिए जो अधिकतम कॉन्टेक्स्ट विंडो से परे सोचने से फ़ायदा मिलता है, GPT‑5.2 सोच हमारे नए रिस्पॉन्सेज /compact एंडपॉइंट के साथ संगत है, जो मॉडल की प्रभावी कॉन्टेक्स्ट विंडो को बढ़ाता है. यह GPT‑5.2 Thinking ऐसे टूल-हेवी और लंबे चलने वाले वर्कफ़्लोज़ को भी संभाल लेता है, जो वरना कॉन्टेक्स्ट लेंग्थ की वजह से सीमित हो जाते. हमारे API डॉक्यूमेंटेशन(एक नई विंडो में खुलेगा) में और पढ़ें.
GPT‑5.2 Thinking हमारा अब तक का सबसे मजबूत विज़न मॉडल है, जो चार्ट रीज़निंग और सॉफ़्टवेयर इंटरफ़ेस समझने में त्रुटि दर को लगभग आधा कर देता है.
रोज़मर्रा के प्रोफेशनल उपयोग में, इसका मतलब है कि मॉडल डैशबोर्ड्स, प्रॉडक्ट स्क्रीनशॉट्स, टेक्निकल डायग्राम्स और विज़ुअल रिपोर्ट्स को और ज़्यादा सटीक रूप से समझ सकता है—और फ़ाइनेंस, ऑपरेशन्स, इंजीनियरिंग, डिज़ाइन और कस्टमर सपोर्ट जैसे वर्कफ़्लोज़ में बेहतर मदद कर सकता है, जहाँ विज़ुअल जानकारी बेहद अहम होती है.
में CharXiv Reasoning(एक नई विंडो में खुलेगा), मॉडल्स वैज्ञानिक पत्रों के विज़ुअल चार्ट्स पर सवालों के जवाब देते हैं. एक Python टूल इनेबल किया गया और रीज़निंग प्रयास को अधिकतम पर सेट किया गया.
में ScreenSpot-Pro(एक नई विंडो में खुलेगा), मॉडल्स को विभिन्न पेशेवर सेटिंग्स से ग्राफ़िकल यूज़र इंटरफ़ेस के उच्च-रेज़ोल्यूशन स्क्रीनशॉट्स के बारे में रीज़न करना होता है. एक Python टूल इनेबल किया गया था और रीज़न प्रयास को अधिकतम पर सेट किया गया था. बिना Python टूल के, स्कोर बहुत कम होते हैं. हम ऐसे विज़न टास्क पर Python टूल को इनेबल करने की सिफारिश करते हैं.
पिछले मॉडलों की तुलना में, GPT‑5.2 Thinking की क्षमता को यह बेहतर समझ होती है कि इमेज के भीतर तत्व कैसे व्यवस्थित हैं, जो उन टास्क में मदद करता है जहाँ समस्या को हल करने में सापेक्ष लेआउट एक महत्वपूर्ण रोल निभाता है. नीचे दिए गए उदाहरण में, हम मॉडल से एक इमेज इनपुट (इस मामले में, एक मदरबोर्ड) में घटकों की पहचान करने और अनुमानित बाउंडिंग बॉक्स के साथ लेबल प्रदान करने के लिए कहते हैं. यहां तक कि कम गुणवत्ता वाली इमेज पर भी, GPT‑5.2 मुख्य क्षेत्रों की पहचान करता है और उन स्थानों पर बॉक्स लगाता है जो प्रत्येक घटक के सही स्थानों से लगभग मेल खाते हैं, जबकि GPT‑5.1 केवल कुछ हिस्सों को लेबल करता है और उनके स्थानिक व्यवस्था की समझ बहुत कमजोर दिखाता है.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking ने Tau2-बेंच टेलीकॉम पर 98.7% का नया स्टेट ऑफ द आर्ट हासिल किया है, जो यह दर्शाता है कि यह लंबे, मल्टी-टर्न टास्क्स में टूल का विश्वसनीय रूप से उपयोग करने में सक्षम है.
लेटेंसी-संवेदनशील उपयोग मामलों के लिए, GPT‑5.2 Thinking reasoning.effort='none' पर भी कहीं बेहतर परफॉर्म करता है. GPT‑5.1 और GPT‑4.1 की तुलना में काफी अधिक बेहतर परफॉर्म कर रहा है.
में τ2-बेंच(एक नई विंडो में खुलेगा), मॉडल टूल्स का उपयोग करके एक सिम्युलेटेड यूज़र के साथ मल्टी-टर्न इंटरैक्शन में कस्टमर सपोर्ट टास्क को पूरा करते हैं. टेलीकॉम डोमेन के लिए, हमने सिस्टम प्रॉम्प्ट में एक संक्षिप्त, सामान्य रूप से सहायक निर्देश शामिल किया ताकि प्रदर्शन को बढ़ाया जा सके. हम एयरलाइन सबसेट को बाहर रखते हैं क्योंकि ग्राउंड ट्रुथ ग्रेडिंग की गुणवत्ता कम है.
प्रोफेशनल्स के लिए इसका मतलब है और भी मज़बूत एंड-टू-एंड वर्कफ़्लोज़—जैसे कस्टमर सपोर्ट केस हल करना, कई सिस्टम्स से डेटा निकालना, एनालिसिस चलाना, और कम रुकावटों के साथ फ़ाइनल आउटपुट तैयार करना.
उदाहरण के तौर पर, जब कोई जटिल कस्टमर सर्विस सवाल कई स्टेप्स में हल करने की ज़रूरत रखता है, तो मॉडल कई एजेंट्स के बीच पूरे वर्कफ़्लो को और ज़्यादा प्रभावी तरीक़े से कॉर्डिनेट कर सकता है. नीचे दिए गए केस में, एक यात्री ने फ्लाइट डिले होने, कनेक्शन छूट जाने, न्यूयॉर्क में रात भर रुकने, और मेडिकल सीटिंग की आवश्यकता की रिपोर्ट दी है. GPT‑5.2 पूरी टास्क चेन—रीबुकिंग, स्पेशल-असिस्टेंस सीटिंग, और मुआवजा—को मैनेज करता है, और GPT‑5.1 की तुलना में ज़्यादा पूरा और बेहतर परिणाम देता है.
GPT‑5.1

GPT‑5.2

हमारी उम्मीदों में से एक यह है कि AI सभी के लाभ के लिए वैज्ञानिक अनुसंधान को तेज़ी से आगे बढ़ाएगा. इस दिशा में, हम वैज्ञानिकों के साथ काम कर रहे हैं और उनकी बात सुन रहे हैं कि AI उनके काम को कैसे तेज कर सकता है, और पिछले महीने हमने कुछ शुरुआती सहयोगात्मक प्रयोग यहां साझा किए.
हम मानते हैं कि GPT‑5.2 Pro और GPT‑5.2 Thinking दुनिया के सबसे बेहतरीन मॉडल्स हैं जो वैज्ञानिकों की मदद करने और उनके काम को तेज़ करने में सक्षम हैं. GPQA Diamond पर, जो ग्रेजुएट-लेवल का Google-प्रूफ Q&A बेंचमार्क है, GPT‑5.2 Pro ने 93.2% हासिल किया, उसके बाद GPT‑5.2 Thinking 92.4% पर है.
GPQA डायमंड में, मॉडल(एक नई विंडो में खुलेगा) भौतिकी, रसायन विज्ञान और जीवविज्ञान के बहुविकल्पीय प्रश्नों का उत्तर देते हैं. कोई उपकरण इनेबल नहीं थे और तर्क प्रयास को अधिकतम पर सेट किया गया था.
FrontierMath (टियर 1–3) पर, विशेषज्ञ स्तर की गणित का मूल्यांकन, GPT‑5.2 Thinking ने नया स्टेट-ऑफ़-द-आर्ट सेट किया, 40.3% समस्याएँ हल करके.
FrontierMath में, मॉडल(एक नई विंडो में खुलेगा) विशेषज्ञ स्तर की गणितीय समस्याओं को हल करते हैं. एक Python टूल इनेबल किया गया और तर्क प्रयास को अधिकतम पर सेट किया गया.
हम देख रहे हैं कि AI मॉडल गणित और विज्ञान में प्रगति को सार्थक रूप से तेज़ कर रहे हैं और यह ठोस रूप से दिखाई दे रहा है. उदाहरण के लिए, हाल के कार्य में GPT‑5.2 के साथ Pro, शोधकर्ताओं ने सांख्यिकीय अधिगम सिद्धांत में एक खुले प्रश्न को एक्स्प्लोर किया. एक संकीर्ण, अच्छी तरह से निर्दिष्ट सेटिंग में, मॉडल ने एक प्रमाण प्रस्तावित किया जिसे बाद में लेखकों द्वारा वेरिफ़ाई किया गया और बाहरी विशेषज्ञों के साथ समीक्षा की गई, यह दर्शाते हुए कि फ्रंटियर मॉडल कैसे निकट मानव निगरानी के तहत गणितीय अनुसंधान में सहायता कर सकते हैं.
ARC-AGI-1 (Verified) पर, जो सामान्य तर्क क्षमता को मापने के लिए डिज़ाइन किया गया एक बेंचमार्क है, GPT‑5.2 पहला मॉडल है जिसने 90% की सीमा को पार किया है, पिछले साल o3‑preview करें द्वारा 87% से सुधार करते हुए, और उस प्रदर्शन को प्राप्त करने की लागत को लगभग 390 गुना कम कर दिया है.
ARC-AGI-2 (Verified) पर, जो कठिनाई को बढ़ाता है और तरल रीज़निंग को बेहतर तरीके से अलग करता है, GPT‑5.2 Thinking ने चेन-ऑफ-थॉट मॉडल्स के लिए नया स्टेट ऑफ़ द आर्ट हासिल किया, 52.9% स्कोर के साथ. GPT‑5.2 Pro और भी बेहतर प्रदर्शन करता है, 54.2% तक पहुँचता है, जिससे मॉडल की नई, अमूर्त समस्याओं के माध्यम से रीज़न करने की क्षमता और भी बढ़ जाती है.
इन मूल्यांकनों में सुधार GPT‑5.2 के प्रदर्शन को दर्शाते हैं. मजबूत बहु-चरणीय तर्क, अधिक मात्रात्मक सटीकता, और जटिल तकनीकी टास्क पर अधिक विश्वसनीय समस्या समाधान.
हमारे शुरुआती परीक्षकों का GPT‑5.2 के बारे में यह कहना है:
"GPT-5.2 हमारे लिए एक संपूर्ण आर्किटेक्चर बदलाव को संभव बनाया. हमने एक नाजुक, मल्टी-एजेंट सिस्टम को 20 से अधिक टूल्स के साथ एक सिंगल मेगा-एजेंट में समेट दिया. सबसे अच्छी बात यह है कि यह बस काम करता है. मेगा-एजेंट तेज़, स्मार्ट और 100 गुना आसान रखरखाव के लिए है. हम नाटकीय रूप से कम लेटेंसी, अधिक मजबूत टूल कॉलिंग देख रहे हैं, और अब हमें विस्तृत सिस्टम प्रॉम्प्ट्स की आवश्यकता नहीं है क्योंकि 5.2 एक साधारण, एक-लाइन प्रॉम्प्ट से साफ-सुथरा निष्पादित होगा. यह शुद्ध जादू जैसा लगता है.
ChatGPT में, यूज़रों को GPT‑5.2 का उपयोग रोज़ाना बेहतर महसूस होना चाहिए—यह अधिक संरचित, अधिक विश्वसनीय है, और फिर भी बात करने में मज़ेदार है.
GPT‑5.2 Instant रोज़मर्रा के काम और सीखने के लिए एक तेज़, सक्षम साधन है, जिसमें जानकारी खोजने वाले प्रश्नों, हाउ-टू और वॉक-थ्रू, तकनीकी लेखन, और अनुवाद में स्पष्ट सुधार दिखाई देते हैं. यह GPT‑5.1 Instant में पेश किए गए गर्मजोशी भरे बातचीत के टोन पर आधारित है. प्रारंभिक परीक्षकों ने विशेष रूप से यह नोट किया कि मुख्य जानकारी को सामने लाने वाले स्पष्टीकरण अधिक स्पष्ट और सटीक हैं.
GPT‑5.2 Thinking को गहन टास्क के लिए डिज़ाइन किया गया है, जो यूज़र्स को अधिक जटिल टास्क को अधिक परिष्कृत तरीके से निपटाने में मदद करता है—विशेष रूप से कोडिंग, लंबे डॉक्यूमेंट का सारांश बनाने, अपलोड करें की गई फ़ाइलों के बारे में प्रश्नों का उत्तर देने, गणित और तर्क को चरण-दर-चरण समझने, और योजना और निर्णय लेने में स्पष्ट संरचना और अधिक उपयोगी विवरण के साथ समर्थन करने के लिए.
GPT‑5.2 Pro हमारे सबसे स्मार्ट और भरोसेमंद विकल्पों में से एक है, खासकर उन मुश्किल सवालों के लिए जहाँ उच्च-गुणवत्ता वाला जवाब थोड़ा इंतज़ार करने लायक होता है. शुरुआती परीक्षणों में, इसमें बड़ी गलतियों की संख्या कम पाई गई है और प्रोग्रामिंग जैसे जटिल डोमेन में इसका प्रदर्शन और भी मज़बूत है.
GPT‑5.2 GPT‑5 के साथ पेश किए गए सेफ़ कंप्लीशन अनुसंधान पर आधारित है, जो मॉडल को सबसे सहायक उत्तर देने के लिए सिखाता है, जबकि सुरक्षा सीमाओं के भीतर रहता है.
इस रिलीज़ के साथ, हमने संवेदनशील बातचीत में हमारे मॉडलों की प्रतिक्रियाओं को मजबूत करने के लिए अपने काम को आगे बढ़ाया, जिसमें आत्महत्या या आत्म-हानि, मानसिक स्वास्थ्य संकट, या मॉडल पर भावनात्मक निर्भरता के संकेत देने वाले प्रॉम्प्ट्स के प्रति उनकी प्रतिक्रिया में महत्वपूर्ण सुधार किए हैं. इन लक्षित हस्तक्षेपों के कारण GPT‑5.2 में अवांछित प्रतिक्रियाओं की संख्या कम हो गई है. Instant और GPT‑5.2 Thinking मॉडल की तुलना GPT‑5.1 और GPT‑5 Instant और Thinking मॉडल. अधिक जानकारी सिस्टम कार्ड में देखी जा सकती है.
हम अपने उम्र अनुमान मॉडल को प्रारंभिक चरण में रोल आउट कर रहे हैं ताकि हम 18 वर्ष से कम उम्र के यूज़रों के लिए स्वचालित रूप से सामग्री सुरक्षा लागू कर सकें, जिससे संवेदनशील सामग्री तक पहुंच सीमित हो सके. यह हमारे 18 वर्ष से कम उम्र के यूज़र्स और हमारे पेरेंटल कंट्रोल के मौजूदा दृष्टिकोण को और विकसित करता है.
GPT‑5.2 चल रहे सुधारों की श्रृंखला में एक कदम है, और हम अभी भी बहुत दूर हैं. हालांकि यह रिलीज़ बुद्धिमत्ता और उत्पादकता में महत्वपूर्ण लाभ प्रदान करती है, हम जानते हैं कि कुछ क्षेत्रों में लोग और अधिक की अपेक्षा रखते हैं. ChatGPT में, हम अत्यधिक इनकार जैसी ज्ञात समस्याओं पर काम कर रहे हैं, जबकि समग्र रूप से सुरक्षा और विश्वसनीयता के स्तर को आगे बढ़ा रहे हैं. ये बदलाव जटिल हैं, और हमारा फ़ोकस उन्हें सही करने पर है.
GPT‑5.2 Instant | GPT‑5.1 Instant | GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
मेंटल हेल्थ | 0.995 | 0.883 | 0.915 | 0.684 |
इमोशनल रिलायंस | 0.938 | 0.945 | 0.955 | 0.785 |
सेल्फ-हार्म | 0.938 | 0.925 | 0.963 | 0.937 |
ChatGPT में, हम आज से GPT‑5.2 (Instant, Thinking, और Pro) को रोल आउट करना शुरू करेंगे, शुरुआत पेड प्लान (Plus, Pro, Go, Business, Enterprise) से होगी. हम GPT‑5.2 को धीरे-धीरे डिप्लॉय कर रहे हैं ताकि ChatGPT को जितना संभव हो सके, सुचारू और विश्वसनीय बनाए रखा जा सके; अगर आपको यह पहले नहीं दिखता है, तो कृपया बाद में फिर से कोशिश करें. ChatGPT में, GPT‑5.1 अभी भी भुगतान करने वाले यूज़र के लिए तीन महीने तक लेगेसी मॉडल के तहत उपलब्ध रहेगा, जिसके बाद हम GPT‑5.1 को बंद कर देंगे.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
हमारे API प्लेटफ़ॉर्म में, GPT‑5.2 थिंकिंग आज से Responses API और चैट एंडपॉइंट API में GPT‑5.2 के रूप में उपलब्ध है, और GPT‑5.2 इंस्टेंट के रूप में GPT‑5.2‑chat‑latest. GPT‑5.2 Pro Responses API में gpt-5.2-pro के रूप में उपलब्ध है. डेवलपर अब GPT‑5.2 में तर्क पैरामीटर सेट कर सकते हैं. Pro, और GPT‑5.2 दोनों. Pro और GPT‑5.2 अब सोचने की प्रक्रिया xhigh के नए पांचवें तर्क प्रयास का सपोर्ट करती है, उन टास्क के लिए जहां गुणवत्ता सबसे महत्वपूर्ण है.
GPT‑5.2 की कीमत $1.75 प्रति 1M इनपुट टोकन और $14 प्रति 1M आउटपुट टोकन है, और कैच किए गए इनपुट पर 90% की छूट मिलती है. कई एजेंटिक मूल्यांकनों पर, हमने पाया कि GPT‑5.2 के बावजूद भी प्रति टोकन अधिक लागत के बावजूद, GPT‑5.2 की बेहतर टोकन दक्षता के कारण एक निर्धारित गुणवत्ता स्तर को प्राप्त करने की लागत कम हो गई.
हालांकि ChatGPT सब्सक्रिप्शन के दाम वही रहते हैं, API में GPT‑5.2 की कीमत प्रति टोकन GPT‑5.1 से अधिक है क्योंकि यह एक अधिक सक्षम मॉडल है. यह अभी भी अन्य फ्रंटियर मॉडल की तुलना में कम कीमत पर है, ताकि लोग इसे अपने रोज़मर्रा के काम और मुख्य ऐप्लिकेशन्स में गहराई से इस्तेमाल करना जारी रख सकें.
मॉडल | इनपुट | कैश्ड इनपुट | आउटपुट |
gpt-5.2 / gpt-5.2-chat-latest | $1.75 | $0.175 | $14 |
gpt-5.2-pro | $21 | - | $168 |
gpt-5.1 / gpt-5.1-chat-latest | $1.25 | $0.125 | $10 |
gpt-5-pro | $15 | - | $120 |
हमारे पास GPT‑5.1 को डिप्रिकेट करने के कोई मौजूदा प्लॉन नहीं हैं. GPT‑5, या API में GPT‑4.1, और डेवलपरों को किसी भी डिप्रिकेशन प्लॉन के बारे में पहले से पर्याप्त सूचना दी जाएगी. हालांकि GPT‑5.2 Codex में बिना किसी बदलाव के अच्छी तरह से काम करेगा, हम आने वाले हफ्तों में Codex के लिए ऑप्टिमाइज़ किया गया GPT‑5.2 का एक संस्करण जारी करने की उम्मीद करते हैं.
GPT‑5.2 को हमारे लंबे समय से चले आ रहे साझेदार NVIDIA और Microsoft के साथ मिलकर विकसित किया गया. Azure डेटा सेंटर्स और NVIDIA GPUs, जिनमें H100, H200, और GB200-NVL72 शामिल हैं, OpenAI के बड़े पैमाने पर ट्रेनिंग इंफ्रास्ट्रक्चर का आधार हैं, जो मॉडल इंटेलिजेंस में महत्वपूर्ण सुधार लाते हैं. यह सहयोग हमें आत्मविश्वास के साथ कंप्यूट स्केलिंग करने और नए मॉडल को तेजी से बाजार में लाने की अनुमति देता है.
नीचे, हम GPT‑5.2 के लिए व्यापक बेंचमार्क स्कोर प्रस्तुत करते हैं. सोच, GPT‑5.2 के लिए एक सबसेट के साथ प्रो
पेशेवर
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
कोडिंग
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
फ़ैक्च्युएलिटी
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
लंबा कॉन्टेक्स्ट
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
विज़न
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
टूल यूज़
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
शैक्षणिक
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
एब्सट्रैक्ट रीज़निंग
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
हमारे API में मॉडल को अधिकतम उपलब्ध तर्क प्रयास (GPT‑5.2 के लिए xhigh) के साथ चलाया गया. Thinking & Pro, और GPT‑5.1 Thinking के लिए उच्च, पेशेवर मूल्यांकन को छोड़कर, जहाँ GPT‑5.2 सोच को रीज़निंग एफर्ट के साथ भारी चलाया गया, जो ChatGPT Pro में उपलब्ध अधिकतम स्तर है. बेंचमार्क्स एक शोध वातावरण में किए गए थे, जो कुछ मामलों में प्रोडक्शन ChatGPT से थोड़ा अलग परिणाम दे सकते हैं.
* SWE-Lancer के लिए, हम 40/237 समस्याओं को छोड़ते हैं जो हमारे इन्फ्रास्ट्रक्चर पर नहीं चल पाईं.


