स्किप करके मेन कंटेंट पर जाऍं
OpenAI

पेश है GPT‑5.2

सबसे एडवांस्ड फ्रंटियर मॉडल जो प्रोफेशनल काम और लंबे समय तक चलने वाले एजेंट्स के लिए बनाया गया है.

लोड किया जा रहा है...

हम पेश कर रहे हैं GPT‑5.2, पेशेवर ज्ञान कार्य के लिए अब तक का सबसे सक्षम मॉडल सीरीज.

पहले से ही, औसत ChatGPT Enterprise यूज़र कहते हैं कि AI उन्हें प्रतिदिन 40-60 मिनट सेव करता है, और भारी यूज़र कहते हैं कि यह उन्हें प्रति सप्ताह 10 घंटे से अधिक सेव करता है. हमने GPT‑5.2 को इस तरह डिज़ाइन किया है कि यह लोगों के लिए और भी अधिक आर्थिक मूल्य खोल सके; यह स्प्रेडशीट बनाएं, प्रेज़ेंटेशन तैयार करने, कोड लिखने, इमेज पहचानने, लंबे कॉन्टेक्स्ट समझने, उपकरणों का उपयोग करने और जटिल, बहु-चरणीय प्रोजेक्ट संभालने में बेहतर है.

GPT‑5.2 कई बेंचमार्क्स पर नई ऊँचाई स्थापित करता है, जिसमें GDPval शामिल है, जहाँ यह 44 व्यवसायों में फैले अच्छी तरह से परिभाषित जानकारी टास्क में उद्योग के पेशेवरों से बेहतर प्रदर्शन करता है.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (जीत या बराबरी)
जानकारी कार्य टास्क

70.9%

38.8% (GPT‑5)

SWE-बेंच Pro (पब्लिक)
सॉफ़्टवेयर इंजीनियरिंग

55.6%

50.8%

SWE-बेंच वेरिफाइड
सॉफ़्टवेयर इंजीनियरिंग

80.0%

76.3%

GPQA Diamond (कोई उपकरण नहीं)
विज्ञान के प्रश्न

92.4%

88.1%

CharXiv Reasoning (Python के साथ)
वैज्ञानिक चित्रों के प्रश्न

88.7%

80.3%

HMMT (फरवरी 2025)
गणित प्रतियोगिता

99.4%

96.3%

FrontierMath (टियर 1–3)
एडवांस्ड मैथेमैटिक्स

40.3%

31.0%

ARC-AGI-1 (Verified)
एब्सट्रैक्ट रीज़निंग

86.2%

72.8%

ARC-AGI-2 (Verified)
एब्सट्रैक्ट रीज़निंग

52.9%

17.6%

Notion(एक नई विंडो में खुलेगा), Box(एक नई विंडो में खुलेगा), Shopify(एक नई विंडो में खुलेगा), Harvey(एक नई विंडो में खुलेगा) और Zoom(एक नई विंडो में खुलेगा) ने देखा कि GPT‑5.2 अत्याधुनिक दीर्घकालिक तर्क और उपकरण-कॉलिंग प्रदर्शन प्रदर्शित करता है. Databricks(एक नई विंडो में खुलेगा), Hex(एक नई विंडो में खुलेगा) और Triple Whale(एक नई विंडो में खुलेगा) ने पाया कि GPT‑5.2 एजेंटिक डेटा साइंस और डॉक्यूमेंट टास्क में असाधारण है. Cognition(एक नई विंडो में खुलेगा), Warp(एक नई विंडो में खुलेगा), Charlie Labs(एक नई विंडो में खुलेगा), JetBrains(एक नई विंडो में खुलेगा) और Augment Code(एक नई विंडो में खुलेगा) का कहना है कि GPT‑5.2 अत्याधुनिक एजेंटिक कोडिंग प्रदर्शन प्रदान करता है, जिसमें इंटरैक्टिव कोडिंग, कोड समीक्षाएं और बग खोजने जैसे क्षेत्रों में मापने योग्य सुधार शामिल हैं.

ChatGPT में GPT‑5.2 Instant, Thinking, और Pro आज से रोल आउट होना शुरू हो रहे हैं, शुरुआत पेड प्लान से होगी. API में अब यह सभी डेवलपर के लिए उपलब्ध है.

कुल मिलाकर, GPT‑5.2 में जनरल इंटेलिजेंस, लंबे कॉन्टेक्स्ट की समझ, एजेंटिक टूल-कॉलिंग और विज़न में बड़े सुधार आते हैं, जिससे यह जटिल वास्तविक-दुनिया वाले टास्क्स को शुरुआत से अंत तक पूरा करने में किसी भी पिछले मॉडल से बेहतर बन जाता है.

मॉडल परफॉर्मेंस

आर्थिक रूप से मूल्यवान टास्क

GPT‑5.2 Thinking अब तक का सबसे बेहतरीन मॉडल है, जो वास्तविक दुनिया और पेशेवर उपयोग के लिए सबसे उपयुक्त है. GDPval पर, जो 44 व्यवसायों में अच्छी तरह से परिभाषित जानकारी कार्य टास्क को मापने वाला एक मूल्यांकन है, GPT‑5.2 Thinking ने एक नया अत्याधुनिक स्कोर स्थापित किया है, और यह हमारा पहला मॉडल है जो मानव विशेषज्ञ स्तर पर या उससे ऊपर प्रदर्शन करता है. विशेष रूप से, GPT‑5.2 Thinking GDPval जानकारी कार्य टास्क पर 70.9% तुलना में शीर्ष उद्योग पेशेवरों को हराता है या उनके बराबर प्रदर्शन करता है, जैसा कि विशेषज्ञ मानव जजों ने आंका है. इन टास्क में प्रेज़ेंटेशन, स्प्रेडशीट और अन्य आर्टिफैक्ट बनाना शामिल है. GPT‑5.2 Thinking ने GDPval टास्कों के लिए आउटपुट को विशेषज्ञ पेशेवरों की तुलना में >11x गति से और <1% लागत पर उत्पन्न किया, यह सुझाव देते हुए कि मानव निगरानी के साथ, GPT‑5.2 पेशेवर कार्यों में सहायता कर सकता है. स्पीड और लागत का अनुमान ऐतिहासिक मेट्रिक्स पर आधारित है; ChatGPT में स्पीड अलग हो सकती है.

GDPval में, मॉडल 44 व्यवसायों में फैले अच्छी तरह से परिभाषित जानकारी कार्य का प्रयास करते हैं, जो अमेरिकी GDP में योगदान देने वाले शीर्ष नौ उद्योगों से हैं. टास्क असली वर्क प्रोडक्ट्स की मांग करते हैं, जैसे कि सेल्स प्रेज़ेंटेशन, अकाउंटिंग स्प्रेडशीट्स, अर्जेंट केयर शेड्यूल्स, मैन्युफैक्चरिंग डायग्राम्स, या शॉर्ट वीडियो. ChatGPT में GPT‑5.2 Thinking के पास ऐसे नए उपकरण हैं जो GPT‑5 थिंकिंग के पास नहीं हैं.

एक विशेष रूप से अच्छे आउटपुट की समीक्षा करते समय, एक GDPval जज ने टिप्पणी की, "यह आउटपुट गुणवत्ता में एक रोमांचक और ध्यान देने योग्य छलांग है... ऐसा लगता है कि इसे किसी पेशेवर कंपनी के कर्मचारियों द्वारा किया गया है, और इसका लेआउट और दोनों डिलिवरेबल्स के लिए दी गई सलाह आश्चर्यजनक रूप से अच्छी तरह से डिज़ाइन की गई है, हालांकि एक में अभी भी कुछ छोटे-मोटे सुधार करने बाकी हैं."

इसके अतिरिक्त, हमारे आंतरिक बेंचमार्क पर, जो जूनियर इन्वेस्टमेंट बैंकिंग एनालिस्ट स्प्रेडशीट मॉडलिंग टास्क को मापता है—जैसे कि एक फ़ॉर्च्यून 500 कंपनी के लिए सही प्रारूपण और उद्धरणों के साथ तीन-स्टेटमेंट मॉडल तैयार करना, या टेक-प्राइवेट के लिए एक लीवरेज्ड बायआउट मॉडल बनाना—GPT 5.2 Thinking का औसत स्कोर प्रति टास्क GPT‑5.1 की तुलना में 9.3% अधिक है. 59.1% से बढ़कर 68.4% तक पहुँच गया.

साइड-बाय-साइड तुलना से यह स्पष्ट होता है कि GPT‑5.2 द्वारा जनरेट की गई स्प्रेडशीट्स और स्लाइड्स में परिष्कार और स्वरूपण में सुधार हुआ है. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

प्रॉम्प्ट: एक वर्कफोर्स प्लानिंग मॉडल बनाएं: हेडकाउंट, हायरिंग प्लॉन, एट्रिशन, और बजट प्रभाव. इंजीनियरिंग, मार्केटिंग, कानूनी, और बिक्री विभाग शामिल करें.

ChatGPT में नई स्प्रेडशीट और प्रेज़ेंटेशन क्षमताओं का उपयोग करने के लिए, तुम्हें एक पेड प्लान पर होना चाहिए और GPT‑5.2 Thinking या Pro में से किसी एक का चयन करना होगा. जटिल जेनरेशन को तैयार करने में कई मिनट लग सकते हैं.

कोडिंग

GPT‑5.2 Thinking ने SWE-बेंच Pro पर 55.6% का नया स्टेट-ऑफ़-द-आर्ट स्थापित किया है, जो वास्तविक दुनिया के सॉफ़्टवेयर इंजीनियरिंग का एक कठोर मूल्यांकन है. SWE-bench Verified के विपरीत, जो केवल Python का परीक्षण करता है, SWE-bench Pro चार भाषाओं का परीक्षण करता है और इसका उद्देश्य अधिक प्रदूषण-प्रतिरोधी, चुनौतीपूर्ण, विविध और औद्योगिक रूप से प्रासंगिक होना है.

में SWE-बेंच Pro(एक नई विंडो में खुलेगा), एक मॉडल को कोड रिपॉजिटरी दी जाती है और उसे एक वास्तविक सॉफ़्टवेयर इंजीनियरिंग टास्क को हल करने के लिए एक पैच जनरेट करना होता है.

SWE-Bench Verified (नॉट प्लॉटेड), GPT‑5.2 Thinking ने हमारा नया उच्चतम स्कोर 80% हासिल किया.

रोज़मर्रा के प्रोफेशनल उपयोग में, इसका मतलब है एक ऐसा मॉडल जो प्रोडक्शन कोड को ज़्यादा भरोसेमंद तरीके से डिबग कर सके, फीचर रिक्वेस्ट्स को इम्प्लिमेंट कर सके, बड़े कोडबेस को रिफ़ैक्टर कर सके, और कम मैनुअल इंटरवेंशन के साथ एंड-टू-एंड फिक्स शिप कर सके.

GPT‑5.2 Thinking फ्रंट-एंड सॉफ़्टवेयर इंजीनियरिंग में GPT‑5.1 Thinking से भी बेहतर है. शुरुआती टेस्टर्स ने पाया कि यह फ्रंट-एंड डिवेलपमेंट और जटिल या थोड़े हटकर UI काम—खासतौर पर 3D एलिमेंट्स वाले टास्क्स—में काफी ज़्यादा मज़बूत है, जिससे यह इंजीनियर्स के लिए पूरे स्टैक में एक बेहद उपयोगी रोज़मर्रा का पार्टनर बन जाता है. देखें कि एक प्रॉम्प्ट से क्या उत्पन्न हो सकता है, इसके कुछ उदाहरण:

प्रॉम्प्ट: निम्नलिखित आवश्यकताओं के साथ एक सिंगल HTML फ़ाइल में एक सिंगल-पेज ऐप बनाएं:
- नाम: ओशन वेव सिमुलेशन
- उद्देश्य: वास्तविक एनिमेटेड लहरें प्रदर्शित करना.- विशेषताएँ: हवा की गति, लहरों की ऊँचाई, प्रकाश व्यवस्था बदलें.
- UI को शांत और वास्तविक दिखना चाहिए.

शुरूआती टेस्टर्स ने GPT‑5.2 के बारे में अपना फ़ीडबैक साझा किया कोडिंग क्षमताएँ:

&quot;GPT-5.2 यह GPT-5 के बाद से एजेंटिक कोडिंग में GPT मॉडल्स के लिए सबसे बड़ी छलांग का प्रतिनिधित्व करता है और अपनी कीमत की श्रेणी में एक SOTA कोडिंग मॉडल है. संस्करण उन्नयन बुद्धिमत्ता में छलांग को कम आंकता है. हम इसे Windsurf और कई मुख्य Devin कार्यभारों में डिफ़ॉल्ट बनाने के लिए उत्साहित हैं.&quot;
Jeff Wang, CEO, Windsurf

फ़ैक्च्युएलिटी

GPT‑5.2 Thinking, GPT‑5.1 Thinking की तुलना में कम हैल्यूसीनेट करता है. ChatGPT के पहचान-रहित प्रश्नों के सेट पर, गलती वाले वाले उत्तर 38%rel तक कम देखे गए. प्रोफेशनल्स के लिए, इसका मतलब है कि रिसर्च, लेखन, विश्लेषण और निर्णय सपोर्ट के लिए मॉडल का उपयोग करते समय कम गलतियाँ होती हैं—जिससे यह रोज़मर्रा के नॉलेज वर्क के लिए और भी भरोसेमंद बन जाता है.

रीज़निंग प्रयास को अधिकतम उपलब्ध स्तर पर सेट किया गया और एक खोज उपकरण इनेबल किया गया. अन्य मॉडलों द्वारा त्रुटियाँ पाई गईं, जो स्वयं भी त्रुटियाँ कर सकते हैं. दावे-स्तर की त्रुटि दरें प्रतिक्रिया-स्तर की त्रुटि दरों की तुलना में बहुत कम होती हैं, क्योंकि अधिकांश प्रतिक्रियाओं में कई दावे शामिल होते हैं.

सभी मॉडलों की तरह, GPT‑5.2 Thinking पूरी तरह परफ़ेक्ट नहीं है. किसी भी महत्वपूर्ण चीज़ के लिए, उसके उत्तरों को दोबारा जांचो.

लंबा कॉन्टेक्स्ट

GPT‑5.2 Thinking ने लंबे-कॉन्टेक्स्ट रीज़निंग में एक नया स्टेट-ऑफ़-द-आर्ट स्थापित किया है, OpenAI MRCRv2 पर टॉप परफॉर्मेंस हासिल करता है—यह इवैल्यूएशन है जो मॉडल की क्षमता को टेस्ट करता है कि वह लंबे डॉक्यूमेंट्स में फैली जानकारी को कितनी अच्छी तरह जोड़कर समझ सकता है. वास्तविक दुनिया के टास्क जैसे गहन डॉक्यूमेंट विश्लेषण, जो सैकड़ों हजारों टोकन्स में फैली जुड़ी हुई जानकारी को समझना पड़ता है, GPT‑5.2 Thinking, GPT‑5.1 Thinking की तुलना में काफी अधिक सटीक है. विशेष रूप से, यह पहला मॉडल है जिसे हमने देखा है जो 4-नीडल MRCR वेरिएंट पर लगभग 100% सटीकता प्राप्त करता है (256k token तक).

व्यावहारिक तौर पर, इसका मतलब है कि प्रोफेशनल्स GPT‑5.2 का इस्तेमाल करके रिपोर्ट्स, कॉन्ट्रैक्ट्स, रिसर्च पेपर्स, ट्रांसक्रिप्ट्स और मल्टी-फ़ाइल प्रोजेक्ट्स जैसे लंबे डॉक्यूमेंट्स पर काम कर सकते हैं, और हज़ारों token के बीच सामंजस्य और सटीकता बनाए रखता है. यह GPT‑5.2 को गहन विश्लेषण, संश्लेषण और जटिल बहु-स्रोत वर्कफ़्लो के लिए खासतौर पर उपयुक्त बनाता है.

In OpenAI-MRCR⁠ v2 (मल्टी-राउंड को-रेफ़रेंस रेज़ोल्यूशन्स)(एक नई विंडो में खुलेगा) में, कई एक जैसी "सुई" वाली यूज़र रिक्वेस्ट्स को समान रिक्वेस्ट्स और जवाबों के लंबे "हेस्टैक्स" में डाला जाता है, और मॉडल से nth सुई के जवाब को दोबारा उत्पन्न करने के लिए कहा जाता है. संस्करण 2 में ~5% टास्क को ठीक किया गया है जिनमें गलत ग्राउंड ट्रुथ वैल्यूज थीं. मीन मैच रेशियो मॉडल के जवाब और सही जवाब के बीच औसत स्ट्रिंग मैच रेशियो को मापता है. 256k अधिकतम इनपुट टोकन पर मौजूद बिंदु 128k–256k इनपुट टोकन के औसत को दर्शाते हैं, और इसी तरह आगे भी. यहाँ, 256k का मतलब 256 * 1,024 = 262,114 टोकन है. तर्क प्रयास को अधिकतम उपलब्ध स्तर पर सेट किया गया था.

ऐसे टास्क के लिए जो अधिकतम कॉन्टेक्स्ट विंडो से परे सोचने से फ़ायदा मिलता है, GPT‑5.2 सोच हमारे नए रिस्पॉन्सेज /compact एंडपॉइंट के साथ संगत है, जो मॉडल की प्रभावी कॉन्टेक्स्ट विंडो को बढ़ाता है. यह GPT‑5.2 Thinking ऐसे टूल-हेवी और लंबे चलने वाले वर्कफ़्लोज़ को भी संभाल लेता है, जो वरना कॉन्टेक्स्ट लेंग्थ की वजह से सीमित हो जाते. हमारे API डॉक्यूमेंटेशन(एक नई विंडो में खुलेगा) में और पढ़ें.

विज़न

GPT‑5.2 Thinking हमारा अब तक का सबसे मजबूत विज़न मॉडल है, जो चार्ट रीज़निंग और सॉफ़्टवेयर इंटरफ़ेस समझने में त्रुटि दर को लगभग आधा कर देता है.

रोज़मर्रा के प्रोफेशनल उपयोग में, इसका मतलब है कि मॉडल डैशबोर्ड्स, प्रॉडक्ट स्क्रीनशॉट्स, टेक्निकल डायग्राम्स और विज़ुअल रिपोर्ट्स को और ज़्यादा सटीक रूप से समझ सकता है—और फ़ाइनेंस, ऑपरेशन्स, इंजीनियरिंग, डिज़ाइन और कस्टमर सपोर्ट जैसे वर्कफ़्लोज़ में बेहतर मदद कर सकता है, जहाँ विज़ुअल जानकारी बेहद अहम होती है.

में CharXiv Reasoning(एक नई विंडो में खुलेगा), मॉडल्स वैज्ञानिक पत्रों के विज़ुअल चार्ट्स पर सवालों के जवाब देते हैं. एक Python टूल इनेबल किया गया और रीज़निंग प्रयास को अधिकतम पर सेट किया गया.

में ScreenSpot-Pro(एक नई विंडो में खुलेगा), मॉडल्स को विभिन्न पेशेवर सेटिंग्स से ग्राफ़िकल यूज़र इंटरफ़ेस के उच्च-रेज़ोल्यूशन स्क्रीनशॉट्स के बारे में रीज़न करना होता है. एक Python टूल इनेबल किया गया था और रीज़न प्रयास को अधिकतम पर सेट किया गया था. बिना Python टूल के, स्कोर बहुत कम होते हैं. हम ऐसे विज़न टास्क पर Python टूल को इनेबल करने की सिफारिश करते हैं.

पिछले मॉडलों की तुलना में, GPT‑5.2 Thinking की क्षमता को यह बेहतर समझ होती है कि इमेज के भीतर तत्व कैसे व्यवस्थित हैं, जो उन टास्क में मदद करता है जहाँ समस्या को हल करने में सापेक्ष लेआउट एक महत्वपूर्ण रोल निभाता है. नीचे दिए गए उदाहरण में, हम मॉडल से एक इमेज इनपुट (इस मामले में, एक मदरबोर्ड) में घटकों की पहचान करने और अनुमानित बाउंडिंग बॉक्स के साथ लेबल प्रदान करने के लिए कहते हैं. यहां तक कि कम गुणवत्ता वाली इमेज पर भी, GPT‑5.2 मुख्य क्षेत्रों की पहचान करता है और उन स्थानों पर बॉक्स लगाता है जो प्रत्येक घटक के सही स्थानों से लगभग मेल खाते हैं, जबकि GPT‑5.1 केवल कुछ हिस्सों को लेबल करता है और उनके स्थानिक व्यवस्था की समझ बहुत कमजोर दिखाता है.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

टूल कॉलिंग

GPT‑5.2 Thinking ने Tau2-बेंच टेलीकॉम पर 98.7% का नया स्टेट ऑफ द आर्ट हासिल किया है, जो यह दर्शाता है कि यह लंबे, मल्टी-टर्न टास्क्स में टूल का विश्वसनीय रूप से उपयोग करने में सक्षम है.

लेटेंसी-संवेदनशील उपयोग मामलों के लिए, GPT‑5.2 Thinking reasoning.effort='none' पर भी कहीं बेहतर परफॉर्म करता है. GPT‑5.1 और GPT‑4.1 की तुलना में काफी अधिक बेहतर परफॉर्म कर रहा है.

में τ2-बेंच⁠(एक नई विंडो में खुलेगा), मॉडल टूल्स का उपयोग करके एक सिम्युलेटेड यूज़र के साथ मल्टी-टर्न इंटरैक्शन में कस्टमर सपोर्ट टास्क को पूरा करते हैं. टेलीकॉम डोमेन के लिए, हमने सिस्टम प्रॉम्प्ट में एक संक्षिप्त, सामान्य रूप से सहायक निर्देश शामिल किया ताकि प्रदर्शन को बढ़ाया जा सके. हम एयरलाइन सबसेट को बाहर रखते हैं क्योंकि ग्राउंड ट्रुथ ग्रेडिंग की गुणवत्ता कम है.

प्रोफेशनल्स के लिए इसका मतलब है और भी मज़बूत एंड-टू-एंड वर्कफ़्लोज़—जैसे कस्टमर सपोर्ट केस हल करना, कई सिस्टम्स से डेटा निकालना, एनालिसिस चलाना, और कम रुकावटों के साथ फ़ाइनल आउटपुट तैयार करना.

उदाहरण के तौर पर, जब कोई जटिल कस्टमर सर्विस सवाल कई स्टेप्स में हल करने की ज़रूरत रखता है, तो मॉडल कई एजेंट्स के बीच पूरे वर्कफ़्लो को और ज़्यादा प्रभावी तरीक़े से कॉर्डिनेट कर सकता है. नीचे दिए गए केस में, एक यात्री ने फ्लाइट डिले होने, कनेक्शन छूट जाने, न्यूयॉर्क में रात भर रुकने, और मेडिकल सीटिंग की आवश्यकता की रिपोर्ट दी है. GPT‑5.2 पूरी टास्क चेन—रीबुकिंग, स्पेशल-असिस्टेंस सीटिंग, और मुआवजा—को मैनेज करता है, और GPT‑5.1 की तुलना में ज़्यादा पूरा और बेहतर परिणाम देता है.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

विज्ञान और गणित

हमारी उम्मीदों में से एक यह है कि AI सभी के लाभ के लिए वैज्ञानिक अनुसंधान को तेज़ी से आगे बढ़ाएगा. इस दिशा में, हम वैज्ञानिकों के साथ काम कर रहे हैं और उनकी बात सुन रहे हैं कि AI उनके काम को कैसे तेज कर सकता है, और पिछले महीने हमने कुछ शुरुआती सहयोगात्मक प्रयोग यहां साझा किए.

हम मानते हैं कि GPT‑5.2 Pro और GPT‑5.2 Thinking दुनिया के सबसे बेहतरीन मॉडल्स हैं जो वैज्ञानिकों की मदद करने और उनके काम को तेज़ करने में सक्षम हैं. GPQA Diamond पर, जो ग्रेजुएट-लेवल का Google-प्रूफ Q&A बेंचमार्क है, GPT‑5.2 Pro ने 93.2% हासिल किया, उसके बाद GPT‑5.2 Thinking 92.4% पर है.

GPQA डायमंड में, मॉडल(एक नई विंडो में खुलेगा) भौतिकी, रसायन विज्ञान और जीवविज्ञान के बहुविकल्पीय प्रश्नों का उत्तर देते हैं. कोई उपकरण इनेबल नहीं थे और तर्क प्रयास को अधिकतम पर सेट किया गया था.

FrontierMath (टियर 1–3) पर, विशेषज्ञ स्तर की गणित का मूल्यांकन, GPT‑5.2 Thinking ने नया स्टेट-ऑफ़-द-आर्ट सेट किया, 40.3% समस्याएँ हल करके.

FrontierMath में, मॉडल(एक नई विंडो में खुलेगा) विशेषज्ञ स्तर की गणितीय समस्याओं को हल करते हैं. एक Python टूल इनेबल किया गया और तर्क प्रयास को अधिकतम पर सेट किया गया.

हम देख रहे हैं कि AI मॉडल गणित और विज्ञान में प्रगति को सार्थक रूप से तेज़ कर रहे हैं और यह ठोस रूप से दिखाई दे रहा है. उदाहरण के लिए, हाल के कार्य में GPT‑5.2 के साथ Pro, शोधकर्ताओं ने सांख्यिकीय अधिगम सिद्धांत में एक खुले प्रश्न को एक्स्प्लोर किया. एक संकीर्ण, अच्छी तरह से निर्दिष्ट सेटिंग में, मॉडल ने एक प्रमाण प्रस्तावित किया जिसे बाद में लेखकों द्वारा वेरिफ़ाई किया गया और बाहरी विशेषज्ञों के साथ समीक्षा की गई, यह दर्शाते हुए कि फ्रंटियर मॉडल कैसे निकट मानव निगरानी के तहत गणितीय अनुसंधान में सहायता कर सकते हैं.

ARC-AGI 2

ARC-AGI-1 (Verified) पर, जो सामान्य तर्क क्षमता को मापने के लिए डिज़ाइन किया गया एक बेंचमार्क है, GPT‑5.2 पहला मॉडल है जिसने 90% की सीमा को पार किया है, पिछले साल o3‑preview करें द्वारा 87% से सुधार करते हुए, और उस प्रदर्शन को प्राप्त करने की लागत को लगभग 390 गुना कम कर दिया है.

ARC-AGI-2 (Verified) पर, जो कठिनाई को बढ़ाता है और तरल रीज़निंग को बेहतर तरीके से अलग करता है, GPT‑5.2 Thinking ने चेन-ऑफ-थॉट मॉडल्स के लिए नया स्टेट ऑफ़ द आर्ट हासिल किया, 52.9% स्कोर के साथ. GPT‑5.2 Pro और भी बेहतर प्रदर्शन करता है, 54.2% तक पहुँचता है, जिससे मॉडल की नई, अमूर्त समस्याओं के माध्यम से रीज़न करने की क्षमता और भी बढ़ जाती है.

इन मूल्यांकनों में सुधार GPT‑5.2 के प्रदर्शन को दर्शाते हैं. मजबूत बहु-चरणीय तर्क, अधिक मात्रात्मक सटीकता, और जटिल तकनीकी टास्क पर अधिक विश्वसनीय समस्या समाधान.

हमारे शुरुआती परीक्षकों का GPT‑5.2 के बारे में यह कहना है:

&quot;GPT-5.2 हमारे लिए एक संपूर्ण आर्किटेक्चर बदलाव को संभव बनाया. हमने एक नाजुक, मल्टी-एजेंट सिस्टम को 20 से अधिक टूल्स के साथ एक सिंगल मेगा-एजेंट में समेट दिया. सबसे अच्छी बात यह है कि यह बस काम करता है. मेगा-एजेंट तेज़, स्मार्ट और 100 गुना आसान रखरखाव के लिए है. हम नाटकीय रूप से कम लेटेंसी, अधिक मजबूत टूल कॉलिंग देख रहे हैं, और अब हमें विस्तृत सिस्टम प्रॉम्प्ट्स की आवश्यकता नहीं है क्योंकि 5.2 एक साधारण, एक-लाइन प्रॉम्प्ट से साफ-सुथरा निष्पादित होगा. यह शुद्ध जादू जैसा लगता है.
Triple Whale के CEO AJ Orbach

ChatGPT में GPT‑5.2

ChatGPT में, यूज़रों को GPT‑5.2 का उपयोग रोज़ाना बेहतर महसूस होना चाहिए—यह अधिक संरचित, अधिक विश्वसनीय है, और फिर भी बात करने में मज़ेदार है.

GPT‑5.2 Instant रोज़मर्रा के काम और सीखने के लिए एक तेज़, सक्षम साधन है, जिसमें जानकारी खोजने वाले प्रश्नों, हाउ-टू और वॉक-थ्रू, तकनीकी लेखन, और अनुवाद में स्पष्ट सुधार दिखाई देते हैं. यह GPT‑5.1 Instant में पेश किए गए गर्मजोशी भरे बातचीत के टोन पर आधारित है. प्रारंभिक परीक्षकों ने विशेष रूप से यह नोट किया कि मुख्य जानकारी को सामने लाने वाले स्पष्टीकरण अधिक स्पष्ट और सटीक हैं.

GPT‑5.2 Thinking को गहन टास्क के लिए डिज़ाइन किया गया है, जो यूज़र्स को अधिक जटिल टास्क को अधिक परिष्कृत तरीके से निपटाने में मदद करता है—विशेष रूप से कोडिंग, लंबे डॉक्यूमेंट का सारांश बनाने, अपलोड करें की गई फ़ाइलों के बारे में प्रश्नों का उत्तर देने, गणित और तर्क को चरण-दर-चरण समझने, और योजना और निर्णय लेने में स्पष्ट संरचना और अधिक उपयोगी विवरण के साथ समर्थन करने के लिए.

GPT‑5.2 Pro हमारे सबसे स्मार्ट और भरोसेमंद विकल्पों में से एक है, खासकर उन मुश्किल सवालों के लिए जहाँ उच्च-गुणवत्ता वाला जवाब थोड़ा इंतज़ार करने लायक होता है. शुरुआती परीक्षणों में, इसमें बड़ी गलतियों की संख्या कम पाई गई है और प्रोग्रामिंग जैसे जटिल डोमेन में इसका प्रदर्शन और भी मज़बूत है.

सुरक्षा

GPT‑5.2 GPT‑5 के साथ पेश किए गए सेफ़ कंप्लीशन अनुसंधान पर आधारित है, जो मॉडल को सबसे सहायक उत्तर देने के लिए सिखाता है, जबकि सुरक्षा सीमाओं के भीतर रहता है.

इस रिलीज़ के साथ, हमने संवेदनशील बातचीत में हमारे मॉडलों की प्रतिक्रियाओं को मजबूत करने के लिए अपने काम को आगे बढ़ाया, जिसमें आत्महत्या या आत्म-हानि, मानसिक स्वास्थ्य संकट, या मॉडल पर भावनात्मक निर्भरता के संकेत देने वाले प्रॉम्प्ट्स के प्रति उनकी प्रतिक्रिया में महत्वपूर्ण सुधार किए हैं. इन लक्षित हस्तक्षेपों के कारण GPT‑5.2 में अवांछित प्रतिक्रियाओं की संख्या कम हो गई है. Instant और GPT‑5.2 Thinking मॉडल की तुलना GPT‑5.1 और GPT‑5 Instant और Thinking मॉडल. अधिक जानकारी सिस्टम कार्ड में देखी जा सकती है.

हम अपने उम्र अनुमान मॉडल को प्रारंभिक चरण में रोल आउट कर रहे हैं ताकि हम 18 वर्ष से कम उम्र के यूज़रों के लिए स्वचालित रूप से सामग्री सुरक्षा लागू कर सकें, जिससे संवेदनशील सामग्री तक पहुंच सीमित हो सके. यह हमारे 18 वर्ष से कम उम्र के यूज़र्स और हमारे पेरेंटल कंट्रोल के मौजूदा दृष्टिकोण को और विकसित करता है.

GPT‑5.2 चल रहे सुधारों की श्रृंखला में एक कदम है, और हम अभी भी बहुत दूर हैं. हालांकि यह रिलीज़ बुद्धिमत्ता और उत्पादकता में महत्वपूर्ण लाभ प्रदान करती है, हम जानते हैं कि कुछ क्षेत्रों में लोग और अधिक की अपेक्षा रखते हैं. ChatGPT में, हम अत्यधिक इनकार जैसी ज्ञात समस्याओं पर काम कर रहे हैं, जबकि समग्र रूप से सुरक्षा और विश्वसनीयता के स्तर को आगे बढ़ा रहे हैं. ये बदलाव जटिल हैं, और हमारा फ़ोकस उन्हें सही करने पर है.

मानसिक स्वास्थ्य मूल्यांकन


GPT‑5.2 Instant

GPT‑5.1 Instant

GPT‑5.2 Thinking

GPT‑5.1 Thinking

मेंटल हेल्थ

0.995

0.883

0.915

0.684

इमोशनल रिलायंस

0.938

0.945

0.955

0.785

सेल्फ-हार्म

0.938

0.925

0.963

0.937

उपलब्धता और दाम

ChatGPT में, हम आज से GPT‑5.2 (Instant, Thinking, और Pro) को रोल आउट करना शुरू करेंगे, शुरुआत पेड प्लान (Plus, Pro, Go, Business, Enterprise) से होगी. हम GPT‑5.2 को धीरे-धीरे डिप्लॉय कर रहे हैं ताकि ChatGPT को जितना संभव हो सके, सुचारू और विश्वसनीय बनाए रखा जा सके; अगर आपको यह पहले नहीं दिखता है, तो कृपया बाद में फिर से कोशिश करें. ChatGPT में, GPT‑5.1 अभी भी भुगतान करने वाले यूज़र के लिए तीन महीने तक लेगेसी मॉडल के तहत उपलब्ध रहेगा, जिसके बाद हम GPT‑5.1 को बंद कर देंगे.

ChatGPT और API में मॉडल नामकरण

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

हमारे API प्लेटफ़ॉर्म में, GPT‑5.2 थिंकिंग आज से Responses API और चैट एंडपॉइंट API में GPT‑5.2 के रूप में उपलब्ध है, और GPT‑5.2 इंस्टेंट के रूप में GPT‑5.2‑chat‑latest. GPT‑5.2 Pro Responses API में gpt-5.2-pro के रूप में उपलब्ध है. डेवलपर अब GPT‑5.2 में तर्क पैरामीटर सेट कर सकते हैं. Pro, और GPT‑5.2 दोनों. Pro और GPT‑5.2 अब सोचने की प्रक्रिया xhigh के नए पांचवें तर्क प्रयास का सपोर्ट करती है, उन टास्क के लिए जहां गुणवत्ता सबसे महत्वपूर्ण है.

GPT‑5.2 की कीमत $1.75 प्रति 1M इनपुट टोकन और $14 प्रति 1M आउटपुट टोकन है, और कैच किए गए इनपुट पर 90% की छूट मिलती है. कई एजेंटिक मूल्यांकनों पर, हमने पाया कि GPT‑5.2 के बावजूद भी प्रति टोकन अधिक लागत के बावजूद, GPT‑5.2 की बेहतर टोकन दक्षता के कारण एक निर्धारित गुणवत्ता स्तर को प्राप्त करने की लागत कम हो गई.

हालांकि ChatGPT सब्सक्रिप्शन के दाम वही रहते हैं, API में GPT‑5.2 की कीमत प्रति टोकन GPT‑5.1 से अधिक है क्योंकि यह एक अधिक सक्षम मॉडल है. यह अभी भी अन्य फ्रंटियर मॉडल की तुलना में कम कीमत पर है, ताकि लोग इसे अपने रोज़मर्रा के काम और मुख्य ऐप्लिकेशन्स में गहराई से इस्तेमाल करना जारी रख सकें.

प्रति मिलियन टोकन की कीमत

मॉडल

इनपुट

कैश्ड इनपुट

आउटपुट

gpt-5.2 / gpt-5.2-chat-latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

-

$168

gpt-5.1 / gpt-5.1-chat-latest

$1.25

$0.125

$10

gpt-5-pro

$15

-

$120

हमारे पास GPT‑5.1 को डिप्रिकेट करने के कोई मौजूदा प्लॉन नहीं हैं. GPT‑5, या API में GPT‑4.1, और डेवलपरों को किसी भी डिप्रिकेशन प्लॉन के बारे में पहले से पर्याप्त सूचना दी जाएगी. हालांकि GPT‑5.2 Codex में बिना किसी बदलाव के अच्छी तरह से काम करेगा, हम आने वाले हफ्तों में Codex के लिए ऑप्टिमाइज़ किया गया GPT‑5.2 का एक संस्करण जारी करने की उम्मीद करते हैं.

हमारे साझेदार

GPT‑5.2 को हमारे लंबे समय से चले आ रहे साझेदार NVIDIA और Microsoft के साथ मिलकर विकसित किया गया. Azure डेटा सेंटर्स और NVIDIA GPUs, जिनमें H100, H200, और GB200-NVL72 शामिल हैं, OpenAI के बड़े पैमाने पर ट्रेनिंग इंफ्रास्ट्रक्चर का आधार हैं, जो मॉडल इंटेलिजेंस में महत्वपूर्ण सुधार लाते हैं. यह सहयोग हमें आत्मविश्वास के साथ कंप्यूट स्केलिंग करने और नए मॉडल को तेजी से बाजार में लाने की अनुमति देता है.

एपेंडिक्स

डिटेल्ड बेंचमार्क्स

नीचे, हम GPT‑5.2 के लिए व्यापक बेंचमार्क स्कोर प्रस्तुत करते हैं. सोच, GPT‑5.2 के लिए एक सबसेट के साथ प्रो

पेशेवर
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
कोडिंग
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
फ़ैक्च्युएलिटी
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
लंबा कॉन्टेक्स्ट
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
विज़न
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
टूल यूज़
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
शैक्षणिक
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
एब्सट्रैक्ट रीज़निंग
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

हमारे API में मॉडल को अधिकतम उपलब्ध तर्क प्रयास (GPT‑5.2 के लिए xhigh) के साथ चलाया गया. Thinking & Pro, और GPT‑5.1 Thinking के लिए उच्च, पेशेवर मूल्यांकन को छोड़कर, जहाँ GPT‑5.2 सोच को रीज़निंग एफर्ट के साथ भारी चलाया गया, जो ChatGPT Pro में उपलब्ध अधिकतम स्तर है. बेंचमार्क्स एक शोध वातावरण में किए गए थे, जो कुछ मामलों में प्रोडक्शन ChatGPT से थोड़ा अलग परिणाम दे सकते हैं.

* SWE-Lancer के लिए, हम 40/237 समस्याओं को छोड़ते हैं जो हमारे इन्फ्रास्ट्रक्चर पर नहीं चल पाईं.

लेखक

OpenAI