GPT‑5.1‑Codex‑Max को हम पेश कर रहे हैं,हमारा नया फ्रंटियर एजेंटिक कोडिंग मॉडल, जो आज Codex में उपलब्ध है. GPT‑5.1‑Codex‑Max हमारे फ़ाउंडेशनल रीज़निंग मॉडल के एक अपडेट पर बना है, जिसे सॉफ़्टवेयर इंजीनियरिंग, मैथ, रिसर्च और कई तरह के एजेंटिक टास्क्स पर ट्रेन किया गया है.GPT‑5.1‑Codex‑Max डेवलपमेंट सायकल के हर स्टेज पर तेज़, ज़्यादा स्मार्ट, और ज़्यादा टोकन-इफिशिएंट है—और एक भरोसेमंद कोडिंग पार्टनर बनने की दिशा में नया कदम है.
GPT‑5.1‑Codex‑Max लंबी चलने वाली, डीटेल्ड वर्क के लिए बनाया गया है.यह हमारा पहला मॉडल है जिसे compaction नाम की प्रोसेस के ज़रिए नैटिवली मल्टीपल कॉन्टेक्स्ट विंडोज़ में काम करने के लिए ट्रेन किया गया है, ताकि यह एक ही टास्क में लाखों टोकन्स पर लगातार और कोहेरेंटली काम कर सके.यह प्रोजेक्ट-स्केल रीफ़ैक्टर्स, डीप डीबगिंग सेशन्स, और कई घंटों तक चलने वाले एजेंट लूप्स को मुमकिन बनाता है.
GPT‑5.1‑Codex‑Max आज Codex में CLI, IDE एक्सटेंशन, क्लाउड, और कोड रिव्यू में इस्तेमाल के लिए उपलब्ध है, और API एक्सेस जल्द ही आने वाला है.
GPT‑5.1‑Codex‑Max को रियल-वर्ल्ड सॉफ़्टवेयर इंजीनियरिंग टास्क्स—जैसे PR क्रिएशन, कोड रिव्यू, फ़्रंटएंड कोडिंग, और Q&A—पर ट्रेन किया गया है और यह कई फ्रंटियर कोडिंग इवैल्यूएशन्स में हमारे पहले के मॉडेल्स से बेहतर प्रदर्शन करता है.बेंचमार्क्स पर मॉडल की प्रगति के साथ-साथ रियल-वर्ल्ड यूज़ में भी सुधार आया है: GPT‑5.1‑Codex‑Max हमारा पहला मॉडल है जिसे Windows एन्वायरनमेंट्स में काम करने के लिए ट्रेन किया गया है, और अब इसके ट्रेनिंग सेट में ऐसे टास्क्स भी शामिल हैं जो इसे Codex CLI में एक और बेहतर कोलैबोरेटर बनाते हैं.
* सभी इवैल्स कम्पैक्शन ऑन करके और एक्सट्रा हाई रीज़निंग एफर्ट पर चलाए गए थे
* Terminal-Bench2.0 को Codex CLI के साथ Laude Institute Harbor harness(एक नई विंडो में खुलेगा) में चलाया गया था.
ज़्यादा प्रभावी रीज़निंग की वजह से GPT‑5.1‑Codex‑Max में टोकन इफिशिएंसी में काफ़ी सुधार देखने को मिलता है.SWE-bench Verified पर, ‘मीडियम’ रीज़निंग एफर्ट के साथ GPT‑5.1‑Codex‑Max का प्रदर्शन GPT‑5.1‑Codex से बेहतर हैउसी रीज़निंग एफर्ट के साथ, लेकिन तीस प्रतिशत कम थिंकिंग टोकन्स का इस्तेमाल करते हुए.नॉन-लेटेंसी-सेंसिटिव टास्क्स के लिए, हम नया एक्सट्रा हाई (‘xhigh’) रीज़निंग एफर्ट भी पेश कर रहे हैं, जो और ज़्यादा देर तक थिंक करके और बेहतर जवाब देता है.ज़्यादातर टास्क्स के लिए हम अब भी मीडियम को ही डेली ड्राइवर के तौर पर रिकमेंड करते हैं.
हम उम्मीद करते हैं कि टोकन इफिशिएंसी में हुए ये सुधार डेवलपर्स के लिए रियल-वर्ल्ड सेविंग्स में बदलेंगे.
GPT‑5.1‑Codex‑Max इसी तरह की फ़ंक्शनैलिटी और एस्थेटिक्स वाले हाई-क्वालिटी फ़्रंटएंड डिज़ाइन्स बना सकता है, लेकिन GPT‑5.1‑Codex की तुलना में काफ़ी कम कॉस्ट पर.
Prompt: एक सिंगल सेल्फ-कन्टेन्ड ब्राउज़र ऐप जनरेट करें जो इंटरैक्टिव CartPole RL सैंडबॉक्स रेंडर करे—कैनवस ग्राफ़िक्स, एक छोटा पॉलिसी-ग्रेडिएंट कंट्रोलर, मेट्रिक्स, और एक SVG नेटवर्क विज़ुअलाइज़र के साथ..
फ़ीचर्स
मॉडल को CartPole में बेहतर बनाने के लिए पॉलिसी को सच में ट्रेन करने में सक्षम होना चाहिएमॉडल के ट्रेनिंग या इन्फ़रेंस के दौरान उसकी एक्टिवेशन्स/वेट्स का विज़ुअलाइज़रएपिसोड में स्टेप्स, इस एपिसोड के रिवार्ड्सआखिरी सर्वाइवल टाइम और बेस्ट सर्वाइवल टाइम (स्टेप्स में)
index.html में सेव करें
कम्पैक्शन GPT‑5.1‑Codex‑Max को ऐसे टास्क्स पूरा करने में सक्षम बनाता है जो पहले कॉन्टेक्स्ट-विंडो लिमिट्स की वजह से फ़ेल हो जाते थे—जैसे कॉम्प्लेक्स रीफ़ैक्टर्स और लॉन्ग-रनिंग एजेंट लूप्स—क्योंकि यह अपनी हिस्ट्री को प्रून करते हुए लंबे समय तक सबसे ज़रूरी कॉन्टेक्स्ट को सुरक्षित रखता है.Codex एप्लिकेशन्स में, GPT‑5.1‑Codex‑Maxजब सेशन कॉन्टेक्स्ट-विंडो लिमिट के क़रीब पहुँचता है, तो यह ऑटोमैटिकली सेशन को कम्पैक्ट करके उसे एक फ़्रेश कॉन्टेक्स्ट विंडो दे देता है.यह इस प्रोसेस को तब तक दोहराता है जब तक टास्क पूरा नहीं हो जाता.
लंबे समय तक लगातार और कोहेरेंट काम बनाए रखने की क्षमता, ज़्यादा जनरल और भरोसेमंद AI सिस्टम्स की दिशा में एक बुनियादी क्षमता है.GPT‑5.1‑Codex‑Max एक बार में कई घंटों तक ख़ुद से काम कर सकता है.हमारे इंटरनल इवैल्यूएशन्स में, हमने देखा है कि GPT‑5.1‑Codex‑Max24 घंटे से ज़्यादा समय तक टास्क्स पर काम करते हुए.यह लगातार अपनी इम्प्लीमेंटेशन पर काम करता रहता है, टेस्ट फ़ेलियर्स को ठीक करता है, और आख़िर में एक सफल रिज़ल्ट देता है.
इस उदाहरण में, GPT‑5.1‑Codex‑Max Codex CLI ओपन-सोर्स रिपॉज़िटरी को अपने आप रीफ़ैक्टर कर रहा है.
जैसे ही सेशन की लंबाई मॉडल की कॉन्टेक्स्ट-विंडो के क़रीब पहुँचती है, यह ऑटोमैटिकली सेशन को कम्पैक्ट कर देता है ताकि स्पेस फ़्री हो जाए और टास्क बिना किसी प्रोग्रेस खोए जारी रह सके.
क्लैरिटी के लिए वीडियो को ट्रिम किया गया है और स्पीड-अप किया गया है.
GPT‑5.1‑Codex‑Max उन इवैल्यूएशन्स में काफ़ी बेहतर प्रदर्शन करता है जहाँ लगातार, लॉन्ग-होराइज़न रीज़निंग की ज़रूरत होती है.कम्पैक्शन की मदद से मल्टीपल कॉन्टेक्स्ट विंडोज़ में लगातार और कोहेरेंटली काम कर पाने के कारण, यह मॉडल लॉन्ग-होराइज़न कोडिंग और साइबरसिक्योरिटी जैसी चुनौतियों पर और बेहतर रिज़ल्ट देता है.हमने GPT‑5.1‑Codex‑Max में इस मॉडल के फ़र्स्ट- और थर्ड-पार्टी इवैल्यूएशन्स पर किए गए परफ़ॉर्मेंस के नतीजों का विश्लेषण किया.सिस्टम कार्ड.
GPT‑5.1‑Codex‑Max हमारी Preparedness Framework के तहत साइबरसिक्योरिटी में हाई-लेवल क्षमता तक नहीं पहुँचता, लेकिन यह अब तक डिप्लॉय किया गया हमारा सबसे सक्षम साइबरसिक्योरिटी मॉडल है—और एजेंटिक साइबरसिक्योरिटी क्षमताएँ तेज़ी से विकसित हो रही हैं.इसी वजह से, हम साइबरसिक्योरिटी में हाई-लेवल क्षमताओं के लिए तैयारी कर रहे हैं, साइबर डोमेन में अपने सेफ़गार्ड्स को मज़बूत बना रहे हैं, और यह सुनिश्चित करने पर काम कर रहे हैं कि डिफ़ेंडर्स Aardvark जैसे प्रोग्राम्स के ज़रिए इन बेहतर क्षमताओं का लाभ उठा सकें.
GPT‑5‑Codex लॉन्च करते समय, हमने मालिशियस एक्टिविटी का पता लगाने और उसे रोकने के लिए डेडिकेटेड साइबरसिक्योरिटी-स्पेसिफ़िक मॉनिटरिंग लागू की थी.हालाँकि हमें स्केल्ड अब्यूज़ में कोई बड़ा बढ़ाव नहीं दिखा है, लेकिन हम एडवांस्ड क्षमताओं के लिए अतिरिक्त मिटिगेशन्स तैयार कर रहे हैं.हमारी टीमों ने पहले ही हमारे मॉडेल्स का दुरुपयोग करने की कोशिश कर रहे साइबर ऑपरेशन्स को बाधित किया है, और संदिग्ध एक्टिविटी को हमारी पॉलिसी मॉनिटरिंग सिस्टम्स के ज़रिए रिव्यू के लिए भेजा जाता है.
Codex को डिफ़ॉल्ट रूप से एक सिक्योर सैंडबॉक्स में चलने के लिए डिज़ाइन किया गया है: फ़ाइल राइट्स सिर्फ़ उसके वर्कस्पेस तक सीमित होते हैं, और नेटवर्क एक्सेस तब तक डिसेबल रहता है जब तक कोई डेवलपर उसे ऑन न करे.हम यही सलाह देते हैं कि Codex को इसी रिस्ट्रिक्टेड-ऐक्सेस मोड में रखें, क्योंकि इंटरनेट या वेब सर्च ऑन करने से अनट्रस्टेड कंटेंट के ज़रिए prompt-injection जैसे रिस्क आ सकते हैं.
Codex जैसे-जैसे लॉन्ग-रनिंग टास्क्स में ज़्यादा सक्षम होता जा रहा है, डेवलपर्स के लिए बदलाव करने या प्रोडक्शन में डिप्लॉय करने से पहले एजेंट के काम को रिव्यू करना और भी ज़्यादा ज़रूरी हो जाता है.इसे आसान बनाने के लिए, Codex टर्मिनल लॉग्स जनरेट करता है और अपने टूल कॉल्स और टेस्ट रिज़ल्ट्स को साफ़-साफ़ दिखाता है.इसके कोड रिव्यू मॉडल या इंसानों द्वारा बने बग्स को प्रोडक्शन में डिप्लॉय होने के जोखिम को कम करते हैं, लेकिन Codex को एक अतिरिक्त रिव्यूअर की तरह ही ट्रीट करना चाहिए—यह ह्यूमन रिव्यूज़ का रिप्लेसमेंट नहीं है.
साइबरसिक्योरिटी क्षमताएँ डिफ़ेंस और ऑफ़ेंस—दोनों में इस्तेमाल हो सकती हैं, इसलिए हम एक इटरेटिव डिप्लॉयमेंट अप्रोच अपनाते हैं: रियल-वर्ल्ड यूज़ से सीखते हैं, सेफ़गार्ड्स अपडेट करते हैं, और ऑटोमेटेड वल्नरेबिलिटी स्कैनिंग और रेमेडिएशन असिस्टेंस जैसे अहम डिफ़ेंसिव टूल्स को सुरक्षित रखते हैं.
GPT‑5.1‑Codex‑Max Codex में ChatGPT Plus, Pro, Business, Edu, और Enterprise प्लान के साथ उपलब्ध है.आपकी प्लॉन के लिए उपयोग सीमाएँ कैसे काम करती हैं, इसके विवरण के लिए, कृपया हमारे डॉक्स(एक नई विंडो में खुलेगा) देखें.
API Key के माध्यम से Codex CLI का उपयोग करने वाले डेवलपर के लिए, हम GPT‑5.1‑Codex‑Max बनाने की प्लॉन बना रहे हैं API में जल्द ही उपलब्ध होगा.
आज से, Codex सरफ़ेसेज़ में GPT‑5.1‑Codex‑Max GPT‑5.1‑Codex की जगह डिफ़ॉल्ट मॉडल होगा.GPT‑5.1 के विपरीत, जो एक जनरल-पर्पज़ मॉडल है, हम GPT‑5.1‑Codex‑Max इस्तेमाल करने की सलाह देते हैं.Codex और Codex-जैसे एन्वायरनमेंट्स में सिर्फ़ एजेंटिक कोडिंग टास्क्स के लिए ही Codex मॉडल फ़ैमिली का इस्तेमाल करने की सलाह दी जाती है.
GPT‑5.1‑Codex‑Max यह दिखाता है कि मॉडल्स लॉन्ग-होराइज़न कोडिंग टास्क्स संभालने, कॉम्प्लेक्स वर्कफ़्लोज़ मैनेज करने, और बहुत कम टोकन्स में हाई-क्वालिटी इम्प्लीमेंटेशन्स बनाने में कितनी दूर तक आ चुके हैं.हमने देखा है कि मॉडल को हमारे CLI, IDE एक्सटेंशन, क्लाउड इंटीग्रेशन, और कोड रिव्यू टूलिंग के लगातार अपग्रेड्स के साथ मिलाकर इंजीनियरिंग प्रोडक्टिविटी तेज़ी से बढ़ी है: अंदरूनी तौर पर, OpenAI के 95% इंजीनियर्स हर हफ़्ते Codex का इस्तेमाल करते हैं, और Codex अपनाने के बाद ये इंजीनियर्स लगभग सत्तर प्रतिशत ज़्यादा पुल रिक्वेस्ट्स शिप करते हैं.जैसे-जैसे हम एजेंट्स की क्षमताओं की सीमाएँ आगे बढ़ा रहे हैं, हम उत्साहित हैं यह देखने के लिए कि आप इनके साथ क्या बनाएँगे.
GPT‑5.1‑Codex (हाई) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73.7% | 77.9% |
SWE-Lancer IC SWE | 66.3% | 79.9% |
Terminal-Bench 2.0 | 52.8% | 58.1% |


