स्किप करके मेन कंटेंट पर जाऍं
OpenAI

पेश हैं GPT‑5.3‑Codex‑Spark

Codex में रियल-टाइम कोडिंग के लिए एक अल्ट्रा-फास्ट मॉडल.

लोड किया जा रहा है...

आज, हम GPT‑5.3‑Codex‑Spark का रिसर्च प्रीव्यू जारी कर रहे हैं — यह GPT‑5.3‑Codex का एक छोटा संस्करण है और हमारा पहला ऐसा मॉडल है जिसे रियल-टाइम कोडिंग के लिए डिज़ाइन किया गया है. Codex-Spark हमारे Cerebras के साथ साझेदारी में पहला माइलस्टोन है, जिसे हमने जनवरी में घोषित किया था. Codex-Spark को ऐसे अल्ट्रा-लो लेटेंसी हार्डवेयर पर लगभग तुरंत प्रतिक्रिया देने के लिए ऑप्टिमाइज़ किया गया है — यह 1000 से अधिक टोकन्स प्रति सेकंड तक डिलीवर करता है, और वास्तविक-दुनिया के कोडिंग कार्यों के लिए अत्यंत सक्षम भी रहता है.

हम Codex-Spark को Cerebras पर ChatGPT Pro यूज़र्स के लिए एक रिसर्च प्रीव्यू के रूप में साझा कर रहे हैं, ताकि डेवलपर्स जल्दी एक्सपेरिमेंट करना शुरू कर सकें, जबकि हम Cerebras के साथ मिलकर डाटासेंटर कैपेसिटी बढ़ाने, एंड-टू-एंड यूज़र एक्सपीरियंस को मजबूत करने और अपने बड़े फ्रंटियर मॉडल्स को डिप्लॉय करने पर काम कर रहे हैं.

हमारे लेटेस्ट फ्रंटियर मॉडल्स ने लंबी अवधि के टास्क करने की अपनी क्षमता में खास मजबूती दिखाई है, जो बिना किसी हस्तक्षेप के घंटों, दिनों या हफ्तों तक स्वायत्त रूप से काम कर सकते हैं. Codex-Spark हमारे पहले ऐसे मॉडल है जिसे विशेष रूप से Codex के साथ रियल-टाइम में काम करने के लिए डिज़ाइन किया गया है — लक्ष्य-निर्दिष्ट संपादन करने, तर्क को नया आकार देने, या इंटरफेस को परिष्कृत करने और तुरंत परिणाम देखने के लिए. Codex-Spark के साथ, Codex अब दोनों तरह के कामों को सपोर्ट करता है — लंबे समय तक चलने वाले, बड़े महत्वाकांक्षी टास्क और उसी समय में तुरंत काम पूरा करना. हम उम्मीद करते हैं कि डेवलपर्स इसे कैसे उपयोग करते हैं, उससे सीखेंगे और जैसे-जैसे हम एक्सेस का विस्तार करते रहेंगे, फीडबैक को शामिल करेंगे.

लॉन्च के समय, Codex-Spark में 128k कॉन्टेक्स्ट विंडो है और यह केवल टेक्स्ट-ओनली है. रिसर्च प्रीव्यू के दौरान, Codex-Spark के लिए उसके अपने अलग रेट लिमिट होंगे और इसका उपयोग मानक रेट लिमिट्स में नहीं गिना जाएगा. हालांकि, जब डिमांड अधिक होती है, तो सभी यूज़र्स के बीच विश्वसनीयता संतुलित रखने के लिए आपको सीमित एक्सेस या अस्थायी क्यूइंग दिखाई दे सकती है.

स्पीड और इंटेलिजेंस

Codex-Spark को इंटरैक्टिव कार्यों के लिए अनुकूलित किया गया है, जहाँ लेटेंसी (प्रतिक्रिया की देरी) उतनी ही महत्वपूर्ण है जितनी बुद्धिमत्ता (इंटेलिजेंस) आप मॉडल के साथ रियल-टाइम में सहयोग कर सकते हैं, उसके काम करते समय उसे रोक या नई दिशा दे सकते हैं, और लगभग तुरंत मिलने वाले जवाबों के साथ तेज़ी से इटरेट कर सकते हैं. क्योंकि Codex-Spark को स्पीड के लिए ट्यून किया गया है, इसका डिफ़ॉल्ट वर्किंग स्टाइल हल्का-फुल्का रहता है: यह केवल न्यूनतम, लक्षित एडिट्स करता है और तब तक स्वचालित रूप से टेस्ट नहीं चलाता जब तक आप इसे विशेष रूप से न कहें.

कोडिंग

Codex-Spark एक अत्यंत सक्षम छोटा मॉडल है जिसे तेज़ इनफेरेंस (fast inference) के लिए ऑप्टिमाइज़ किया गया है. SWE-Bench Pro और Terminal-Bench 2.0 पर — दो ऐसे बेंचमार्क जो एजेंटिक सॉफ़्टवेयर इंजीनियरिंग क्षमता का मूल्यांकन करते हैं — GPT‑5.3‑Codex‑Spark GPT‑5.3‑Codex‑Spark मजबूत प्रदर्शन दिखाता है और GPT‑5.3‑Codex की तुलना में बहुत कम समय में ही टास्क्स को पूरा कर लेता है.

अवधि का अनुमान इन सबके कुल योग के रूप में लगाया जाता है: (1) आउटपुट जनरेशन समय (आउटपुट टोकन्स ÷ सैंपलिंग स्पीड), (2) प्रीफिल समय (प्रीफिल टोकन्स ÷ प्रीफिल स्पीड), (3) टूल एग्ज़ीक्यूशन का कुल समय, और (4) कुल नेटवर्क ओवरहेड.

सभी मॉडल्स के लिए लेटेंसी में सुधार.

जब हमने Codex-Spark को ट्रेन किया, तो यह स्पष्ट हुआ कि मॉडल की स्पीड (गति) केवल रियल-टाइम सहयोग का एक हिस्सा है — हमें पूरे रिक्वेस्ट-रिस्पॉन्स पाइपलाइन में लेटेंसी (प्रतिक्रिया-देरी) को भी कम करना ज़रूरी था ताकि यह लगभग तुरंत प्रतिक्रिया दे सके. हमने अपने हार्नेस में एंड-टू-एंड लेटेंसी सुधार लागू किए हैं, जिनका लाभ सभी मॉडल्स को मिलेगा. अंदरूनी स्तर पर, हमने क्लाइंट से सर्वर और वापस आने वाले रिस्पॉन्स स्ट्रीम को अधिक सुव्यवस्थित बनाया, अपने इंफेरेंस स्टैक के मुख्य हिस्सों को फिर से लिखा, और सेशन्स के इनिशियलाइज़ होने की प्रक्रिया को दोबारा तैयार किया, ताकि पहला दिखाई देने वाला टोकन जल्दी दिखे और जैसे-जैसे आप इटरेट करें, Codex लगातार रिस्पॉन्सिव बना रहे. एक पर्सिस्टेंट WebSocket कनेक्शन की शुरुआत और Responses API के अंदर लक्षित ऑप्टिमाइज़ेशन के माध्यम से, हमने प्रति क्लाइंट/सर्वर राउंडट्रिप ओवरहेड को 80% तक, प्रति-टोकन ओवरहेड को 30% तक, और टाइम-टू-फर्स्ट-टोकन को 50% तक कम किया है. Codex-Spark के लिए WebSocket पथ डिफ़ॉल्ट रूप से सक्षम है और जल्द ही यह सभी मॉडल्स के लिए डिफ़ॉल्ट बन जाएगा.

Cerebras द्वारा संचालित

Codex-Spark Cerebras’ Wafer Scale Engine 3(एक नई विंडो में खुलेगा) पर चलता है—एक खास तौर पर हाई-स्पीड इन्फ़रेंस के लिए बनाया गया AI एक्सेलेरेटर, जो Codex को लेटेंसी-फर्स्ट सर्विंग लेवल प्रदान करता है. हमने Cerebras के साथ पार्टनरशिप करके इस लो-लेटेंसी पाथ को अपने बाकी प्रोडक्शन सर्विंग स्टैक के साथ जोड़ा, ताकि यह Codex में सहज रूप से काम करे और भविष्य के मॉडल्स को सपोर्ट करने के लिए हमें तैयार रखे.

“GPT-5.3-Codex-Spark के बारे में हमें सबसे ज़्यादा जो बात एक्साइट करती है, वो है OpenAI और डेवलपर कम्युनिटी के साथ पार्टनर करना—ताकि हम देख सकें कि फास्ट इन्फ़रेंस क्या-क्या मुमकिन बनाता है: नए इंटरैक्शन पैटर्न, नए यूज़ केस, और एक बिल्कुल अलग मॉडल एक्सपीरियंस. यह प्रीव्यू तो बस शुरुआत है.”
— Sean Lie, Cerebras में CTO और सह-संस्थापक

GPUs हमारे ट्रेनिंग और इंफेरेंस पाइपलाइन के लिए अब भी आधारभूत हैं और व्यापक उपयोग के लिए सबसे किफायती टोकन्स प्रदान करते हैं. Cerebras उस आधार को पूरक बनाता है क्योंकि यह उन वर्कफ़्लोज़ में उत्कृष्टता देता है जहाँ बेहद कम लेटेंसी (प्रतिक्रिया-देरी) की मांग होती है, एंड-टू-एंड लूप को सख्त करके Codex को उतनी ही तेज़ प्रतिक्रिया देने वाला बनाता है, जितना आप इटरेट करते हैं. सर्वोत्तम प्रदर्शन हासिल करने के लिए एक ही वर्कलोड में GPUs और Cerebras को साथ मिलाकर उपयोग किया जा सकता है.

उपलब्धता और विवरण

Codex-Spark आज रिसर्च प्रीव्यू के रूप में ChatGPT Pro यूज़र्स के लिए उपलब्ध हो रहा है, नवीनतम Codex ऐप, CLI और VS Code एक्सटेंशन में. क्योंकि यह विशेष लो-लेटेंसी हार्डवेयर पर चलता है, इसका उपयोग एक अलग रेट लिमिट द्वारा नियंत्रित होता है, जो रिसर्च प्रीव्यू के दौरान डिमांड के आधार पर समायोजित हो सकता है. इसके अलावा, हम Codex-Spark को API में चुनिंदा डिजाइन पार्टनर्स के लिए उपलब्ध करा रहे हैं ताकि यह समझ सकें कि डेवलपर्स इसे अपने प्रॉडक्ट्स में कैसे इंटीग्रेट करना चाहते हैं. आने वाले हफ्तों में हम एक्सेस का विस्तार करेंगे, क्योंकि हम वास्तविक वर्कलोड्स के तहत अपने इंटीग्रेशन को ट्यून करना जारी रखेंगे.

Codex-Spark फिलहाल 128k कॉन्टेक्स्ट विंडो के साथ टेक्स्ट-ओनली है और यह अल्ट्रा-फास्ट मॉडल्स की एक फैमिली का पहला मॉडल है. जैसे-जैसे हम डेवलपर कम्युनिटी के साथ यह सीखते जाएंगे कि कोडिंग में फास्ट मॉडल्स कहाँ बेहतर प्रदर्शन करते हैं, हम और क्षमताएँ पेश करेंगे—जिनमें बड़े मॉडल्स, लंबी कॉन्टेक्स्ट लेंथ, और मल्टीमोडल इनपुट शामिल होंगे.

Codex-Spark में हमारे मुख्यलाइन मॉडल्स जैसी ही सेफ़्टी ट्रेनिंग शामिल है, जिसमें साइबर-संबंधित ट्रेनिंग भी शामिल है. हमने Codex-Spark का मूल्यांकन अपने मानक डिप्लॉयमेंट प्रोसेस के तहत किया, जिसमें साइबर और अन्य क्षमताओं के लिए बेसलाइन मूल्यांकन शामिल हैं, और यह निर्धारित किया कि साइबरसिक्योरिटी या बायोलॉजी में उच्च क्षमता के लिए हमारे Preparedness Framework की सीमा तक पहुँचने की इसकी कोई यथार्थ संभावना नहीं है.

आगे क्या है

Codex-Spark, Codex को दो पूरक मोड्स की ओर ले जाने का पहला कदम है: लंबी अवधि वाला रीज़निंग और एग्ज़ीक्यूशन, और तेज़ इटरेशन के लिए रियल-टाइम कोलैबोरेशन. समय के साथ, ये मोड्स एक-दूसरे में मिल जाएंगे—Codex आपको एक टाइट इंटरैक्टिव लूप में रख सकता है, जबकि लंबी अवधि का काम बैकग्राउंड में सब-एजेंट्स को सौंप सकता है, या जब आपको विस्तार और स्पीड चाहिए तो कई मॉडल्स में समानांतर रूप से टास्क्स बाँट सकता है, ताकि आपको शुरुआत में ही एक ही मोड चुनना न पड़े.

जैसे-जैसे मॉडल्स अधिक सक्षम होते हैं, इंटरैक्शन स्पीड एक स्पष्ट बॉटलनेक बन जाती है. अल्ट्रा-फास्ट इन्फ़रेंस उस लूप को और टाइट करता है, जिससे Codex का उपयोग अधिक स्वाभाविक लगता है और किसी भी व्यक्ति के लिए किसी आइडिया को वर्किंग सॉफ्टवेयर में बदलना और भी संभव हो जाता है.

लेखक

OpenAI