29 अक्टूबर 2025

पेश है gpt-oss-safeguard

नए ओपन सेफ़्टी रीज़निंग मॉडल्स (120b और 20b) जो कस्टम सेफ़्टी पॉलिसियों को सपोर्ट करते हैं.

लोड किया जा रहा है...

आज, हम gpt-oss-safeguard का एक रिसर्च प्रीव्यू रिलीज़ कर रहे हैं, जो सेफ़्टी क्लासिफ़िकेशन टास्क के लिए हमारे ओपन-वेट रीजनिंग मॉडल्स हैं, जो दो साइज़ में उपलब्ध हैं: gpt-oss-safeguard-120b और gpt-oss-safeguard-20b. ये मॉडल्स हमारे gpt-oss⁠ ओपन मॉडल के फ़ाइन-ट्यून किए गए वर्ज़न हैं और उसी अनुमति देने वाले Apache 2.0 लाइसेंस के तहत उपलब्ध हैं, जिससे कोई भी इन्हें आसानी से इस्तेमाल, बदल और डिप्लॉय कर सकता है. आज दोनों मॉडल्स हगिंग फ़ेस⁠(एक नई विंडो में खुलेगा) से डाउनलोड किए जा सकते हैं.

gpt-oss-safeguard मॉडल डेवलपर द्वारा दी गई पॉलिसी को डायरेक्ट समझाने के लिए रीज़निंग का इस्तेमाल करते हैं—डेवलपर की ज़रूरतों के हिसाब से यूज़र मेसेजेज़, जवाबों, और पूरी चैट्स को क्लासिफ़ाई करते हैं. हमेशा डेवलपर ये फ़ैसला लेता है कि किस पॉलिसी का इस्तेमाल करना है, इसलिए जवाब ज़्यादा सही होते हैं और डेवलपर के यूज़ केस के अनुरूप होते हैं. मॉडल चेन-ऑफ़-थॉट का इस्तेमाल करता है, जिसे रिव्यु करके डेवलपर ये समझ सकता है कि मॉडल अपने फ़ैसलों पर कैसे पहुंच रहा है. इसके अलावा, पॉलिसी को मॉडल में ट्रेन करने के बजाय, अनुमान के दौरान उपलब्ध कराई जाती है, इसलिए डेवलपर्स के लिए परफ़ॉर्मेंस बढ़ाने के लिए पॉलिसियों में बार-बार बदलाव करके सुधार करना आसान हो जाता है. ये अप्रोच, जिसे हमने शुरू में इंटर्नल इस्तेमाल के लिए डेवलप किया था, एक क्लासिफ़ायर को ट्रेन करने के पारंपरिक तरीके के मुकाबले काफ़ी ज़्यादा फ़्लेक्सिबल है, ताकि बड़ी संख्या में लेबल किए गए उदाहरणों से इनडायरेक्ट तरीके से फ़ैसले की सीमा का अनुमान लगाया जा सके.

gpt-oss-safeguard डेवलपर्स को ऐसी पॉलिसी लाइन्स बनाने में सक्षम बनाता है जो उनके यूज़ केस में सबसे सही हों. जैसे कि, एक वीडियो गेमिंग पर चर्चा का फ़ोरम, गेम में धोखाधड़ी पर चर्चा करने वाली पोस्ट्स को क्लासिफ़ाई करने के लिए एक पॉलिसी डेवलप करना चाह सकता है, या एक प्रोडक्ट रिव्यु साइट, उन रिव्युज़ की जांच करने के लिए अपनी खुद की पॉलिसी का इस्तेमाल करना चाह सकती है, जो नकली लगते हों.

मॉडल एक साथ दो इनपुट्स लेता है—एक पॉलिसी और उस पॉलिसी के तहत क्लासिफ़ाई करने के लिए कंटेंट—और इस पर नतीजा निकालता है कि कंटेंट किस क्लासिफ़िकेशन में आता है, उसकी रीज़निंग के साथ. डेवलपर्स ये फ़ैसले लेते हैं कि उन नतीजों का इस्तेमाल, अगर किया जाता हो, अपनी सेफ़्टी पाइपलाइन्स में कैसे करना है. हमने देखा है कि ये रीज़निंग-बेस्ड अप्रोच ख़ास तौर से उन स्थितियों में अच्छा परफ़ॉर्म करता है जहां:

संभावित नुकसान उभर रहा है या विकसित हो रहा है, और पॉलिसियों को जल्दी से एडैप्ट करने की ज़रुरत है.
ये डोमेन बहुत ज़्यादा बारीक है और छोटे क्लासिफ़ायर्स के लिए इसे हैंडल कर पाना मुश्किल है.
डेवलपर्स के पास अपने प्लेटफ़ॉर्म पर हरेक जोखिम के लिए हाई-क्वालिटी वाले क्लासिफ़ायर को ट्रेन करने के लिए काफ़ी नमूने नहीं हैं.
हाई क्वालिटी वाले, समझाने लायक लेबल तैयार करने के मुकाबले लेटेंसी कम ज़रूरी है.

हम रिसर्च और सेफ़्टी कम्युनिटी से फ़ीडबैक पाने और मॉडल के परफ़ॉर्मेंस पर आगे बार-बार सुधार करने के लिए gpt-oss-safeguard का ये प्रीव्यू रिलीज़ कर रहे हैं. कई महीनों तक, हमने डेवलपर की अहम ज़रूरतों को पहचानने, मॉडल को टेस्ट करने और डेवलपर डॉक्यूमेंटेशन तैयार करने के लिए ROOST⁠(एक नई विंडो में खुलेगा) के साथ इस ओपन वेट रिलीज़ पर काम किया. इस लॉन्च के एक हिस्से के तौर पर ROOST एक मॉडल कम्युनिटी⁠(एक नई विंडो में खुलेगा) की स्थापना करेगा, जिसे आज ही लॉन्च भी किया जाएगा, ताकि ऑनलाइन स्पेसेस की सुरक्षा के लिए ओपन AI मॉडल्स को एक्सप्लोर किया जा सके. इस रिलीज़ के साथ, हम एक छोटी-सी टेक्निकल रिपोर्ट⁠ पब्लिश कर रहे हैं जो इस प्रीव्यू मॉडल के सेफ़्टी परफ़ॉर्मेंस की जानकारी देती है.

सिस्टम-लेवल सेफ़्टी: सेफ़्टी क्लासिफ़ायर्स का रोल

जब सुरक्षा की बात आती है, तो हम गहन रक्षा⁠ में भरोसा करते हैं. हम अपने मॉडल्स को सुरक्षित तरीके से जवाब देने के लिए ट्रेन करते हैं, और अपनी पॉलिसियों के तहत संभावित तरीके से असुरक्षित इनपुट और आउटपुट डिटेक्ट करके उनका समाधान करने के लिए सुरक्षा के अतिरिक्त लेयर्स लागू करते हैं. सेफ़्टी क्लासिफ़ायर्स, जो किसी ख़ास रिस्क एरिया में सुरक्षित और असुरक्षित कंटेंट में अंतर करते हैं, लंबे समय से हमारे अपने और दूसरे बड़े लैंग्वेज मॉडल्स के लिए एक प्राइमरी डिफ़ेंस लेयर रहे हैं.

पारंपरिक सेफ़्टी क्लासिफ़ायर्स, जैसे कि हमारे मॉडरेशन API⁠(एक नई विंडो में खुलेगा) के ज़रिये उपलब्ध, प्री-डिफ़ाइन की गई सुरक्षा पॉलिसियों के तहत, सुरक्षित और असुरक्षित कंटेंट के हज़ारों उदाहरणों को मैन्युअल तरीके से क्यूरेट करके डेवलप किए जाते हैं. इस ट्रेनिंग डेटा से, क्लासिफ़ायर सुरक्षित और असुरक्षित आउटपुट में अंतर करना सीखता है. इस अब तक चली आ रही अप्रोच में, क्लासिफ़ायर वाकई में सेफ़्टी पॉलिसी को कभी नहीं देखता है. इसके बजाय, ये असुरक्षित के तौर पर लेबल किए गए कंटेंट में समानताएं व असुरक्षित और सुरक्षित कंटेंट के बीच अंतर ढूंढकर एग्ज़ाम्प्ल्स को लेबल करने के लिए इस्तेमाल की गई बुनियादी पॉलिसी का अनुमान लगाने की कोशिश करता है.

पारंपरिक क्लासिफ़ायर्स का परफ़ॉर्मेंस बढ़िया होता है, व लेटेंसी और ऑपरेटिंग कॉस्ट कम होते हैं. लेकिन पर्याप्त क्वांटिटी में ट्रेनिंग के एग्ज़ाम्प्ल्स जुटाने में ज़्यादा समय और खर्च लग सकता है, और पॉलिसी को अपडेट करने या बदलने के लिए क्लासिफ़ायर को दोबारा ट्रेन करने की ज़रुरत पड़ती है.

gpt-oss-safeguard अलग है क्योंकि इसकी रीज़निंग कैपेबिलिटीज़ डेवलपर्स को किसी भी पॉलिसी को लागू करने में मदद करती है, जिसमें वे पॉलिसियां भी शामिल हैं जिन्हें वे खुद लिखते हैं या दूसरे सोर्सेस से लेते हैं, और रीज़निंग मॉडल्स को नई लिखी गई पॉलिसियों पर जेनरलाइज़ करने में मदद करता है. सेफ़्टी पॉलिसियों के अलावा, gpt-oss-safeguard का इस्तेमाल दूसरे तरीकों से कंटेंट को लेबल करने के लिए किया जा सकता है जो ख़ास प्रोडक्ट्स और प्लैटफ़ॉर्म्स के लिए ज़रूरी हैं.

फ़्लो डायग्राम का टाइटल है 'gpt-oss-safeguard के साथ पॉलिसी-बेस्ड रीज़निंग.' डेवलपर द्वारा दी गई पॉलिसियां और यूज़र द्वारा दिया गया कंटेंट GPT-OSS-Safeguard में फ़ीड होते हैं. ये मॉडल चेन-ऑफ़-थॉट और फ़िर एक पॉलिसी का फ़ैसला तैयार करता है, जिसमें पॉलिसियों को बेहतर करने के लिए 'पॉलिसी इटरेशन' नाम का एक लूप होता है. एक लीजेंड डेवलपर इनपुट, यूज़र इनपुट, और मॉडल आउटपुट दिखाता है.

हम इंटर्नल तरीके से सेफ़्टी रीज़निंग का इस्तेमाल कैसे करते हैं

हमारे प्राइमरी रीज़निंग मॉडल्स अब हमारी सेफ़्टी पॉलिसियों को सीधे तौर पर सीखते हैं, और अपनी रीज़निंग की कैपेबिलिटीज़ का इस्तेमाल करके ये तय करते हैं कि क्या सुरक्षित है. ये अप्रोच, जिसे हम सोचा-समझा अलाइनमेंट⁠ कहते हैं, पहले के सेफ़्टी ट्रेनिंग के तरीकों में ज़रूरी तौर पर सुधार करता है और हमारे रीज़निंग मॉडल्स को उनके नॉन-रीज़निंग वर्ज़न्स के मुकाबले कई अक्षों पर ज़्यादा सुरक्षित बनाता है, भले ही उनकी कैपेबिलिटीज़ बढ़ जाती हैं. लेकिन रीज़निंग सिर्फ़ मॉडल्स को ट्रेन करने के लिए ही मददगार नहीं है. इससे गहन रक्षा के लिए नई संभावनाएं भी पैदा होती हैं. रीज़निंग-बेस्ड अप्रोच ज़्यादा फ़्लेक्सिबल होती हैं और अपनी पिछली ट्रेनिंग की जानकारी से कम सीमित होती हैं, ये ऐसे फ़ायदे हैं जो कई बार इनके अतिरिक्त कंप्यूट खर्च और लेटेंसी को भी सही ठहराते हैं.

gpt-oss-safeguard एक ऐसी अप्रोच का ओपन-वेट इम्प्लीमेंटेशन है जिसे हमने Safety Reasoner नाम के एक टूल में इंटर्नल तरीके से डेवलप किया है. हमने पॉलिसी लेबलिंग टास्क पर रीइन्फ़ोर्समेंट को फ़ाइन-ट्यून करने के साथ शुरुआत की, और ह्यूमन एक्सपर्ट्स के सही फ़ैसलों की नकल करने पर मॉडल को पुरकार दिया गया. इससे मॉडल ने ये रीज़न करना सीखा कि पॉलिसी कैसे फ़ैसले तक पहुंचती है. आज, Safety Reasoner हमें प्रोडक्शन में अपनी सेफ़्टी पॉलिसियों को डायनामिक तरीके से अपडेट करने में मदद करता है, वो भी उससे कम समय में, जितना कि किसी क्लासिफ़ायर को दोबारा ट्रेन करने में लगता है. ये Safety Reasoner को बार-बार सुधार करने वाले डिप्लॉयमेंट⁠ के लिए एक अहम टूल बनाता है: जब हम प्रोडक्शन के लिए नए मॉडल डिप्लॉय करते हैं, तो हम अक्सर ज़्यादा सख्त पॉलिसियों के साथ शुरू करते हैं और जहां ज़रूरी हो, Safety Reasoner को उन पॉलिसियों को ध्यान से लागू करने में मदद करने के लिए ज़्यादा बड़ी मात्रा में कंप्यूट का इस्तेमाल करते हैं. फ़िर जैसे-जैसे प्रोडक्शन में जोखिमों के बारे में हमारी समझ बेहतर होती जाती है, हम अपनी पॉलिसियों को एडजस्ट करते जाते हैं. हमारे कुछ हालिया लॉन्च में, सेफ़्टी रीज़निंग के लिए समर्पित कुल कंप्यूट का फ़्रैक्शन 16% तक रहा है.

Safety Reasoner हमारे सेफ़्टी स्टैक का एक अहम कॉम्पोनेन्ट बन गया है. इमेज क्रिएशन और Sora 2 के लिए, ये रियल टाइम में असुरक्षित जेनरेशन्स को पहचानने और उन्हें ब्लॉक करने के लिए आउटपुट का डायनामिक, स्टेप-दर-स्टेप इवैल्यूएशन्स करता है. बायोलॉजी और सेल्फ़-हार्म जैसे डोमेन्स में, हम मॉडरेशन API में इस्तेमाल किए गए मॉडल्स को छोटे, तेज़ और हाई-रीकॉल क्लासिफ़ायर्स के तौर पर रन करते हैं, ताकि ये तय किया जा सके कि कौन-सा कंटेंट दिलचस्पी के डोमेन में है, और फ़िर उस कंटेंट को रिव्यु करने के लिए Safety Reasoner का इस्तेमाल करते हैं. Safety Reasoner एक डिटेल में टैक्सॉनोमी के आधार पर मॉडल आउटपुट को क्लासिफ़ाई करता है, ताकि ये तय किया जा सके कि सबसे बढ़िया जवाब कैसे दिए जाएं, जो GPT‑5 और ChatGPT एजेंट जैसे सिस्टम्स में हमारे मल्टी-लेयर्ड सुरक्षा उपायों का हिस्सा है. और अब, gpt-oss-safeguard मॉडल्स इसी अप्रोच को किसी के लिए भी उपलब्ध कराता है.

gpt-oss-safeguard कैसे काम करता है

हमने इंटर्नल और बाहरी दोनों इवैल्यूएशन सेट्स पर gpt-oss-safeguard मॉडल्स को इवैल्यूएट किया.

इंटर्नल इवैल्यूएशन में, हमने अनुमान के समय gpt-oss-safeguard को एक साथ कई पॉलिसियां दीं. हरेक टेस्ट इनपुट के लिए, हम इवैल्यूएट करते हैं कि क्या gpt-oss-safeguard सभी शामिल की गईं पॉलिसियों के तहत टेक्स्ट को सही तरीके से क्लासिफ़ाई करता है. ये एक चुनौती से भरा टास्क है—मॉडल को तभी सटीक माना जाता है जब वो शामिल की गईं सारी पॉलिसियों के लिए सेट किए गए गोल्डन लेबल्स से पूरी तरह मैच करता हो.

हमारे gpt-oss-safeguard मॉडल्स और इंटर्नल Safety Reasoner, मल्टी-पॉलिसी एक्यूरेसी पर gpt-5-thinking और gpt-oss ओपन मॉडल्स से बेहतर परफ़ॉर्म करते हैं. gpt-oss-safeguard मॉडल्स का gpt-5-thinking से बेहतर परफ़ॉर्म करना ख़ास तौर से हैरान कर देता है, क्योंकि पहले वाले मॉडल की साइज़ छोटी है.

हमने इन मॉडल्स को मॉडरेशन डेटासेट⁠(एक नई विंडो में खुलेगा) पर इवैल्यूएट किया, जिसे हमने अपने 2022 रिसर्च पेपर के साथ रिलीज़ किया था, और ToxicChat⁠(एक नई विंडो में खुलेगा) पर भी, जो एक ओपन-सोर्स चैटबॉट के लिए यूज़र के सवालों पर आधारित एक पब्लिक बेंचमार्क है.

2022 मॉडरेशन इवैल्यूएशन सेट पर, हमने अपनी इंटर्नल सेफ़्टी पॉलिसियों (बाद के बदलावों के लिए एक पॉलिसी को एडैप्ट करते हुए) का इस्तेमाल करके इवैल्यूएशन किया. gpt-oss-safeguard ने हमारे इंटर्नल Safety Reasoner और gpt-5-thinking के साथ-साथ दूसरे सभी टेस्ट किए गए मॉडल्स से थोड़ा बेहतर परफ़ॉर्म किया, हालांकि Safety Reasoner और gpt-oss-safeguard के बीच ये अंतर सैटेटिस्टिक तौर पर ज़रूरी नहीं है.

ToxicChat के लिए, हमने अपनी कुछ इंटर्नल पॉलिसियों से एडैप्ट किए गए एक छोटे-से हाथ से लिखे हुए प्रॉम्प्ट का इस्तेमाल करके इवैल्यूएट किया. हमारे इंटर्नल Safety Reasoner ने फ़िर से gpt-5-thinking से बेहतर परफ़ॉर्म किया, जबकि gpt-5-thinking और Safety Reasoner दोनों ने gpt-oss-safeguard-120b और gpt-oss-safeguard-20b से मामूली तौर पर बेहतर परफ़ॉर्म किया. हम उम्मीद करते हैं कि gpt-oss-safeguard की ज़्यादा छोटी साइज़ अभी भी इसे इस तरह के टास्क के लिए बेहतर बनाता है.

सीमाएं

gpt-oss-safeguard की दो खास सीमाएं हैं. सबसे पहले, हमने देखा है कि हज़ारों हाई क्वालिटी लेबल वाले सैंपल्स पर ट्रेन किए गए क्लासिफ़ायर्स, सीधे पॉलिसी से रीज़निंग करते समय gpt-oss-safeguard के मुकाबले कंटेंटरी को क्लासिफ़ाई करने में बेहतर परफ़ॉर्म कर सकते हैं. ज़्यादा कॉम्प्लेक्स रिस्क पर बेहतर परफ़ॉर्मेंस के लिए एक समर्पित क्लासिफ़ायर को ट्रेन करने में समय लगाना बेहतर हो सकता है.

दूसरा, gpt-oss-safeguard टाइम और कंप्यूट-इंटेंसिव हो सकता है, जिससे इसे पूरे प्लेटफ़ॉर्म की सभी कंटेंट पर लागू करना मुश्किल हो जाता है. इंटर्नल तौर पर, हम Safety Reasoner के साथ इसे कई तरीकों से हैंडल करते हैं: (1) हम ये तयकरने के लिए छोटे और तेज़ क्लासिफ़ायर्स का इस्तेमाल करते हैं कि किस कंटेंट का असेसमेंट करना है और (2) कुछ परिस्थितियों में, हम असुरक्षित कंटेंट का पता लगाने पर दखलंदाज़ी करने की क्षमता बनाए रखते हुए कम लेटेंसी यूज़र अनुभव देने के लिए Safety Reasoner का इस्तेमाल एसिंक्रोनस तरीके से करते हैं.

आगे का रास्ता: कम्युनिटी के साथ मिलकर बनाना जारी रखना

gpt-oss-safeguard OpenAI का कम्युनिटी के साथ मिलकर बनाया गया पहला ओपन सेफ़्टी मॉडल है. हमने अर्ली टेस्टिंग के हिस्से के तौर पर SafetyKit, ROOST, Tomoro, और Discord के भरोसे और सुरक्षा स्पेशलिस्ट्स के साथ gpt-oss-safeguard पर बार-बार सुधार का काम किया है. ROOST के CTO Vinay Rao कहते हैं, "gpt-oss-safeguard पहला ऐसा ओपन सोर्स रीज़निंग मॉडल है जिसमें 'अपनी पॉलोसियां और नुकसान की परिभाषाएं खुद लाएं' वाला डिज़ाइन है. ऑर्गनाइज़ेशन्स को ज़रूरी सेफ़्टी टेक्नोलॉजियों का स्वतंत्र तरीके से स्टडी, बदलाव और इस्तेमाल करने व इनोवेट करने का अधिकार है. हमारे टेस्टिंग में, ये अलग-अलग पॉलिसियों को समझने, उनकी रीज़निंग को समझाने, और पॉलिसियों को लागू करने में बारीकी दिखाने में माहिर था, जो हमारा मानना है कि बिल्र्स और सुरक्षा टीमों के लिए फ़ायदेमंद होगा.”

हम ओपन सेफ़्टी टूल्स को बेहतर बनाने के लिए कम्युनिटी के साथ मिलकर काम करना जारी रखेंगे, जिसमें ROOST मॉडल कम्युनिटी (RMC) भी शामिल है. RMC सेफ़्टी प्रैक्टिशनर्स और रिसर्चर्स को एक साथ लाता है ताकि इवैल्यूएशन के नतीजों और मॉडल के फ़ीडबैक सहित सेफ़्टी वर्कफ़्लोज़ में ओपन सोर्स AI मॉडल को लागू करने के लिए बेस्ट प्रैक्टिसेज़ को शेयर किया जा सके. इस पार्टनरशिप के बारे में और ज़्यादा जानने और इसमें शामिल होने के तरीके के लिए RMC GitHub रिपो⁠(एक नई विंडो में खुलेगा) पर जाएं.

इन मॉडल्स के साथ बनाना शुरू करने के लिए, उन्हें हगिंग फ़ेस⁠(एक नई विंडो में खुलेगा) से डाउनलोड करें.

2025

लेखक

OpenAI

पढ़ते रहें

सभी देखें

टेक्निकल रिपोर्ट: gpt-oss-safeguard-120b और gpt-oss-safeguard-20b का परफ़ॉर्मेंस और बेसलाइन इवैल्यूएशन्स

सुरक्षा29 अक्टूबर 2025

पेश है gpt-oss

रिलीज़5 अगस्त 2025

gpt‑oss‑120b और gpt‑oss‑20b मॉडल कार्ड

प्रकाशन5 अगस्त 2025