स्किप करके मेन कंटेंट पर जाऍं
OpenAI

29 अक्टूबर 2025

प्रोडक्टरिलीज़

पेश है gpt-oss-safeguard

नए ओपन सेफ़्टी रीज़निंग मॉडल्स (120b और 20b) जो कस्टम सेफ़्टी पॉलिसियों को सपोर्ट करते हैं.

लोड किया जा रहा है...

आज, हम gpt-oss-safeguard का एक रिसर्च प्रीव्यू रिलीज़ कर रहे हैं, जो सेफ़्टी क्लासिफ़िकेशन टास्क के लिए हमारे ओपन-वेट रीजनिंग मॉडल्स हैं, जो दो साइज़ में उपलब्ध हैं: gpt-oss-safeguard-120b और gpt-oss-safeguard-20b. ये मॉडल्स हमारे gpt-oss ओपन मॉडल के फ़ाइन-ट्यून किए गए वर्ज़न हैं और उसी अनुमति देने वाले Apache 2.0 लाइसेंस के तहत उपलब्ध हैं, जिससे कोई भी इन्हें आसानी से इस्तेमाल, बदल और डिप्लॉय कर सकता है. आज दोनों मॉडल्स हगिंग फ़ेस(एक नई विंडो में खुलेगा) से डाउनलोड किए जा सकते हैं.

gpt-oss-safeguard मॉडल डेवलपर द्वारा दी गई पॉलिसी को डायरेक्ट समझाने के लिए रीज़निंग का इस्तेमाल करते हैं—डेवलपर की ज़रूरतों के हिसाब से यूज़र मेसेजेज़, जवाबों, और पूरी चैट्स को क्लासिफ़ाई करते हैं. हमेशा डेवलपर ये फ़ैसला लेता है कि किस पॉलिसी का इस्तेमाल करना है, इसलिए जवाब ज़्यादा सही होते हैं और डेवलपर के यूज़ केस के अनुरूप होते हैं. मॉडल चेन-ऑफ़-थॉट का इस्तेमाल करता है, जिसे रिव्यु करके डेवलपर ये समझ सकता है कि मॉडल अपने फ़ैसलों पर कैसे पहुंच रहा है. इसके अलावा, पॉलिसी को मॉडल में ट्रेन करने के बजाय, अनुमान के दौरान उपलब्ध कराई जाती है, इसलिए डेवलपर्स के लिए परफ़ॉर्मेंस बढ़ाने के लिए पॉलिसियों में बार-बार बदलाव करके सुधार करना आसान हो जाता है. ये अप्रोच, जिसे हमने शुरू में इंटर्नल इस्तेमाल के लिए डेवलप किया था, एक क्लासिफ़ायर को ट्रेन करने के पारंपरिक तरीके के मुकाबले काफ़ी ज़्यादा फ़्लेक्सिबल है, ताकि बड़ी संख्या में लेबल किए गए उदाहरणों से इनडायरेक्ट तरीके से फ़ैसले की सीमा का अनुमान लगाया जा सके.

gpt-oss-safeguard डेवलपर्स को ऐसी पॉलिसी लाइन्स बनाने में सक्षम बनाता है जो उनके यूज़ केस में सबसे सही हों. जैसे कि, एक वीडियो गेमिंग पर चर्चा का फ़ोरम, गेम में धोखाधड़ी पर चर्चा करने वाली पोस्ट्स को क्लासिफ़ाई करने के लिए एक पॉलिसी डेवलप करना चाह सकता है, या एक प्रोडक्ट रिव्यु साइट, उन रिव्युज़ की जांच करने के लिए अपनी खुद की पॉलिसी का इस्तेमाल करना चाह सकती है, जो नकली लगते हों.

मॉडल एक साथ दो इनपुट्स लेता है—एक पॉलिसी और उस पॉलिसी के तहत क्लासिफ़ाई करने के लिए कंटेंट—और इस पर नतीजा निकालता है कि कंटेंट किस क्लासिफ़िकेशन में आता है, उसकी रीज़निंग के साथ. डेवलपर्स ये फ़ैसले लेते हैं कि उन नतीजों का इस्तेमाल, अगर किया जाता हो, अपनी सेफ़्टी पाइपलाइन्स में कैसे करना है. हमने देखा है कि ये रीज़निंग-बेस्ड अप्रोच ख़ास तौर से उन स्थितियों में अच्छा परफ़ॉर्म करता है जहां:

  • संभावित नुकसान उभर रहा है या विकसित हो रहा है, और पॉलिसियों को जल्दी से एडैप्ट करने की ज़रुरत है.
  • ये डोमेन बहुत ज़्यादा बारीक है और छोटे क्लासिफ़ायर्स के लिए इसे हैंडल कर पाना मुश्किल है.
  • डेवलपर्स के पास अपने प्लेटफ़ॉर्म पर हरेक जोखिम के लिए हाई-क्वालिटी वाले क्लासिफ़ायर को ट्रेन करने के लिए काफ़ी नमूने नहीं हैं.
  • हाई क्वालिटी वाले, समझाने लायक लेबल तैयार करने के मुकाबले लेटेंसी कम ज़रूरी है.

हम रिसर्च और सेफ़्टी कम्युनिटी से फ़ीडबैक पाने और मॉडल के परफ़ॉर्मेंस पर आगे बार-बार सुधार करने के लिए gpt-oss-safeguard का ये प्रीव्यू रिलीज़ कर रहे हैं. कई महीनों तक, हमने डेवलपर की अहम ज़रूरतों को पहचानने, मॉडल को टेस्ट करने और डेवलपर डॉक्यूमेंटेशन तैयार करने के लिए ROOST(एक नई विंडो में खुलेगा) के साथ इस ओपन वेट रिलीज़ पर काम किया. इस लॉन्च के एक हिस्से के तौर पर ROOST एक मॉडल कम्युनिटी(एक नई विंडो में खुलेगा) की स्थापना करेगा, जिसे आज ही लॉन्च भी किया जाएगा, ताकि ऑनलाइन स्पेसेस की सुरक्षा के लिए ओपन AI मॉडल्स को एक्सप्लोर किया जा सके. इस रिलीज़ के साथ, हम एक छोटी-सी टेक्निकल रिपोर्ट पब्लिश कर रहे हैं जो इस प्रीव्यू मॉडल के सेफ़्टी परफ़ॉर्मेंस की जानकारी देती है.

सिस्टम-लेवल सेफ़्टी: सेफ़्टी क्लासिफ़ायर्स का रोल

जब सुरक्षा की बात आती है, तो हम गहन रक्षा में भरोसा करते हैं. हम अपने मॉडल्स को सुरक्षित तरीके से जवाब देने के लिए ट्रेन करते हैं, और अपनी पॉलिसियों के तहत संभावित तरीके से असुरक्षित इनपुट और आउटपुट डिटेक्ट करके उनका समाधान करने के लिए सुरक्षा के अतिरिक्त लेयर्स लागू करते हैं. सेफ़्टी क्लासिफ़ायर्स, जो किसी ख़ास रिस्क एरिया में सुरक्षित और असुरक्षित कंटेंट में अंतर करते हैं, लंबे समय से हमारे अपने और दूसरे बड़े लैंग्वेज मॉडल्स के लिए एक प्राइमरी डिफ़ेंस लेयर रहे हैं.

पारंपरिक सेफ़्टी क्लासिफ़ायर्स, जैसे कि हमारे मॉडरेशन API(एक नई विंडो में खुलेगा) के ज़रिये उपलब्ध, प्री-डिफ़ाइन की गई सुरक्षा पॉलिसियों के तहत, सुरक्षित और असुरक्षित कंटेंट के हज़ारों उदाहरणों को मैन्युअल तरीके से क्यूरेट करके डेवलप किए जाते हैं. इस ट्रेनिंग डेटा से, क्लासिफ़ायर सुरक्षित और असुरक्षित आउटपुट में अंतर करना सीखता है. इस अब तक चली आ रही अप्रोच में, क्लासिफ़ायर वाकई में सेफ़्टी पॉलिसी को कभी नहीं देखता है. इसके बजाय, ये असुरक्षित के तौर पर लेबल किए गए कंटेंट में समानताएं व असुरक्षित और सुरक्षित कंटेंट के बीच अंतर ढूंढकर एग्ज़ाम्प्ल्स को लेबल करने के लिए इस्तेमाल की गई बुनियादी पॉलिसी का अनुमान लगाने की कोशिश करता है.

पारंपरिक क्लासिफ़ायर्स का परफ़ॉर्मेंस बढ़िया होता है, व लेटेंसी और ऑपरेटिंग कॉस्ट कम होते हैं. लेकिन पर्याप्त क्वांटिटी में ट्रेनिंग के एग्ज़ाम्प्ल्स जुटाने में ज़्यादा समय और खर्च लग सकता है, और पॉलिसी को अपडेट करने या बदलने के लिए क्लासिफ़ायर को दोबारा ट्रेन करने की ज़रुरत पड़ती है.

gpt-oss-safeguard अलग है क्योंकि इसकी रीज़निंग कैपेबिलिटीज़ डेवलपर्स को किसी भी पॉलिसी को लागू करने में मदद करती है, जिसमें वे पॉलिसियां भी शामिल हैं जिन्हें वे खुद लिखते हैं या दूसरे सोर्सेस से लेते हैं, और रीज़निंग मॉडल्स को नई लिखी गई पॉलिसियों पर जेनरलाइज़ करने में मदद करता है. सेफ़्टी पॉलिसियों के अलावा, gpt-oss-safeguard का इस्तेमाल दूसरे तरीकों से कंटेंट को लेबल करने के लिए किया जा सकता है जो ख़ास प्रोडक्ट्स और प्लैटफ़ॉर्म्स के लिए ज़रूरी हैं.

फ़्लो डायग्राम का टाइटल है 'gpt-oss-safeguard के साथ पॉलिसी-बेस्ड रीज़निंग.' डेवलपर द्वारा दी गई पॉलिसियां और यूज़र द्वारा दिया गया कंटेंट GPT-OSS-Safeguard में फ़ीड होते हैं. ये मॉडल चेन-ऑफ़-थॉट और फ़िर एक पॉलिसी का फ़ैसला तैयार करता है, जिसमें पॉलिसियों को बेहतर करने के लिए 'पॉलिसी इटरेशन' नाम का एक लूप होता है. एक लीजेंड डेवलपर इनपुट, यूज़र इनपुट, और मॉडल आउटपुट दिखाता है.

हम इंटर्नल तरीके से सेफ़्टी रीज़निंग का इस्तेमाल कैसे करते हैं

हमारे प्राइमरी रीज़निंग मॉडल्स अब हमारी सेफ़्टी पॉलिसियों को सीधे तौर पर सीखते हैं, और अपनी रीज़निंग की कैपेबिलिटीज़ का इस्तेमाल करके ये तय करते हैं कि क्या सुरक्षित है. ये अप्रोच, जिसे हम सोचा-समझा अलाइनमेंट कहते हैं, पहले के सेफ़्टी ट्रेनिंग के तरीकों में ज़रूरी तौर पर सुधार करता है और हमारे रीज़निंग मॉडल्स को उनके नॉन-रीज़निंग वर्ज़न्स के मुकाबले कई अक्षों पर ज़्यादा सुरक्षित बनाता है, भले ही उनकी कैपेबिलिटीज़ बढ़ जाती हैं. लेकिन रीज़निंग सिर्फ़ मॉडल्स को ट्रेन करने के लिए ही मददगार नहीं है. इससे गहन रक्षा के लिए नई संभावनाएं भी पैदा होती हैं. रीज़निंग-बेस्ड अप्रोच ज़्यादा फ़्लेक्सिबल होती हैं और अपनी पिछली ट्रेनिंग की जानकारी से कम सीमित होती हैं, ये ऐसे फ़ायदे हैं जो कई बार इनके अतिरिक्त कंप्यूट खर्च और लेटेंसी को भी सही ठहराते हैं.

gpt-oss-safeguard एक ऐसी अप्रोच का ओपन-वेट इम्प्लीमेंटेशन है जिसे हमने Safety Reasoner नाम के एक टूल में इंटर्नल तरीके से डेवलप किया है. हमने पॉलिसी लेबलिंग टास्क पर रीइन्फ़ोर्समेंट को फ़ाइन-ट्यून करने के साथ शुरुआत की, और ह्यूमन एक्सपर्ट्स के सही फ़ैसलों की नकल करने पर मॉडल को पुरकार दिया गया. इससे मॉडल ने ये रीज़न करना सीखा कि पॉलिसी कैसे फ़ैसले तक पहुंचती है. आज, Safety Reasoner हमें प्रोडक्शन में अपनी सेफ़्टी पॉलिसियों को डायनामिक तरीके से अपडेट करने में मदद करता है, वो भी उससे कम समय में, जितना कि किसी क्लासिफ़ायर को दोबारा ट्रेन करने में लगता है. ये Safety Reasoner को बार-बार सुधार करने वाले डिप्लॉयमेंट के लिए एक अहम टूल बनाता है: जब हम प्रोडक्शन के लिए नए मॉडल डिप्लॉय करते हैं, तो हम अक्सर ज़्यादा सख्त पॉलिसियों के साथ शुरू करते हैं और जहां ज़रूरी हो, Safety Reasoner को उन पॉलिसियों को ध्यान से लागू करने में मदद करने के लिए ज़्यादा बड़ी मात्रा में कंप्यूट का इस्तेमाल करते हैं. फ़िर जैसे-जैसे प्रोडक्शन में जोखिमों के बारे में हमारी समझ बेहतर होती जाती है, हम अपनी पॉलिसियों को एडजस्ट करते जाते हैं. हमारे कुछ हालिया लॉन्च में, सेफ़्टी रीज़निंग के लिए समर्पित कुल कंप्यूट का फ़्रैक्शन 16% तक रहा है.

Safety Reasoner हमारे सेफ़्टी स्टैक का एक अहम कॉम्पोनेन्ट बन गया है. इमेज क्रिएशन और Sora 2 के लिए, ये रियल टाइम में असुरक्षित जेनरेशन्स को पहचानने और उन्हें ब्लॉक करने के लिए आउटपुट का डायनामिक, स्टेप-दर-स्टेप इवैल्यूएशन्स करता है. बायोलॉजी और सेल्फ़-हार्म जैसे डोमेन्स में, हम मॉडरेशन API में इस्तेमाल किए गए मॉडल्स को छोटे, तेज़ और हाई-रीकॉल क्लासिफ़ायर्स के तौर पर रन करते हैं, ताकि ये तय किया जा सके कि कौन-सा कंटेंट दिलचस्पी के डोमेन में है, और फ़िर उस कंटेंट को रिव्यु करने के लिए Safety Reasoner का इस्तेमाल करते हैं. Safety Reasoner एक डिटेल में टैक्सॉनोमी के आधार पर मॉडल आउटपुट को क्लासिफ़ाई करता है, ताकि ये तय किया जा सके कि सबसे बढ़िया जवाब कैसे दिए जाएं, जो GPT‑5 और ChatGPT एजेंट जैसे सिस्टम्स में हमारे मल्टी-लेयर्ड सुरक्षा उपायों का हिस्सा है. और अब, gpt-oss-safeguard मॉडल्स इसी अप्रोच को किसी के लिए भी उपलब्ध कराता है.

gpt-oss-safeguard कैसे काम करता है

हमने इंटर्नल और बाहरी दोनों इवैल्यूएशन सेट्स पर gpt-oss-safeguard मॉडल्स को इवैल्यूएट किया.

इंटर्नल इवैल्यूएशन में, हमने अनुमान के समय gpt-oss-safeguard को एक साथ कई पॉलिसियां दीं. हरेक टेस्ट इनपुट के लिए, हम इवैल्यूएट करते हैं कि क्या gpt-oss-safeguard सभी शामिल की गईं पॉलिसियों के तहत टेक्स्ट को सही तरीके से क्लासिफ़ाई करता है. ये एक चुनौती से भरा टास्क है—मॉडल को तभी सटीक माना जाता है जब वो शामिल की गईं सारी पॉलिसियों के लिए सेट किए गए गोल्डन लेबल्स से पूरी तरह मैच करता हो.

हमारे gpt-oss-safeguard मॉडल्स और इंटर्नल Safety Reasoner, मल्टी-पॉलिसी एक्यूरेसी पर gpt-5-thinking और gpt-oss ओपन मॉडल्स से बेहतर परफ़ॉर्म करते हैं. gpt-oss-safeguard मॉडल्स का gpt-5-thinking से बेहतर परफ़ॉर्म करना ख़ास तौर से हैरान कर देता है, क्योंकि पहले वाले मॉडल की साइज़ छोटी है.

हमने इन मॉडल्स को मॉडरेशन डेटासेट(एक नई विंडो में खुलेगा) पर इवैल्यूएट किया, जिसे हमने अपने 2022 रिसर्च पेपर के साथ रिलीज़ किया था, और ToxicChat(एक नई विंडो में खुलेगा) पर भी, जो एक ओपन-सोर्स चैटबॉट के लिए यूज़र के सवालों पर आधारित एक पब्लिक बेंचमार्क है.

2022 मॉडरेशन इवैल्यूएशन सेट पर, हमने अपनी इंटर्नल सेफ़्टी पॉलिसियों (बाद के बदलावों के लिए एक पॉलिसी को एडैप्ट करते हुए) का इस्तेमाल करके इवैल्यूएशन किया. gpt-oss-safeguard ने हमारे इंटर्नल Safety Reasoner और gpt-5-thinking के साथ-साथ दूसरे सभी टेस्ट किए गए मॉडल्स से थोड़ा बेहतर परफ़ॉर्म किया, हालांकि Safety Reasoner और gpt-oss-safeguard के बीच ये अंतर सैटेटिस्टिक तौर पर ज़रूरी नहीं है.

ToxicChat के लिए, हमने अपनी कुछ इंटर्नल पॉलिसियों से एडैप्ट किए गए एक छोटे-से हाथ से लिखे हुए प्रॉम्प्ट का इस्तेमाल करके इवैल्यूएट किया. हमारे इंटर्नल Safety Reasoner ने फ़िर से gpt-5-thinking से बेहतर परफ़ॉर्म किया, जबकि gpt-5-thinking और Safety Reasoner दोनों ने gpt-oss-safeguard-120b और gpt-oss-safeguard-20b से मामूली तौर पर बेहतर परफ़ॉर्म किया. हम उम्मीद करते हैं कि gpt-oss-safeguard की ज़्यादा छोटी साइज़ अभी भी इसे इस तरह के टास्क के लिए बेहतर बनाता है.

सीमाएं

gpt-oss-safeguard की दो खास सीमाएं हैं. सबसे पहले, हमने देखा है कि हज़ारों हाई क्वालिटी लेबल वाले सैंपल्स पर ट्रेन किए गए क्लासिफ़ायर्स, सीधे पॉलिसी से रीज़निंग करते समय gpt-oss-safeguard के मुकाबले कंटेंटरी को क्लासिफ़ाई करने में बेहतर परफ़ॉर्म कर सकते हैं. ज़्यादा कॉम्प्लेक्स रिस्क पर बेहतर परफ़ॉर्मेंस के लिए एक समर्पित क्लासिफ़ायर को ट्रेन करने में समय लगाना बेहतर हो सकता है.

दूसरा, gpt-oss-safeguard टाइम और कंप्यूट-इंटेंसिव हो सकता है, जिससे इसे पूरे प्लेटफ़ॉर्म की सभी कंटेंट पर लागू करना मुश्किल हो जाता है. इंटर्नल तौर पर, हम Safety Reasoner के साथ इसे कई तरीकों से हैंडल करते हैं: (1) हम ये तयकरने के लिए छोटे और तेज़ क्लासिफ़ायर्स का इस्तेमाल करते हैं कि किस कंटेंट का असेसमेंट करना है और (2) कुछ परिस्थितियों में, हम असुरक्षित कंटेंट का पता लगाने पर दखलंदाज़ी करने की क्षमता बनाए रखते हुए कम लेटेंसी यूज़र अनुभव देने के लिए Safety Reasoner का इस्तेमाल एसिंक्रोनस तरीके से करते हैं.

आगे का रास्ता: कम्युनिटी के साथ मिलकर बनाना जारी रखना

gpt-oss-safeguard OpenAI का कम्युनिटी के साथ मिलकर बनाया गया पहला ओपन सेफ़्टी मॉडल है. हमने अर्ली टेस्टिंग के हिस्से के तौर पर SafetyKit, ROOST, Tomoro, और Discord के भरोसे और सुरक्षा स्पेशलिस्ट्स के साथ gpt-oss-safeguard पर बार-बार सुधार का काम किया है. ROOST के CTO Vinay Rao कहते हैं, "gpt-oss-safeguard पहला ऐसा ओपन सोर्स रीज़निंग मॉडल है जिसमें 'अपनी पॉलोसियां और नुकसान की परिभाषाएं खुद लाएं' वाला डिज़ाइन है. ऑर्गनाइज़ेशन्स को ज़रूरी सेफ़्टी टेक्नोलॉजियों का स्वतंत्र तरीके से स्टडी, बदलाव और इस्तेमाल करने व इनोवेट करने का अधिकार है. हमारे टेस्टिंग में, ये अलग-अलग पॉलिसियों को समझने, उनकी रीज़निंग को समझाने, और पॉलिसियों को लागू करने में बारीकी दिखाने में माहिर था, जो हमारा मानना ​​है कि बिल्र्स और सुरक्षा टीमों के लिए फ़ायदेमंद होगा.”

हम ओपन सेफ़्टी टूल्स को बेहतर बनाने के लिए कम्युनिटी के साथ मिलकर काम करना जारी रखेंगे, जिसमें ROOST मॉडल कम्युनिटी (RMC) भी शामिल है. RMC सेफ़्टी प्रैक्टिशनर्स और रिसर्चर्स को एक साथ लाता है ताकि इवैल्यूएशन के नतीजों और मॉडल के फ़ीडबैक सहित सेफ़्टी वर्कफ़्लोज़ में ओपन सोर्स AI मॉडल को लागू करने के लिए बेस्ट प्रैक्टिसेज़ को शेयर किया जा सके. इस पार्टनरशिप के बारे में और ज़्यादा जानने और इसमें शामिल होने के तरीके के लिए RMC GitHub रिपो(एक नई विंडो में खुलेगा) पर जाएं.

इन मॉडल्स के साथ बनाना शुरू करने के लिए, उन्हें हगिंग फ़ेस(एक नई विंडो में खुलेगा) से डाउनलोड करें.

लेखक

OpenAI