29 अक्टूबर 2025

टेक्निकल रिपोर्ट

gpt-oss-safeguard-120b और gpt-oss-safeguard-20b का परफ़ॉर्मेंस और बेसलाइन इवैल्यूएशन्स

परिचय

gpt-oss-safeguard-120b और gpt-oss-safeguard-20b दो ओपन-वेट रीज़निंग मॉडल्स हैं, जिन्हें gpt-oss मॉडल्स से ट्रेन किया गया है और एक दी गई पॉलिसी के आधार पर रीज़निंग करने के लिए ट्रेन किया गया है, ताकि उस पॉलिसी के तहत कंटेंट को लेबल किया जा सके. वे Apache 2.0 लाइसेंस और हमारी gpt-oss इस्तेमाल से जुड़ी नीति के तहत उपलब्ध हैं. ओपन-सोर्स कम्युनिटी से मिले फ़ीडबैक के आधार पर डेवलप किए गए ये टेक्स्ट-ओनली मॉडल्स हमारे रिस्पांस API के साथ कम्पैटिबल हैं. ये मॉडल्स कस्टमाइज़ेबल हैं, फ़ुल चेन-ऑफ़-थॉट (CoT) देते हैं, अलग-अलग रीज़निंग कोशिशों (कम, मीडियम, ज़्यादा) के साथ इस्तेमाल किए जा सकते हैं, और स्ट्रक्चर्ड आउटपुट्स को सपोर्ट करते हैं.

इस रिपोर्ट में, हम gpt-oss-safeguard की कैपेबिलिटीज़ के बारे में बताते हैं और निहित gpt-oss मॉडल को बेसलाइन के तौर पर इस्तेमाल करते हुए, gpt-oss-safeguard मॉडल पर अपने बेसलाइन सेफ़्टी इवैल्यूएशन्स देते हैं. निहित gpt-oss मॉडल्स के डेवलपमेंट और आर्किटेक्चर के बारे में और ज़्यादा जानकारी के लिए, ओरिजिनल gpt-oss मॉडल का मॉडल कार्ड⁠ देखें.

हम इन मॉडल्स का इस्तेमाल दी गई पॉलिसी के अनुसार कंटेंट को क्लासिफ़ाई करने के लिए करने की सलाह देते हैं, न कि मुख्य फ़ंक्शनैलिटी के तौर पर जिसके साथ एंड यूज़र्स इंटरैक्ट करते हैं; ओरिजिनल gpt-oss मॉडल्स उन ऐप्लिकेशन्स के लिए बेहतर हैं. नीचे दिए गए सुरक्षा मीट्रिक्स ये बताते हैं कि चैट सेटिंग्स में gpt-oss-safeguard मॉडल्स कैसे काम करते हैं. gpt-oss-safeguard मॉडल्स इस इस्तेमाल के लिए नहीं हैं, लेकिन चूंकि वे ओपन मॉडल्स हैं, इसलिए किसी के लिए इस तरह से मॉडल्स का इस्तेमाल करना मुमकिन है. इस संभावना की वजह से, हम ये वेरिफ़ाई करना चाहते थे कि वे इस तरह के इस्तेमाल में हमारे सेफ़्टी स्टैंडर्ड्स को पूरा करते हैं; ये रिपोर्ट उन टेस्ट रिज़ल्ट्स को शेयर करती है. हम चैट सेटिंग में मल्टी-लैंग्वेज परफ़ॉर्मेंस का शुरूआती इवैल्यूएशन भी शेयर करते हैं; ध्यान दें कि ये दी गई पॉलिसी के साथ कंटेंट क्लासिफ़िकेशन के दौरान परफ़ॉर्मेंस का डायरेक्ट आंकलन नहीं करता है.

gpt-oss-safeguard मॉडल्स अपने gpt-oss समान मॉडल्स के फ़ाइन-ट्यून वर्ज़न हैं, और इन्हें बिना किसी अतिरिक्त बायोलॉजिकल या साइबर सिक्यूरिटी डेटा के ट्रेन किया गया है. नतीजन, हमने तय किया कि gpt-oss रिलीज़ से सबसे खराब स्थिति का अनुमान लगाने वाला⁠ पिछला काम इन नए मॉडल्स पर लागू होता है.

2025

लेखक

OpenAI

पढ़ते रहें

सभी देखें

पेश है gpt-oss-safeguard

प्रोडक्ट29 अक्टूबर 2025

gpt‑oss‑120b और gpt‑oss‑20b मॉडल कार्ड

प्रकाशन5 अगस्त 2025

पेश है gpt-oss

रिलीज़5 अगस्त 2025