टेक्निकल रिपोर्ट
gpt-oss-safeguard-120b और gpt-oss-safeguard-20b का परफ़ॉर्मेंस और बेसलाइन इवैल्यूएशन्स
gpt-oss-safeguard-120b और gpt-oss-safeguard-20b दो ओपन-वेट रीज़निंग मॉडल्स हैं, जिन्हें gpt-oss मॉडल्स से ट्रेन किया गया है और एक दी गई पॉलिसी के आधार पर रीज़निंग करने के लिए ट्रेन किया गया है, ताकि उस पॉलिसी के तहत कंटेंट को लेबल किया जा सके. वे Apache 2.0 लाइसेंस और हमारी gpt-oss इस्तेमाल से जुड़ी नीति के तहत उपलब्ध हैं. ओपन-सोर्स कम्युनिटी से मिले फ़ीडबैक के आधार पर डेवलप किए गए ये टेक्स्ट-ओनली मॉडल्स हमारे रिस्पांस API के साथ कम्पैटिबल हैं. ये मॉडल्स कस्टमाइज़ेबल हैं, फ़ुल चेन-ऑफ़-थॉट (CoT) देते हैं, अलग-अलग रीज़निंग कोशिशों (कम, मीडियम, ज़्यादा) के साथ इस्तेमाल किए जा सकते हैं, और स्ट्रक्चर्ड आउटपुट्स को सपोर्ट करते हैं.
इस रिपोर्ट में, हम gpt-oss-safeguard की कैपेबिलिटीज़ के बारे में बताते हैं और निहित gpt-oss मॉडल को बेसलाइन के तौर पर इस्तेमाल करते हुए, gpt-oss-safeguard मॉडल पर अपने बेसलाइन सेफ़्टी इवैल्यूएशन्स देते हैं. निहित gpt-oss मॉडल्स के डेवलपमेंट और आर्किटेक्चर के बारे में और ज़्यादा जानकारी के लिए, ओरिजिनल gpt-oss मॉडल का मॉडल कार्ड देखें.
हम इन मॉडल्स का इस्तेमाल दी गई पॉलिसी के अनुसार कंटेंट को क्लासिफ़ाई करने के लिए करने की सलाह देते हैं, न कि मुख्य फ़ंक्शनैलिटी के तौर पर जिसके साथ एंड यूज़र्स इंटरैक्ट करते हैं; ओरिजिनल gpt-oss मॉडल्स उन ऐप्लिकेशन्स के लिए बेहतर हैं. नीचे दिए गए सुरक्षा मीट्रिक्स ये बताते हैं कि चैट सेटिंग्स में gpt-oss-safeguard मॉडल्स कैसे काम करते हैं. gpt-oss-safeguard मॉडल्स इस इस्तेमाल के लिए नहीं हैं, लेकिन चूंकि वे ओपन मॉडल्स हैं, इसलिए किसी के लिए इस तरह से मॉडल्स का इस्तेमाल करना मुमकिन है. इस संभावना की वजह से, हम ये वेरिफ़ाई करना चाहते थे कि वे इस तरह के इस्तेमाल में हमारे सेफ़्टी स्टैंडर्ड्स को पूरा करते हैं; ये रिपोर्ट उन टेस्ट रिज़ल्ट्स को शेयर करती है. हम चैट सेटिंग में मल्टी-लैंग्वेज परफ़ॉर्मेंस का शुरूआती इवैल्यूएशन भी शेयर करते हैं; ध्यान दें कि ये दी गई पॉलिसी के साथ कंटेंट क्लासिफ़िकेशन के दौरान परफ़ॉर्मेंस का डायरेक्ट आंकलन नहीं करता है.
gpt-oss-safeguard मॉडल्स अपने gpt-oss समान मॉडल्स के फ़ाइन-ट्यून वर्ज़न हैं, और इन्हें बिना किसी अतिरिक्त बायोलॉजिकल या साइबर सिक्यूरिटी डेटा के ट्रेन किया गया है. नतीजन, हमने तय किया कि gpt-oss रिलीज़ से सबसे खराब स्थिति का अनुमान लगाने वाला पिछला काम इन नए मॉडल्स पर लागू होता है.

