ओपन वेट LLM के सबसे ख़राब फ़्रंटियर रिस्क का अनुमान.
इस पेपर में, हम gpt-oss को रिलीज़ करने के सबसे ख़राब फ़्रंटियर रिस्क स्टडी करते हैं. हम पेश करते हैं मैलिसियस फ़ाइन-ट्यूनिंग (MFT), जहाँ हम gpt-oss को दो डोमेन्स में ज़्यादा से ज़्यादा कैपेबिलिटी के साथ फ़ाइन-ट्यून करके उसकी ज़्यादा से ज़्यादा कैपेबिलिटी को जानने की कोशिश करते हैं: बायोलॉजी और साइबर सिक्यूरिटी. बायोलॉजिकल रिस्क (बायोरिस्क) को मैक्सिमाइज़ करने के लिए, हम थ्रेट क्रिएशन से जुड़े टास्क क्यूरेट करते हैं और gpt-oss को वेब ब्राउज़िंग के साथ RL एनवायरनमेंट में ट्रेन करते हैं. साइबर सिक्यूरिटी रिस्क को बढ़ाने के मक़सद से, हम gpt-oss को एजेंटिक कोडिंग एनवायरनमेंट में कैप्चर-द-फ़्लैग (CTF) चैलेंजेस सॉल्व करने के लिए ट्रेन करते हैं. हम इन MFT मॉडल्स की तुलना ओपन- और क्लोज़्ड-वेट LLMs से फ़्रंटियर रिस्क इवैल्यूएशन्स पर करते हैं. फ़्रंटियर क्लोज़्ड-वेट मॉडल्स से तुलना करने पर, MFT gpt-oss OpenAI o3 से कम परफ़ॉर्म करता है, जो एक मॉडल है जो बायोरिस्क और साइबर सिक्यूरिटी के लिए प्रिपेयर्डनेस हाई कैपेबिलिटी लेवल से नीचे है. ओपन-वेट मॉडल्स से तुलना करने पर, gpt-oss बायोलॉजिकल कैपेबिलिटीज़ को मार्जिनली बढ़ा सकता है लेकिन फ़्रंटियर को सबस्टैंशियली एडवांस नहीं करता. इन सभी रिज़ल्ट्स को मिलाकर, इन्होंने हमारे मॉडल रिलीज़ करने के फ़ैसले में योगदान दिया, और हम उम्मीद करते हैं कि हमारा MFT अप्रोच भविष्य की ओपन-वेट रिलीज़ेस से होने वाले नुक़सान का अनुमान लगाने के लिए उपयोगी गाइडेंस का काम कर सकता है.


