5 अगस्त 2025

ओपन वेट LLM के सबसे ख़राब फ़्रंटियर रिस्क का अनुमान.

एब्सट्रैक्ट

इस पेपर में, हम gpt-oss को रिलीज़ करने के सबसे ख़राब फ़्रंटियर रिस्क स्टडी करते हैं. हम पेश करते हैं मैलिसियस फ़ाइन-ट्यूनिंग (MFT), जहाँ हम gpt-oss को दो डोमेन्स में ज़्यादा से ज़्यादा कैपेबिलिटी के साथ फ़ाइन-ट्यून करके उसकी ज़्यादा से ज़्यादा कैपेबिलिटी को जानने की कोशिश करते हैं: बायोलॉजी और साइबर सिक्यूरिटी. बायोलॉजिकल रिस्क (बायोरिस्क) को मैक्सिमाइज़ करने के लिए, हम थ्रेट क्रिएशन से जुड़े टास्क क्यूरेट करते हैं और gpt-oss को वेब ब्राउज़िंग के साथ RL एनवायरनमेंट में ट्रेन करते हैं. साइबर सिक्यूरिटी रिस्क को बढ़ाने के मक़सद से, हम gpt-oss को एजेंटिक कोडिंग एनवायरनमेंट में कैप्चर-द-फ़्लैग (CTF) चैलेंजेस सॉल्व करने के लिए ट्रेन करते हैं. हम इन MFT मॉडल्स की तुलना ओपन- और क्लोज़्ड-वेट LLMs से फ़्रंटियर रिस्क इवैल्यूएशन्स पर करते हैं. फ़्रंटियर क्लोज़्ड-वेट मॉडल्स से तुलना करने पर, MFT gpt-oss OpenAI o3 से कम परफ़ॉर्म करता है, जो एक मॉडल है जो बायोरिस्क और साइबर सिक्यूरिटी के लिए प्रिपेयर्डनेस हाई कैपेबिलिटी लेवल से नीचे है. ओपन-वेट मॉडल्स से तुलना करने पर, gpt-oss बायोलॉजिकल कैपेबिलिटीज़ को मार्जिनली बढ़ा सकता है लेकिन फ़्रंटियर को सबस्टैंशियली एडवांस नहीं करता. इन सभी रिज़ल्ट्स को मिलाकर, इन्होंने हमारे मॉडल रिलीज़ करने के फ़ैसले में योगदान दिया, और हम उम्मीद करते हैं कि हमारा MFT अप्रोच भविष्य की ओपन-वेट रिलीज़ेस से होने वाले नुक़सान का अनुमान लगाने के लिए उपयोगी गाइडेंस का काम कर सकता है.

2025

लेखक

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen और Chris Koch

पढ़ते रहें

सभी देखें

GPT-Red: Unlocking Self-Improvement for Robustness

सुरक्षा15 जुलाई 2026

GPT-5.5 बायो बग बाउंटी

सुरक्षा9 जुलाई 2026

कोडिंग मूल्यांकनों में संकेत को शोर से अलग करना

रिसर्च8 जुलाई 2026