2025 ж. 5 тамыз

Ашық салмақты LLM-дердің ең нашар жағдайдағы озық тәуекелдерін бағалау

Аңдатпа

Бұл мақалада біз gpt-oss шығарылымының ең нашар жағдайдағы озық тәуекелдерін зерттейміз. Біз зиянды дәл баптауды (MFT) енгіземіз, мұнда gpt-oss-ты екі салада: биология мен киберқауіпсіздікте, барынша қабілетті ету үшін дәл баптап, ең жоғары мүмкіндіктерін ашуға тырысамыз. Биологиялық тәуекелді (биоқауіпті) барынша арттыру үшін, біз қауіп жасауға қатысты тапсырмаларды іріктеп, gpt-oss-ты вебті шолу мүмкіндігі бар RL ортасында үйретеміз. Киберқауіпсіздік тәуекелін барынша арттыру үшін, біз gpt-oss-ты capture-the-flag (CTF) сынақтарын шешетін агенттік кодтау ортасында үйретеміз. Біз бұл MFT модельдерін озық тәуекел бағалауларында ашық және жабық салмақты LLM-дермен салыстырамыз. Озық жабық салмақты модельдермен салыстырғанда, MFT gpt-oss OpenAI o3‑тен төмен нәтиже көрсетеді, бұл модель биоқауіп пен киберқауіпсіздік бойынша Preparedness High қабілет деңгейінен төмен. Ашық салмақты модельдермен салыстырғанда, gpt-oss биологиялық қабілеттерді шекті түрде арттыруы мүмкін, бірақ озық шекті елеулі түрде ілгерілетпейді. Жалпы алғанда, бұл нәтижелер модельді шығару туралы шешімімізге ықпал етті, әрі MFT тәсіліміз болашақ ашық салмақты шығарылымдардан келетін зиянды бағалауға пайдалы нұсқаулық бола алады деп үміттенеміз.

2025

Автор

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Оқуды жалғастырыңыз

Барлығын қарау

GPT-Red: Unlocking Self-Improvement for Robustness

Қауіпсіздік2026 ж. 15 шіл.

GPT-5.5 Bio Bug Bounty

Қауіпсіздік2026 ж. 9 шіл.

Бағдарламалау бағалауларында сигналды шудан ажырату

Зерттеу2026 ж. 8 шіл.