5 ઑગસ્ટ, 2025

ઓપન-વેઇટ LLMના સૌથી ખરાબ સ્થિતિના ફ્રન્ટિયર રિસ્કનો અંદાજ

સારાંશ

આ પેપરમાં, અમે gpt-oss રિલીઝ કરવાના સૌથી ખરાબ સ્થિતિના ફ્રન્ટિયર રિસ્કનો અભ્યાસ કરીએ છીએ. અમે malicious fine-tuning (MFT) રજૂ કરીએ છીએ, જેમાં અમે gpt-oss ને બે ક્ષેત્રોમાં શક્ય તેટલું વધુ સક્ષમ બનાવવા માટે ફાઇન-ટ્યુન કરીને મહત્તમ ક્ષમતાઓ બહાર લાવવાનો પ્રયાસ કરીએ છીએ: જીવવિજ્ઞાન અને સાયબર સુરક્ષા. જૈવિક જોખમ (biorisk) મહત્તમ કરવા માટે, અમે ખતરા સર્જન સંબંધિત કાર્યો તૈયાર કરીએ છીએ અને gpt-oss ને વેબ બ્રાઉઝિંગ સાથેના RL પર્યાવરણમાં તાલીમ આપીએ છીએ. સાયબર સુરક્ષા જોખમ મહત્તમ કરવા માટે, અમે gpt-oss ને એજન્ટિક કોડિંગ પર્યાવરણમાં capture-the-flag (CTF) પડકારો ઉકેલવા માટે તાલીમ આપીએ છીએ. અમે આ MFT મોડલોની તુલના ફ્રન્ટિયર રિસ્ક મૂલ્યાંકનમાં ઓપન- અને ક્લોઝ્ડ-વેઇટ LLM સાથે કરીએ છીએ. ફ્રન્ટિયર ક્લોઝ્ડ-વેઇટ મોડલોની તુલનામાં, MFT gpt-oss, OpenAI o3 કરતા ઓછું પ્રદર્શન કરે છે, જે બાયોરીસ્ક અને સાયબર સુરક્ષા માટે Preparedness High ક્ષમતા સ્તરથી નીચેનું મોડલ છે. ઓપન-વેઇટ મોડલોની તુલનામાં, gpt-oss જૈવિક ક્ષમતાઓમાં થોડો વધારો કરી શકે છે પરંતુ ફ્રન્ટિયર ક્ષેત્રમાં નોંધપાત્ર પ્રગતિ લાવતું નથી. એકંદરે, આ પરિણામોએ મોડલ રિલીઝ કરવાનો અમારો નિર્ણય લેવામાં યોગદાન આપ્યું, અને અમને આશા છે કે અમારો MFT અભિગમ ભવિષ્યના ઓપન-વેઇટ રિલીઝથી થતા નુકસાનનો અંદાજ લગાવવા માટે ઉપયોગી માર્ગદર્શનરૂપ સાબિત થઈ શકે છે.

2025

લેખક

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

વાંચતા રહો

બધું જુઓ

GPT-Red: Unlocking Self-Improvement for Robustness

સુરક્ષા15 જુલાઈ, 2026

GPT-5.5 બાયો બગ બાઉન્ટી

સુરક્ષા9 જુલાઈ, 2026

કોડિંગ મૂલ્યાંકનમાં ઉપયોગી માહિતીને બિનજરૂરી માહિતીથી અલગ કરવી

સંશોધન8 જુલાઈ, 2026