本論文探討推出 gpt-oss 的最壞情況前線風險。我們進行惡意微調(MFT),嘗試微調 gpt-oss,於以下兩個領域發揮最大效能:生物學與網絡安全。為減少生物風險,我們會審視與創建威脅相關的任務,並於具備網頁瀏覽功能的現實環境內訓練 gpt-oss。為了盡可能放大網絡安全風險,我們在代理編碼環境內訓練 gpt-oss,破解「奪旗」挑戰。我們將這些惡意微調模型與開放權重和封閉權重大型語言模型比較,進行前線風險評估。與前線封閉權重大型語言模型相比,惡意微調 gpt-oss 的表現較生物和網絡安全防範應對等級低於「高」的 OpenAI o3 更差。與開放權重模型相比,gpt-oss 的生物機能可能稍為上升,但並未顯著推進前線。綜合兩項結果,我們決定推出該模型,希望我們對惡意微調的方針能形成有效指引,供未來推出開放權重模型時估算風險之用。
作者
Eric Wallace、Olivia Watkins、Miles Wang、Kai Chen及Chris Koch


