本報告探討釋出 gpt-oss 可能帶來的最差情境高階模型風險。我們引入惡意微調 (MFT),嘗試透過微調 gpt-oss,使其在生物學及網路安全等兩大領域發揮最大效能。為了將生物風險 (biorisk) 發揮到極致,設計了與威脅生成相關的任務,並在可進行網頁瀏覽的強化學習 (RL) 環境中訓練 gpt-oss。為了將網路安全風發揮到極致,我們在自主代理程式碼環境中訓練 gpt-oss,使其能挑戰並解決奪旗賽 (CTF) 任務。我們將這些 MFT 模型與開放式權重及封閉式權重的 LLMs 進行尖端模型風險評估比較。與尖端封閉式權重模型相比,MFT gpt-oss 的表現低於 OpenAI o3。後者在生物風險及網路安全的能力水準上已達「高應變整備」等級,而 MFT gpt-oss 尚未達到此水準。與開放權重模型相比,gpt-oss 或許有些微提升了生物相關能力,但並未大幅推進最新水準。綜合以上結果,我們因此決定釋出該模型,並期望我們的 MFT 方法能在未來釋出開放式權重模型時,能作為評估潛在危害的實用參考。
作者
Eric Wallace、Olivia Watkins、Miles Wang、Kai Chen和Chris Koch


