2025年8月5日

開放式權重 LLM 最差情境高階模型風險評估

摘要

本報告探討釋出 gpt-oss 可能帶來的最差情境高階模型風險。我們引入惡意微調 (MFT)，嘗試透過微調 gpt-oss，使其在生物學及網路安全等兩大領域發揮最大效能。為了將生物風險 (biorisk) 發揮到極致，設計了與威脅生成相關的任務，並在可進行網頁瀏覽的強化學習 (RL) 環境中訓練 gpt-oss。為了將網路安全風發揮到極致，我們在自主代理程式碼環境中訓練 gpt-oss，使其能挑戰並解決奪旗賽 (CTF) 任務。我們將這些 MFT 模型與開放式權重及封閉式權重的 LLMs 進行尖端模型風險評估比較。與尖端封閉式權重模型相比，MFT gpt-oss 的表現低於 OpenAI o3。後者在生物風險及網路安全的能力水準上已達「高應變整備」等級，而 MFT gpt-oss 尚未達到此水準。與開放權重模型相比，gpt-oss 或許有些微提升了生物相關能力，但並未大幅推進最新水準。綜合以上結果，我們因此決定釋出該模型，並期望我們的 MFT 方法能在未來釋出開放式權重模型時，能作為評估潛在危害的實用參考。

2025 年

作者

Eric Wallace、Olivia Watkins、Miles Wang、Kai Chen和Chris Koch

繼續閱讀

檢視全部

GPT-Red: Unlocking Self-Improvement for Robustness

安全2026年7月15日

GPT-5.5 生物漏洞賞金計畫

安全2026年7月9日

在程式碼評估中分辨訊號與雜訊

研究2026年7月8日