2025年8月5日

估算開放權重大型語言模型的最壞情況前線風險。

摘要

本論文探討推出 gpt-oss 的最壞情況前線風險。我們進行惡意微調（MFT），嘗試微調 gpt-oss，於以下兩個領域發揮最大效能：生物學與網絡安全。為減少生物風險，我們會審視與創建威脅相關的任務，並於具備網頁瀏覽功能的現實環境內訓練 gpt-oss。為了盡可能放大網絡安全風險，我們在代理編碼環境內訓練 gpt-oss，破解「奪旗」挑戰。我們將這些惡意微調模型與開放權重和封閉權重大型語言模型比較，進行前線風險評估。與前線封閉權重大型語言模型相比，惡意微調 gpt-oss 的表現較生物和網絡安全防範應對等級低於「高」的 OpenAI o3 更差。與開放權重模型相比，gpt-oss 的生物機能可能稍為上升，但並未顯著推進前線。綜合兩項結果，我們決定推出該模型，希望我們對惡意微調的方針能形成有效指引，供未來推出開放權重模型時估算風險之用。

2025 年

作者

Eric Wallace、Olivia Watkins、Miles Wang、Kai Chen及Chris Koch

繼續閲讀

查看全部

GPT-Red: Unlocking Self-Improvement for Robustness

安全2026年7月15日

GPT-5.5 生物漏洞賞金計劃

安全2026年7月9日

在編碼評估中分辨訊號與雜訊

研究2026年7月8日