2025年8月5日

开放权重大型语言模型 (LLM) 的最坏情况边界风险评估

摘要

本文研究了发布 gpt-oss 所面临的最坏情况边界风险。我们引入了恶意微调 (MFT)，通过在生物学和网络安全两个领域对 gpt-oss 进行微调，以激发其最大能力。为了全面评估生物风险 (biorisk)，我们构建了威胁生成相关任务，并在基于网络浏览的强化学习 (RL) 环境中训练 gpt-oss。为了全面评估网络安全风险，我们在基于智能体的编码环境中训练 gpt-oss，以解决夺旗 (CTF) 挑战。我们将这些恶意微调 (MFT) 模型与开放及封闭权重大语言模型在前沿风险评估中进行对比测试。与前沿封闭权重模型相比，MFT gpt-oss 的性能低于 OpenAI o3，后者在生物风险和网络安全方面的准备度能力水平低于“高”级别。与开放权重模型相比，gpt-oss 可能在生物能力方面有微小提升，但并未在前沿领域取得实质性进展。综合这些结果，我们决定发布该模型，并希望我们的 MFT 方法能为评估未来开放权重模型发布带来的危害提供有用指导。

2025 年

作者

Eric Wallace、Olivia Watkins、Miles Wang、Kai Chen、Chris Koch

继续阅读

查看全部

GPT-Red: Unlocking Self-Improvement for Robustness

安全2026年7月15日

GPT-5.5 生物安全漏洞赏金计划

安全2026年7月9日

剥离编程评估中的噪音，提取真实信号

研究2026年7月8日