本文研究了发布 gpt-oss 所面临的最坏情况边界风险。我们引入了恶意微调 (MFT),通过在生物学和网络安全两个领域对 gpt-oss 进行微调,以激发其最大能力。为了全面评估生物风险 (biorisk),我们构建了威胁生成相关任务,并在基于网络浏览的强化学习 (RL) 环境中训练 gpt-oss。为了全面评估网络安全风险,我们在基于智能体的编码环境中训练 gpt-oss,以解决夺旗 (CTF) 挑战。我们将这些恶意微调 (MFT) 模型与开放及封闭权重大语言模型在前沿风险评估中进行对比测试。与前沿封闭权重模型相比,MFT gpt-oss 的性能低于 OpenAI o3,后者在生物风险和网络安全方面的准备度能力水平低于“高”级别。与开放权重模型相比,gpt-oss 可能在生物能力方面有微小提升,但并未在前沿领域取得实质性进展。综合这些结果,我们决定发布该模型,并希望我们的 MFT 方法能为评估未来开放权重模型发布带来的危害提供有用指导。
作者
Eric Wallace、Olivia Watkins、Miles Wang、Kai Chen、Chris Koch


