我们推出 gpt-oss-120b 和 gpt-oss-20b 这两款开放权重推理模型,可在 Apache 2.0 许可证和 gpt-oss 使用政策下使用。在开源社区反馈的基础上开发的这些纯文本模型与我们的 Responses API 兼容,旨在在具备强指令遵从、工具使用(如网页搜索和 Python 代码执行)以及推理能力的代理式工作流中使用,其中还包括可针对不需要复杂推理的任务调整推理力度的能力。模型可定制,支持完整的思维链 (CoT) 并可输出结构化结果。
安全是我们开放模型方法的基石。它们相比专有模型具有不同的风险特征:一旦发布,决心坚定的攻击者可能对其进行微调以绕过安全拒绝,或直接将其优化用于恶意目的,而 OpenAI 将无法实施额外的缓解措施或撤销访问权限。
在某些情况下,开发者和企业需要实施额外的防护措施,以复制通过我们的 API 和产品提供的模型中内置的系统级保护。我们将此文档称为“模型卡”而非“系统卡”,因为 gpt-oss 模型将被用于由各类利益相关者创建和维护的众多系统之中。尽管这些模型默认被设计为遵循 OpenAI 的安全政策,但其他利益相关方也会就如何保障这些系统的安全做出并执行自己的决定。
我们对 gpt-oss-120b 进行了可扩展能力评估,并确认默认模型在我们的 Preparedness Framework 跟踪的三大类别(Biological and Chemical capability、Cyber capability 以及 AI Self-Improvement)中都未达到我们设定的高能力参考阈值。我们还研究了另外两个问题:
- 对抗性攻击者是否可以通过微调 gpt-oss-120b,使其在 Biological and Chemical 或 Cyber 领域达到 High capability?通过模拟攻击者的潜在行动,我们对 gpt-oss-120b 在这两类场景下进行了对抗性微调。OpenAI 安全咨询小组(“SAG”)审查了此次测试并得出结论:即便使用 OpenAI 行业领先的 training stack 进行深入微调,gpt-oss-120b 也未能在 Biological and Chemical Risk 或 Cyber risk 领域达到 High capability。
- 发布 gpt-oss-120b 是否会显著推动开放基础模型在生物能力方面的前沿?我们的结论是:不会。在大多数评估中,某些现有开源模型的默认性能几乎与 gpt-oss-120b 经对抗性微调后的性能相当。
作为此次发布的一部分,OpenAI 重申其致力于推动有益的人工智能,并提高整个生态系统的安全标准。


