从硬性拒绝到安全完成:迈向以成果为导向的安全训练
在 GPT‑5 中引入的安全完成是一种新的安全训练方法,可在确保安全约束的前提下最大化模型的有用性。与基于拒绝的训练相比,安全完成方法在安全性和有用性方面均有提升,尤其在双重用途领域表现更为显著。
如果用户向 ChatGPT 询问点燃烟花汇演所需的最小能量,它会给出有用的答案吗?用户可能是为了准备 7 月 4 日的烟花汇演,或是为学校的研究项目做准备……也可能是为了制造爆炸物。因此,根据用户(显而易见的)意图,提供有帮助的回答可能并无害处,也可能带来负面影响。这种提示具有双重用途:一个意图不明确的问题,其中的信息既可以用于良性目的,也可以用于恶意目的。在生物学和网络安全等高风险领域,双重用途的问题尤为突出。
过去,如 ChatGPT 这样的生成式模型依赖于基于拒绝的安全训练:根据用户的提示,模型应选择完全遵守或拒绝。虽然这种训练方式对于明显有害的提示效果显著,但在处理如烟花爆竹这类具有双重用途的提示时可能会遇到困难。在这种情况下,经过拒绝训练的模型会根据它对提示的危害程度做出二元决策——要么完全遵守(如果用户想恶意使用这些信息,这可能很危险),要么拒绝并说“对不起,我无法帮助您”(如果用户真的想搞定他们的烟花表演,这可能毫无帮助)。
对于 GPT‑5,我们引入了一种新的安全训练形式——安全完成,它教导模型在尽可能提供有益回答的同时,始终坚守安全边界。我们发现这种方法更为细致入微,有助于更妥善地处理双重用途问题。
提示
OpenAI o3(拒绝训练)
GPT-5(安全完成训练)
OpenAI o3 和 GPT‑5 在收到一个关于燃放烟花说明的双重用途提示后做出了回复。经过拒绝训练的 o3 在意图理解上出现了偏差:它误以为提示是善意的,因此完全按照问题要求执行。相比之下,使用安全完成数据集训练的GPT‑5会解释为何无法完全遵守要求,随后仅提供高层次的指导,建议查阅相关手册。
安全完成使安全训练重新聚焦于模型输出的安全性,而非根据用户的输入来确定拒绝边界。具体来说,这是通过两个训练参数来实现的:
- 安全约束:在后训练过程中,安全完成奖励会对违反我们安全政策的模型回复进行处罚(违规越严重,处罚力度越大)。
- 帮助最大化:为了确保模型的安全回复,我们基于其有用性程度对模型进行奖励:要么直接根据用户明确表述的目标,要么间接地通过提供有建设性的拒绝,同时给出有用且安全的替代选项。
我们在 GPT‑5(包括推理和聊天模型)中融入了安全完成功能,并发现与基于拒绝的训练方法相比,安全完成训练同时显著提升了安全性和有用性。为了与 o3 进行公平比较,我们报告了 GPT‑5 Thinking 与 o3 的性能对比情况。 在对比生产模型与对照实验时,我们发现安全完成尤其适用于涉及双重用途的问题。下图对安全回复的安全性得分和平均有用性得分进行了比较。
基于意图的安全回复在安全性和实用性方面的表现。(OpenAI o3 与 GPT‑5 Thinking,标记为 gpt5-r)。GPT‑5 Thinking 在安全性和实用性方面均优于 OpenAI o3。
通过放弃遵守/拒绝的二元决策,安全完成训练鼓励我们的模型在处理潜在不安全内容时采取更保守的态度,即使它们确实遵守了规则。在我们的实验中,我们发现,当安全完成模型确实出现错误时,其产生的不安全输出的严重程度要低于经过拒绝训练的模型所产生的不安全输出。
不安全回复的危害严重性分析(o3 与 GPT‑5 Thinking,标记为 gpt5-r)。GPT‑5 Thinking 相比 o3 犯错的严重性更低。
人们很容易在有用性和安全性之间做出权衡——如果一个模型拒绝所有请求,那么它就是安全的。但我们希望我们的模型既安全又实用。核心的研究挑战在于如何同时优化这两个目标。对于 GPT‑4,我们开发了基于规则的奖励机制,作为一种在有用性和安全性之间进行权衡的方法。现在,对于 GPT‑5 而言,安全完成又向前推进了一步,它利用 AI 日益增强的能力,更深入地融合了这两个目标。我们认为,对模型回复安全性的关注为应对未来日益复杂的安全挑战奠定了坚实基础。我们计划继续这一研究方向,以训练模型更好地理解具有挑战性的情况,并使其能够以更细致和谨慎的方式做出回复。


