在发布新模型之前,实验室不仅需要了解它能做什么,还需要了解它在真实使用中可能如何表现,包括它可能引入哪些新风险。随着能力增强,这一点变得更加重要。作为部署前安全审查的一部分,我们利用有针对性的评估、红队测试和其他检查来了解模型行为。我们现在已经开始使用一种在模型部署发生前进行模拟的方法,它增加了一个互补信号:在候选模型到达用户之前,以类似部署的方式预览其可能的行为。
部署模拟是一种在未来部署发生前对其进行模拟的方法。我们通过以保护隐私的方式,用新的候选模型重放以往对话来实现这一点。这使我们能够在发布前研究新模型在真实语境中的响应,包括是否会出现新的不良行为,以及它们可能出现的频率。
在多个 GPT‑5 系列 Thinking 部署中,部署模拟改进了我们对不良模型行为发生率的估计,帮助在发布前发现新的失准形式,并有助于降低模型识别出自己正在被测试的风险。我们还将该方法应用于具有挑战性的智能体式推出,表明它可以从标准聊天扩展到涉及工具使用的更复杂智能体环境,也可用于内部模型部署前的风险评估。
我们已经在模型开发过程中利用部署模拟带来的洞察,识别传统评估中的盲点,并为缓解措施和部署决策提供依据。随着我们让这条流水线更易运行,我们预计它将在未来模型开发流程中发挥更大作用。
行业内使用的部署前评估通常由合成提示、人工编写提示或生产提示混合而成,并被有意选择为困难、高严重性或对抗性的提示。这些评估通常有两个相互交织的目标:评估模型在部署流量中发生概率极低的情境下接受压力测试时会如何响应;以及获得对不良模型行为的总体理解,包括发现新的不良行为并预测其部署时频率。
虽然传统评估对于第一个目标仍然至关重要,但对于非尾部风险的第二个目标,部署模拟代表了重要进展(在我们的实验中,不能指望该方法测量发生频率低于每 200,000 条消息 1 次的行为)。部署模拟的优势来自于绕开传统评估的一些核心挑战:
- 覆盖范围:很难确信评估提示会覆盖所有可能类型的不良模型行为。衡量新类型的不良行为需要创建新的评估,并知道要衡量哪些危害。这可能耗时且耗费人力,评估也可能随时间推移而饱和。
- 选择偏差:传统评估通常围绕特定不良模型行为构建,其选择方式会偏向此前已经出现过的语境。这可能使它们对这类行为在完整部署分布中的发生率估计信息量不足。
- 被模型识别为测试:模型越来越能够判断自己正在被测试,这可能扭曲其行为以及我们随后对其安全性的测量。虽然我们在 OpenAI 使用的许多传统评估也来自生产流量,因此不受此问题影响,但这仍是行业内许多传统评估的常见担忧。
部署模拟背后的主要技术很简单:我们从部署中提取近期对话,移除旧模型原本的助手响应,并用待发布的候选模型重新生成该响应。我们通过搜索新的失败模式来评估补全,并基于这种类似部署的分布中的频率来估计部署时不良行为频率。我们可以在发布后对真实部署流量执行相同测量,从而验证部署前预测。
部署模拟显著缓解了上述三个限制:通过使用代表近期使用情况的评估提示分布来解决采样偏差。使用代表性提示的部署模拟也可以缓解对覆盖范围的担忧:只需模拟更多流量,我们就能更广泛覆盖不良模型行为。这种计算量与覆盖范围之间的权衡很重要,因为它让这一风险评估维度的质量随计算量扩展,而不是随构建更多评估所需的人工工作量扩展。模型似乎也无法区分通过部署模拟获得的对话和真实部署流量。
图 1:我们的部署模拟流水线概览
领域 | 传统评估 | 部署模拟 |
覆盖范围 | 更适合我们希望确保覆盖的低流行率但高严重性风险 | 更适合理解我们可能在部署流量中看到的风险谱系 |
代表性 / 偏差 | 专注于评估有针对性的过去或预测风险,即使这些行为在部署中的流行率极低 | 代表当前部署流量中发生率高于某一阈值的风险 |
评估意识 | 除非用部署数据创建评估,否则可能存在明显的测试线索(例如合成数据) | 类似部署的语境似乎能显著缓解评估意识 |
工作量 | 自定义提示分布和设置需要多得多的人工工作 | 需要一次性基础设施成本,之后可复用部署前缀和针对已知不良行为的评分器 |
传统评估与部署模拟的高层比较
为评估部署模拟,我们预先注册了对 GPT‑5.4 Thinking 的 20 类不良行为部署时频率的预测。我们还在 GPT‑5 系列其他 Thinking 模型部署中开展了回顾性研究。我们分析的模型行为涵盖失准和不允许内容类别,这些类别一直在系统卡中报告(例如模型谎称使用了工具,或输出不允许的性内容)。虽然在这些结果中,我们只跟踪 20 类不良模型行为,并且只寻找新的失准行为,但部署模拟是一种通用技术,可用于模拟任何部署时模型属性。
我们利用的生产流量也来自 GPT‑5 系列 Thinking 模型。在运行评估之前,我们自动移除了与账户关联的标识符和可识别信息。根据我们的隐私政策,我们只分析允许其数据用于模型改进的用户的 ChatGPT 流量。我们仅报告这些评估的汇总结果。总体而言,我们分析了从 GPT‑5 Thinking 到 GPT‑5.4 部署期间约 130 万条去标识化对话,时间跨度为 2025 年 8 月至 2026 年 3 月。
我们主要通过三种方式评估部署模拟产生的部署前风险评估质量:
- 分类体系覆盖:发布后审计是否发现了初始不良行为分类体系中缺失的重要失准行为?
- 方向准确性:模拟是否正确预测了已知行为在部署中的流行程度会上升还是下降?
- 发生率校准:我们的部署前估计是否接近后来在部署中观察到的发生率?实现良好的发生率校准需要的不只是方向准确性,因此这是可能达到的最高质量标准。
我们还衡量模型在部署模拟期间能够多大程度上意识到自己处于评估中,并测试该方法对不同形式部署流量以及具有挑战性的工具使用环境有多稳健。
在 GPT‑5 系列 Thinking 部署中,部署模拟在确定实际风险发生率方面优于挑战性提示基线,能够在发布前发现计算器作弊 (calculator hacking),并且在模型看来可能与部署无法区分。
我们的预测概览。有关 GPT‑5 系列 Thinking 模型部署所有预测的可视化,请见图 2。GPT‑5.4 Thinking 的预测经过预先注册,其他预测则是回溯性预测。总体来看,我们预测的中位乘法误差为 1.5x(例如,如果不良行为率为每 100k 条 10 次,这相当于估计为每 100k 条 15 次或 6.67 次)。虽然我们方法的尾部误差可能大约大 10 倍,但正如下文所述,我们预计通过进一步改进模拟流水线,可以显著降低这些误差。
图 2。基于先前部署数据,对部署时不良行为频率进行的部署模拟预测。记号 5.1 → 5 表示我们用 GPT‑5.1 对来自 GPT‑5 的前缀进行重采样,也就是基于 GPT‑5 的数据模拟 GPT‑5.1 的部署。GPT‑5.1 中失准行为发生率最高的是“计算器作弊 (calculator hacking)”,我们此前已经讨论过这一点(在新窗口中打开)。
将部署模拟预测与基线比较。对于部署前风险评估,最重要的是正确估计那些在模型部署后发生率变化较大的类别(例如 >= 1.5x)。在这一子集上,部署模拟在预测某种不良行为随模型部署其流行程度会上升还是下降方面(图 3 左),以及估计其精确部署时发生率方面(图 3 右),都显著优于基线。我们使用两个主要基线:一个是我们目前用于系统卡和发布决策的挑战性提示基线,另一个是将上一次部署的发生率作为新模型估计值的朴素基线。
图 3。部署模拟在预测发生率变化方向(左)和精确生产发生率(右)方面都优于静态评估。
我们流水线中的模拟误差来源。我们还研究了当前流水线中的误差来源。具体而言,较大的尾部误差会降低流水线对部署决策的可信度:例如,当看到某类不良行为被预测会大幅增加时,如果已知流水线即使偶尔也会出现大误差,就会让人怀疑这是可靠估计还是流水线造成的假象。可能的误差主要有两个来源:
- 重采样环境保真度误差:为准确估计生产发生率,我们的模拟流水线需要尽可能真实。这部分是工程问题(使用与生产流量相同的流水线从模型采样),部分也是工具面临的有趣挑战:这些工具需要对不断变化的外部资源具有读/写访问权限(例如网络搜索或与本地文件交互)。我们可以通过比较实际部署与其模拟的预测来分离模拟保真度误差(也就是模拟已经部署的模型的部署)。
- 提示分布偏移误差:部署模拟的一个主要担忧是,任何模型的部署都会导致输入发生分布偏移,尤其是在用户适应新模型能力时。我们通过比较使用近期提示模拟部署与使用实际部署中的提示模拟部署时的估计,来分离提示分布误差。
如图 4 所示,我们发现目前流水线中很大一部分误差,尤其是尾部误差,来自模拟保真度。这是个好消息,因为我们预计提升模拟保真度通常比减少提示分布偏移更容易。我们还发现,使用上一次部署中最新的数据可能会降低提示分布偏移误差。更多细节可见研究论文。
图 4:重采样环境保真度似乎是我们估计中最大的误差来源,尤其是在最极端的误差中。
自动审计发现了这些部署中引入的一个新失准行为。在我们研究的部署窗口中,基于模拟部署的自动审计流水线本可在发布前发现“计算器作弊”,这是我们在所分析的 ChatGPT 流量中识别出的唯一新型失准。计算器作弊 (calculator hacking) 是一种奖励黑客行为 (reward hacking),指模型把浏览器工具当作计算器使用,同时将该操作呈现为搜索。这并不意味着大规模审计会捕捉到每一个新失败,但它说明了真实语境为何重要:它们能够引出更窄的评估集可能永远无法直接呈现的行为,即使这些行为并不存在于用于启动模拟的原始流量中。
使用类似部署语境的另一个优势是,它们可能减少模型意识到自己正在被测试时产生的扭曲。在先前研究中,我们以及其他人(在新窗口中打开)发现,模型经常知道自己何时正在被测试。例如,模型可能在其思维链中推理自己正在接受什么测试、评估者可能喜欢什么,以及——如果它们行为不当——是否会被抓住。这给对齐评估带来了一个问题:如果模型只是因为认为自己正在被测试才表现良好,我们如何建立信心,确认它一旦知道自己已被部署后仍会安全行事?
我们表明,相对于不基于真实部署数据的传统评估,部署模拟显著降低了模型表现出的评估意识水平。我们以三种方式衡量评估意识:让模型分类一条轨迹来自生产还是评估;监控思维链中关于正在接受对齐评估的明确陈述;以及监控元博弈(在新窗口中打开):任何关于监督的推理。在这三项指标上,模拟部署流量与真实部署流量非常接近。例如,GPT‑5.2 将真实生产流量标记为类似评估的比例为 5.4%,将模拟流量标记为类似评估的比例为 5.1%;而传统评估(如 SWE-Bench 或 MonorepoBench,主要由合成示例组成)几乎 100% 被归类为评估。
图 5。评估意识比较:真实生产流量和模拟流量在评估检测、口头表述的对齐评估意识和元博弈方面显示出相似比率,而传统评估数据集报告的比率高得多。
为测试该方法能否扩展到标准聊天模式之外,我们还研究了在具有挑战性的智能体编程环境中模拟部署。具体而言,我们使用来自 GPT‑5.4 的 120,000 条内部员工智能体轨迹,来模拟基于 GPT‑5.5 的编程智能体内部部署。这有两个目的:说明部署模拟也可用于内部部署的风险评估,并证明通过谨慎的工具模拟,即使在智能体环境中也可以实现较高的模拟保真度。
上文我们讨论过,模拟保真度是当前流水线的主要误差来源之一。让部署模拟变得真实的挑战之一,是它要求工具以真实方式行动,即使它们需要对不断变化的外部资源具有读/写访问权限(例如网络搜索或与本地文件交互)。
对于智能体部署等环境,这尤其具有挑战性:单个智能体轨迹可能依赖数百次工具调用、代码仓库状态、网络响应或瞬时故障。这使得使用真实工具访问进行重采样既困难又可能危险。鉴于此,我们没有将工具调用应用到实时系统,而是用另一个 LLM 来模拟它们。我们表明,赋予这个 LLM 额外能力对于真实性乃至估计质量至关重要。
我们向工具模拟器模型提供原始最后一轮执行轨迹、对话发生时的代码仓库、工具调用/响应对数据库以及只读连接器。在一项让判别器尝试区分模拟推出和真实推出的测试中,真实性从 11.6% 的胜率提升到 49.5%,接近 50% 的随机水平。
图 6:在工具密集型环境中,通过模拟工具调用并增加能力,可以让重采样真实性几乎与真实采样无法区分。
作为模拟保真度的额外证据,当用 GPT‑5.4 模拟 GPT‑5.4 Codex thinking 流量时,失准率大致落在误差条范围内。相比之下,在我们的部署前测试中,GPT‑5.5 在大多数类别上更失准。
图 7:通过工具模拟,用 GPT‑5.4 重采样的对话行为率与实际 GPT‑5.4 生产流量非常相似,表明重采样环境保真度较高。有关这些类别的更多背景,请参阅GPT‑5.5 系统卡(在新窗口中打开)。
这些结果表明,当周围工具环境以足够高的保真度进行模拟时,部署模拟可以扩展到复杂的智能体环境。
一个自然的问题是,外部审计者能否在无法访问私有生产流量的情况下获得一些相同收益。我们用 100,000 条 WildChat 对话作为前缀对此进行了测试。WildChat 不如近期 OpenAI 生产数据准确,但仍有信息价值:近期生产数据的平均乘法误差低于 WildChat(1.75× 对 2.44×),而 WildChat 通常仍在生产发生率约 3× 范围内,并能以高于随机的比率识别出更好的模型。我们认为 WildChat 风格的评估是对开发者运行的部署模拟的有前景补充。关于这一点的更多结果,请参阅这篇配套的Alignment 博文(在新窗口中打开)。
部署模拟是对对抗性评估、红队测试和有针对性的尾部风险分析的补充,而不是替代。对某些不良模型行为的检测依赖于思维链的可监控性:如果未来模型的推理可读性降低、省略关键步骤,或学会掩盖意图,我们可能无法检测这些形式的不良行为。此外,由于生产数据是私有的,开发者目前比外部审计者更容易访问代表性语境。更好的公开数据集可以缩小这一差距。
部署模拟最适用于出现频率足以在采样前缀中出现的行为。一次发生在一千万次对话中的失败,不太可能在一百万样本的运行中被发现,因此对抗性评估、红队测试和有针对性的尾部风险分析仍然必要。我们目前专注于模拟单个助手响应,因为在初步实验中,模拟多轮并未显著改进我们的估计。这可能是未来提升模拟保真度的一个重要方向。
该方法还依赖前缀分布,即被重采样的对话组合。在重大产品变更、新工具发布、世界事件或季节性变化之后,历史流量可能无法匹配用户与能力更强模型的交互方式。完整论文中的分析表明,使用可获得的最新数据可以缓解这一问题。
部署模拟是一种新的部署前风险评估方法,帮助前沿实验室和评估者在部署前预测语言模型在真实世界中的行为,并了解它们带来的风险。它通过增加一个更接近生产环境的预测层,补充现有安全评估、红队测试和有针对性的分析,从而改进对部署行为的估计,降低评估意识效应,并使部署前预测在发布后可被检验。与传统评估结合使用时,部署模拟可以帮助模型风险评估变得更真实、更量化,并对部署决策更有用。


