跳至主要内容
OpenAI

2026年5月29日

安全

可信第三方评测的共享指南

前沿模型的防护与能力要实现有效独立评测,关键在于什么。

正在加载…

独立、可信的第三方评测在强化安全生态方面发挥着关键作用。这些评测针对前沿模型开展,为有关关键能力和安全缓解措施的主张提供额外证据。在本文中,我们分享迄今为止总结的经验,并建议一些评测设计方法,以有效评估前沿模型;我们希望这些建议能为该领域正在形成的标准提供参考。

早期,许多评测把模型当作聊天机器人:评测像用户提问一样向模型发出提示,模型作答,再由评估者判断输出。如今的前沿模型能做得更多:它们可以使用工具、在多步过程中跟踪信息,并在更大的工作流中采取行动。这意味着,表现不仅取决于模型本身,还取决于任务发生的环境,以及促成其行动的设置。我们将这种外围设置称为“harness”,它会改变系统表现的关键方面,包括如何使用工具、跟踪信息或从错误中恢复。

对比提示-响应工作流与智能体任务工作流的示意图,展示控制循环、工具、上下文、预算和防护措施如何支持自主任务执行。

这改变了评测应如何开展,也改变了读者在评测报告中应关注的内容。在我们看来,最有用的报告会在结果本身之外明确说明两点:第一,评测设置旨在检验什么主张;第二,有哪些可用证据表明评测结果有效。

评测中检验的主张通常分为三类1

  • 能力引出:模型是否有可能展现出被评估的能力?
  • 防护表现:针对被评估的行为或攻击,所测试的防护措施有多稳健?
  • 比较:不同模型在等效条件下表现如何?

评测报告还需要说明,评估者如何检查那些可能影响结果有效性的因素。这些包括:

  • 奖励黑客:利用任务或评分器中的捷径,让系统在未展示评测本意要衡量的行为时也获得分数。
  • 拒答:以掩盖被测试行为的方式拒绝作答。
  • 污染:由于评测任务、答案或近似变体出现在训练数据中,或可在评测期间被发现(例如通过浏览),而导致表现偏高。
  • 失效题目:由于任务本身无效而表现偏低。原因可能包括不公平的评分(例如正确答案依赖未说明的实现细节)以及无法求解的环境(例如缺少关键文件或工具不可靠)。
  • 故意隐藏实力:在表现出自己知道正在被评估时,故意表现不佳。

为评测选择合适的 harness 对获得最佳结果至关重要

我们观察到,对于沿着更长轨迹行动的系统,harness 的作用尤为重要。当模型能够使用工具、维护状态并在多步过程中从错误中恢复时,harness 会改变观察到的表现水平,甚至决定被评估的能力是否会在评测中显现。例如,能够保留状态并重试失败操作的 harness,可能让某个模型完成多步任务,而同一模型在更简单的 harness 中永远无法完成。

在下表中,我们区分了评估者可能希望提出的三类主张,以及我们认为每类主张所需的 harness。

评测试图支持的主张

合适的 harness 选择

应报告的证据

强引出下的能力:当设置旨在引出系统最强且可信的表现时,系统 A 能完成 X 类任务。

应为该系统采用最强且可信的引出设置,包括有能力的用户合理会使用的 harness、工具、脚手架和预算。

Harness 与工具设置、引出指导、允许的预算/投入、Token/成本/时间,以及为何该设置可作为所主张能力的可信代理。如果是在不同优化设置下比较系统,应标注为系统间比较或强引出比较。

受控比较:在共享评测设置下,系统 A 的表现优于系统 B。

保持任务、评分和预算固定。应使用共享的 harness/工具设置,或预先选定的一组固定标准化 harness,以便为被比较系统提供合理的最大化引出。

共享任务集、工具、评分方法、harness、预算、Token 效率/成本,以及已知局限。对于编码智能体评测,像 Codex CLI 这样的开源 harness 可在不同系统间提供固定的智能体循环和工具接口。最大化引出的理想方法,是为每项任务和每个系统分别优化定制 harness,但目前在实践中并不可行。

引出式攻击下的防护稳健性:系统 A 的防护措施足以应对相关模型行为或引出的攻击。

应使用专为在相关对手模型下引出最强且可信攻击而设计的防护测试设置。

评估者如何刻画相关模型行为、所测试的防护配置、引出策略、用于执行该策略的 harness,以及允许的预算或投入。

能力主张的强度取决于其背后的引出方式:评估者需要选择最适合任务以及评测试图衡量之能力的 harness。 标准化 harness 可能适合在相同条件下比较系统,但如果它遗漏了有助于模型完成任务的特定 harness 功能,就可能低估能力。例如,GPT‑5.5 在 OpenAI 网络靶场上的表现表明,对于需要长时间、多步骤使用工具的任务,harness 的选择会实质性改变测得的能力:当 harness 使用压缩来在交互变长时保留与任务相关的上下文,模型表现更好。这说明,对某些模型而言,省略压缩的 harness 会导致能力引出不足。

成功率越高越好

其他已发布的评测2也表明,harness 和预算选择会改变评估结果。增加测试时算力会显著改变评测所引出的能力,尤其是在成功容易验证的领域,例如许多网络安全任务。在英国 AISI 的网络靶场评测(在新窗口中打开)中,将预算从 1000 万 Token 提高到 1 亿 Token,使表现最高提升了 59%,且在测试的最高预算下表现仍在继续上升。说明这些细节会让评测更易解释:它能让读者看到结果如何依赖于所测试的引出设置。如果随着额外预算增加,表现仍在提升,那么该分数应被描述为在该 harness 和预算下的表现,而不是测得的能力上限。能力往往依赖资源,而不是一种可以一劳永逸清晰测定的固定量。在可通过重复尝试衡量成功的场景中,报告还应考虑每次成功解决的预期成本,而不仅是固定 Token 预算下的成功率。这会让严重性更易解释:如果重复尝试的成本仍在相关威胁模型范围内,那么即使成功率较低,也可能具有现实意义。对于能力主张,可避免的引出不足属于测量失败:如果 harness 或预算阻止系统展现其本可产生的行为,那么该分数就没有测量所主张的能力。如果评估者已在可行范围内尽可能推进引出,而表现仍在提升,报告应明确说明这一点,并清楚表明结果只是下界估计。

如果不考虑攻击者可用的资源,包括定制 harness,防护测试就可能低估攻击能否成功以及其严重程度。英国 AISI 对 GPT‑5.5 的网络安全评测(在新窗口中打开)中,他们的专家红队发现了一种通用越狱方法,可在 OpenAI 提供的恶意查询中引出违规网络安全内容,包括多轮智能体场景。他们使用 Codex 创建了一个定制 harness,以增强模型的攻击表现:它将一种可复用的防护绕过模式嵌入交互中,在多轮和多个区块间保留该模式,并将其应用于 OpenAI 提供的恶意网络安全查询。防护测试应与对手相匹配。如果主张涉及对专家级滥用的稳健性,测试就应在既定预算下评估最强且可信的端到端攻击策略,包括为保留和复用该策略所需的任何 harness。否则,结果就有失准风险:它们可能只支持一个更狭窄的主张,即对更简单提示方式的抵抗力;也可能错过当引出方法被操作化后,攻击会变得多严重以及其成功概率;如果给出的预算过多,也可能夸大问题发生的可能性或严重性。

标准化 harness 比较自有其适用场景,但评估者应明确说明为何使用一致的一组 harness 是合适的,以及它能支持什么主张。METR 的时间跨度评测(在新窗口中打开)就是一个更广泛且恰当固定的评测设置示例:它旨在为所评估的系统产出可比较的结果。METR 定义了一个共同结果,即 AI 智能体在给定可靠性水平下预计能够成功完成的人类任务典型时长。它在每批一同报告的估计中,采用共享任务集、评分方法、拟合方法,以及一小组可复用脚手架,如 Triframe 和 ReAct(在新窗口中打开)。当 METR 扩展任务集,并将评测基础设施从名为 Vivaria 的框架迁移到名为 Inspect 的框架时,它报告了这一变化(Time Horizon 1.1 更新(在新窗口中打开)),并在新的评测设置下重新评估了模型。这正是标准化评测设置(包括一致的 harness 集合)的价值:它能让读者相信,分数差异确实反映了被比较系统之间的差异,而不是测量设置发生了变化。

我们建议第三方评测报告说明其评测设置旨在支持哪类主张;描述所测试内容与该更广泛主张的贴合程度;说明塑造结果的 harness 选择;详细说明这些选择何时在不同评测间发生变化;并纳入支持性证据,展示结果是如何产生的,以及它对该主张的泛化程度如何。

通过检查已知风险来评估有效性,这些风险可能扭曲结果

随着模型能力增强,评测分数也更容易被误读。相对于真实能力,如果模型识别出自己正在被评估并策略性地表现不佳,评测分数可能被人为压低。如果模型利用任务、提示、评分器或 harness 中的捷径,分数也可能被抬高。污染(模型在未解决任务的情况下已知道或能找到答案)以及“失效”题目——即含糊、评分错误、无法求解或容易被非预期捷径利用的问题——也会扭曲结果。因此,评测报告应将醒目的分数与对这些风险的讨论配套呈现,以便读者判断分数是否反映了预期行为。

Harness、预算、工具、评分规则、监控器和审查流程,都会影响智能体究竟是在解决预期任务、规避任务、记住答案,还是找到了绕过路径。可信的报告会让这些检查可见:每次开展评估时,评估者都应审查样本中是否存在这些行为。

奖励黑客

奖励黑客是指以不能反映预期能力的方式获得高评测分数。这里的担忧在于,系统是通过利用任务、评分器、提示或 harness,而不是通过完成评测本意要衡量的工作来获得分数。METR 对 GPT 5.4 的评测(在新窗口中打开)说明了这一点为何重要:尽管模型在任务上的成功率初看相当于大约 13 小时的时间跨度,但人工审查显示,其中一些成功来自奖励黑客;在仅保留无奖励黑客实例后修正结果,估计值降至约 6 小时。评估者应评估是否需要此类调整;若确有需要,应清楚报告:当读者能看到哪些表面成功被取消资格、为何被取消,以及结果在多大程度上依赖这一判断时,能力估计会更有用。

显示 AI 模型性能随时间变化的图表,包含趋势线和置信区间。

拒答

由于防护措施,模型在能力评测中的表现也可能偏低。模型的评测表现可能低于其实际能力,因为它拒绝完成评测任务,而不是将其完成。因此,报告应说明拒答是否构成评测结果的一部分;如果是,还应说明有多少样本因此受到影响。

污染

污染问题对公开或重复使用的基准最为重要。如果任务、答案或近似变体出现在训练数据中,或能被具备浏览能力的智能体找到,那么表现反映的可能是记忆或检索,而非模型能力。评估者应尽可能优先使用私有或新构建的任务,并在求解前测试模型是否会复现任务特定细节。

失效题目

失效题目包括诸如某个问题因意外而根本无法求解等情况。失效题目相当常见(在新窗口中打开),应被视为一种标准的有效性风险。这包括错误的标准答案、含糊的提示、缺失文件、不稳定的服务、不公平的评分标准,以及暴露捷径的环境,例如隐藏的答案文件或包含标准答案补丁的代码仓库历史。

故意隐藏实力

模型或系统的藏拙,是指当强表现会与某种目标冲突时,策略性地表现不佳。Apollo 的GPT‑5.5 评测(在新窗口中打开)通过构造一种情境来测试这一点:模型理解到,高评测分数可能触发反学习或阻止部署。GPT‑5.5 仍然给出了正确答案,这表明几乎没有策略性表现不佳的行为证据3。但他们对推理轨迹的审查补充了重要背景:Apollo 发现,在藏拙条件样本中,52% 出现了中等或更高程度的对齐评测感知迹象,而在反事实样本中这一比例为 0%。这些证据让结果的解读更复杂,但最终也为读者提供了更多信号:读者既能看到令人安心的行为结果,也能看到为何应谨慎避免过度解读。

我们如何支持更强的评测

强有力的主张既需要合适的 harness 来引出相关行为,也需要有效性检查来证明结果可靠。我们认为 harness 和有效性检查都是评测结果的一部分,这一观点也塑造了我们在实践中支持第三方评测的方式:

  • 我们正在向评估者分享具体的最大化引出指导。
  • 我们要求能力评估者将 Codex 用作 OpenAI 模型的共同基线:测试至少应通过用户很可能依赖的同一智能体接口运行一个基线,而不应只通过精简后的模型接口进行。
  • 我们还会在评估欺骗、藏拙或评测感知所需时,提供推理轨迹和其他中间产物。自 GPT‑5 起,METR 和 Apollo 已在 OpenAI 评测中使用了这种访问权限。
  • 最后,我们正优先开展研究,更深入理解 harness 选择何时以及如何实质性改变结果,涵盖从上下文管理、工具访问到重试行为、评分和资源预算等方面。

这对评测标准和未来研究方向意味着什么

这些建议不仅旨在改进单项评测报告,也希望为前沿 AI 评测与报告领域正在形成的国家(在新窗口中打开)国际(在新窗口中打开)标准提供参考。展望未来,第三方评测标准应要求提供足够细节,使决策者能够理解具体评测支持什么主张、测试了什么系统、结果是如何被引出的,以及评估者如何检查其有效性。对于在智能体能力至关重要的任务上测试前沿系统,细节应包括(在不涉及安全或保密问题的前提下):

  • 主张:评测是在比较系统、估计能力上限,还是测试防护措施。
  • 评测内容:提供足够多关于任务或任务分布的细节,使读者理解评测实际测试的是哪些技能、行为或失效模式。
  • 被测系统:模型、推理设置、工具访问、harness 和防护措施。
  • 预算:轮次、Token、尝试/重试次数、实际耗时、推理成本,以及在适用时每次成功解决的预期成本。
  • 引出方法:用于引出结果的 harness 选择,以及所测试内容与更广泛主张之间的贴合程度。
  • 有效性检查:评估者如何查找奖励黑客、评测感知、污染、拒答、藏拙及其他可能削弱结果的行为,包括已确认案例如何影响评分或解读。

忽略 harness 选择或有效性检查的标准,可能低估系统能力,或高估对安全主张的信心。构建强健的 harness 和引出方法仍是一个开放研究领域,应成为进一步研究和投入的重点。

作者

OpenAI

术语表

由于本文使用了不少专业术语,我们在下方附上了术语表,用通俗语言解释这些术语所指的内容:

  • 智能体系统:一种能够通过多个步骤完成任务的系统,它会使用工具、维护任务状态,并在环境中采取行动,而不只是对提示返回单一回应。

  • 评估:对证据是否支持某项主张、风险结论或保证立场所作出的更广泛判断,可能基于评测数据、文档审查、访谈、流程审查及其他相关材料。

  • 压缩:在长时间运行过程中保留与任务相关上下文的方法。

  • 配置:除模型名称之外,经过精确测试的系统与评测条件。

  • 污染:指评测任务、答案或其近似变体出现在模型训练数据中,或在评测期间可被发现(例如通过浏览等工具),从而使表现高估了模型真实的泛化能力。

  • 引出:在评估过程中,尝试从系统中引出某种能力或行为的过程。

  • 环境:测试系统时所处的任务场景。这包括诸如智能体在评测期间交互并修改的外部状态,例如终端环境或电子游戏。

  • 评测:评估中的具体测试或测量。

  • 评测感知:评测感知是指模型识别出——或表现得像识别出——自己正在被评测,并可能据此调整其行为。这可能表现为模型明确推理自己正在被测试、推断评测目的,或因为预期结果会影响其被如何判断或部署而改变行为。

  • Harness:面向模型的结构,使模型能够执行任务:包括提示、工具、接口、控制逻辑、记忆、重试、验证器,以及围绕模型的其他支撑结构。

  • 最大化引出:一种测试方式,目标是在既定预算下找出系统能够产生的最强且可信的表现或失效模式,而不是仅通过标准化 harness 运行系统一次。

  • 推理轨迹:测试期间记录模型中间推理过程的内容。

  • 奖励黑客:通过捷径或超出评估者本意的行为获得高分。

  • 防护措施:围绕模型或产品应用的过滤器、监控器、拦截系统及其他保护机制。

  • 故意隐藏实力:在评测中以削弱结果有效性的方式策略性地表现不佳。

  • 评分:用于决定如何衡量表现或任务是否成功的方法。

  • 标准化 harness:在不同系统间保持不变、而非针对特定模型或任务定制的 harness,因此结果差异更容易归因于被测模型。

  • 时间跨度:系统能够以指定可靠性完成任务的时长,通常表示为同一任务由人类完成所需的时间。

  • 工具访问:评估期间模型可用的外部工具。

  • 轨迹:系统在完成任务过程中所遵循的逐步路径。

  • 通用越狱:一种单一攻击模式,可使系统在许多提示或任务中绕过防护措施。

脚注

  1. 1

    本文并不试图解决第三方应如何评测失配或倾向性相关主张的问题。我们仍需开展更多工作,以理解 harness 选择如何影响这类评测,尤其是因为支持更长时间跨度行为的 harness,也可能改变评估者需要监测的非预期行为类型。

  2. 2

    HAL(在新窗口中打开) 还提供了一个来自智能体评测的例子:在 CORE-Bench(在新窗口中打开) 上,将 harness 改为 Claude Code 后,在同一基准上测得的性能和成本特征都发生了变化。其他公开示例包括 SWE-agent(在新窗口中打开)SeeAct(在新窗口中打开)ScienceAgentBench(在新窗口中打开)CORE-Bench(在新窗口中打开)Inspect Cyber(在新窗口中打开);它们都会告诉读者,分数是由什么接口或 harness 产生的。

  3. 3

    在两个故意隐藏实力问答 (Sandbagging QA) 变体上均得分 100%,并在战略性欺骗故意隐藏实力 (strategic-deception sandbagging) 任务上得分 99.6%。