OpenAI 认为,独立、可信的第三方评估在加强前沿 AI 的安全生态系统方面发挥着至关重要的作用。第三方评估是对前沿模型进行评估,旨在确认或提供关于关键安全防护能力和风险缓解措施的额外依据。这些评估有助于验证安全声明,防范认知盲区,并提高对能力和风险的透明度。通过邀请外部专家测试我们的前沿模型,我们旨在提升能力评估与安全防护的可信度,并助力完善更广泛的安全生态系统。
自 GPT‑4 发布以来,OpenAI 已与多家外部合作伙伴共同协作,测试和评估我们的模型。总体而言,我们的第三方合作大致分为三种形式:
- 独立评估,针对生物安全、网络安全、AI 自我提升和策略谋划等关键前沿能力和风险领域
- 方法论审核,用于评定我们如何评估和解读风险
- 主题专家 (SME) 探究,即专家根据现实世界中的 SME 任务对模型直接进行评估,并就我们对其能力和相关安全防护措施的评估提供结构化意见 [[fnn:1]]
本篇博客阐述了我们如何运用各种外部评估形式、这些评估的重要性、它们对部署决策的影响,以及我们构建这些合作所遵循的原则。本着透明公开的精神,我们也将进一步分享与第三方测试机构合作的保密条款及发布机制。
第三方评估机构在我们的内部工作之外增设独立的评估体系,借此增强评估的严谨性,并提供额外防护以避免自我确认问题。他们的反馈建议与我们的评估结果相互印证,为我们以负责任的方式部署强大系统提供了更全面的决策依据。
我们也将第三方评估视为构建韧性安全生态系统的组成部分。我们的团队在能力和风险领域开展广泛的内部测试,但独立组织引入了额外的视角和方法论路径。我们致力于构建多元化的合格评估机构网络,确保其能够与我们一起定期评估前沿模型。
最后,我们力求以公开透明的方式,阐述这些反馈建议如何帮助我们重塑安全流程。我们定期公开第三方评估结果,例如,将部署前评估概要纳入系统卡,并支持评估机构在保密性和准确性审核后发布更详细的工作成果。这种透明机制通过展示外部输入如何重塑我们的能力评估流程和安全防护措施来建立信任。
基于可信访问、透明度和知识共享建立的可持续合作关系,助力整个生态系统防范新兴风险,并构建适应性强且行之有效的评估体系,从而为前沿 AI 系统建立更完善的标准与更明智的治理框架。
自 GPT‑4(在新窗口中打开) 发布以来,我们始终支持在部署前对早期模型检查点进行独立评估。从那时起,我们便与多家第三方组织建立合作,这些组织在关键前沿能力和风险领域评估方面拥有深厚的专业知识。我们将独立实验室工作定义为开放式测试,即外部团队运用自己的方法,对特定前沿能力提出主张或评估。
以 GPT‑5 为例,OpenAI 协调开展了一系列涉及关键风险领域的外部能力评估,如长期自主性、策略谋划、欺骗与监管规避、湿实验室规划可行性以及攻击性网络安全评估。
这些独立评估是对 OpenAI“防范准备框架”下所执行评估的补充,同时涵盖 METR 的时间跨度评估(在新窗口中打开)或 SecureBio 的病毒学能力故障排除 (VCT)(在新窗口中打开) 评估等基准。
为支持这些评估,我们提供了对早期模型检查点的安全访问权限,选择评估结果以具象化呈现我们所观察到的能力改进项,在必要时实现零数据保留,并部署缓解措施较少的模型。例如,网络安全和生物安全领域的组织负责测试配有安全缓解措施和未配置安全缓解措施的模型,以探究其底层能力。其他组织则借助直接思维链访问权限,检查模型的推理轨迹。这一提升透明度的举措支持评估人员识别“沙袋”2 或策略谋划行为的案例,而这些案例只能通过解读思维链才能察觉。在提供访问权限时,我们采取了安全控制措施,并随模型能力和测试需求的变化,持续更新这些控制措施。
在特定情境下,外部评估人员可以有效开展方法论审核,为前沿实验室评估风险所依赖的框架和证据提供额外的视角。例如,在 gpt-oss 发布期间,我们使用对抗微调来评估开源权重模型在最坏情况下的能力,具体说明详见“评估开源权重 LLM 在最坏情况下的前沿风险”。核心安全问题是,恶意行为者能否对模型进行微调,确保其在我们的“防范准备框架”下,达到生物或网络等领域的高能力等级。鉴于这项评估需要资源密集型对抗微调,我们邀请了第三方评估机构来进行审核,并对我们的内部方法和结果提出建议,而非一再重复相似的工作。
这包括为期数周的评估结果分享过程,详细介绍对抗微调方案,并收集结构化建议,以完善最坏情况下前沿风险的方法论和评估措施。评估人员的反馈意见促使我们改进了最终的对抗微调流程,同时印证了方法论确认的重要价值。我们在论文和 gpt-oss 系统卡中记录了已采纳的改进项,并对未采纳项提供了具体说明。
在本案例中,方法论审核相比独立评估更为合适:这些评估涉及运行大规模的最坏情况推演实验,因此需要部署基础设施并投入技术专长,而这类资源在大型 AI 实验室之外往往难以获取。这意味着独立评估可能无法直接揭示最坏情况,因此更有必要让外部评估人员专注于验证这些主张。外部评估人员负责审核方法和证据(在新窗口中打开),指出其与决策相关的差距,并将其纳入建议反馈环路加以解决。我们希望将这一方案推广到其他领域,因为这些领域存在对准入门槛或基础设施的需求,第三方难以直接进行评估,或者外部评估体系可能尚未建立。
我们与外部专家合作的另一种方式是主题专家 (SME) 探究,即专家直接评估模型,并通过调查提供结构化意见,以便我们评估其能力。这与红队测试不同,后者旨在针对特定的安全防护措施进行压力测试。这一方式确保我们能够运用特定领域的洞察数据来完善“防范准备框架”评估,而这些数据融合了专家判断与真实背景的考量,仅凭静态评估难以获取。例如,我们邀请了一个主题专家小组,使用纯辅助型模型 3 来尝试其 ChatGPT 智能体和 GPT‑5 的端到端生物场景。他们根据模型在其场景中提供指导的实用性,评估该模型相较于经验不足的新手对专家能力的提升程度。其目标是收集更多反馈,评估系统如何实质性推动积极主动的新手切实达到专业执行水平:SME 借助自主设计的真实工作流程,对我们的“新手能力提升”主张进行压力测试,并就模型在哪些环节提供了实质性、步骤级帮助(而非低效概要)提供细致反馈。这项专家探究活动已纳入此类模型部署的整体评估流程,并在两次发布的系统卡中共享。
本着公开透明的精神,我们将分享更多关于第三方评估机构在合作过程中与我们达成的共识,以及指导双方合作的原则:
- 透明度与严格的保密界限:第三方评估机构签署保密协议,以便共享机密和非公开信息,为其评估提供支持。在本文的附录中,我们摘录了与第三方评估机构所签订合同的相关内容,用于概述有关成果发表的权利归属和审核机制的具体要求。我们秉持公开透明的原则,在不泄露机密信息或知识产权的前提下,努力推动有助于深化安全认知及相关评估研究的成果发表。为此,我们会审核并批准第三方评估机构发布的报告,以确保机密性和事实准确性。过去几年间,多家第三方评估机构已将其研究成果与我们的系统卡评估概要同步公开发表。经过我们审核以确保机密性和准确性后发表的部分成果示例包括:[“METR GPT‑5 报告(在新窗口中打开)”、“Apollo Research 关于 OpenAI o1 的报告(在新窗口中打开)”、“Irregular GPT‑5 评估(在新窗口中打开)”]
- 审慎的信息披露与安全可控的敏感信息访问:默认情况下,我们会针对旨在对外公开或已实现生产就绪的模型提供信息和访问权限。在有必要进行评估时,我们会提供更深入的访问权限,例如纯辅助型模型或非公开信息。OpenAI 已在必要时为第三方评估机构提供此类访问权限,以解决关键的安全问题。重要的是,在提供此类敏感信息访问权限时,我们采取了安全控制措施,并随模型能力和测试需求的变化,持续更新这些控制措施。
- 均衡的财政激励:我们认为,确保第三方评估生态系统资金充足且可持续发展至关重要。因此,我们向所有第三方评估机构提供报酬,但部分评估人员会根据其组织理念选择谢绝。报酬形式包括直接支付工作费用和/或通过 API 积分或其他方式补贴模型使用成本。所有第三方评估的报酬均与其评估结果无关。
综上所述,这些因素有助于确保第三方评估在保护敏感信息的同时提高 AI 的安全性和透明度,并为第三方评估机构创造了获得工作报酬的途径。
展望未来,我们认为有必要继续强化组织生态系统,确保能够开展可信且具备决策相关性的前沿 AI 系统评估。有效的第三方评估需要专业的技术能力、稳定的资金来源和严谨的方法论。持续投资合格评估机构、推进测量科学的发展以及保障敏感信息访问的安全,对于确保评估工作能够跟上模型能力的进步至关重要。
第三方评估是我们将外部视角引入安全工作的一种方式,它能够与其他机制协同运作。我们还与外部专家密切配合,开展结构化红队测试、集体对齐项目、与美国 CAISI 和英国 AISI 合作,并构建咨询小组(如我们的全球医生网络 (Global Physician Network) 和身心健康与人工智能专家委员会 (Expert Council on Well-Being and AI),以指导我们在心理健康与用户福祉方面的工作。这些实践融汇了多元领域的专业知识,为评估和治理先进 AI 系统奠定了更广泛、更可靠的基础。
以下是我们与第三方合作在部署前评估中签订的协议节选示例。
作者
脚注
- 1
这不同于红队测试,后者旨在针对安全防护措施开展精细化压力测试,并为评估开发提供数据。
- 2
当模型检测到自身正在接受评估或测试时,它就会故意降低性能或隐藏其真实能力。
- 3
纯辅助型模型可响应任何请求,即使该请求具有危害性。这类行为可通过后期训练方法实现。


