跳至主要内容
OpenAI

2025年12月10日

安全防护

持续提升网络安全韧性,从容应对 AI 能力演进

随着模型在网络安全领域的能力不断提升,我们正持续加大投入,通过构建多重防御体系并与全球顶尖安全专家深度合作,全面筑牢安全防线

正在加载…

AI 模型的网络安全能力正处于飞速进化中。这不仅为网络防御带来了显著助力,同时也产生了必须审慎管理的“双重用途”风险。例如,在夺旗赛 (CTF) 挑战的评估中,模型表现已从 2025 年 8 月 GPT‑5(在新窗口中打开) 的 27% 跃升至 2025 年 11 月 GPT‑5.1‑Codex‑Max(在新窗口中打开) 的 76%。

我们预计未来的 AI 模型将沿着这一发展轨迹前进。为此,我们依据《准备框架》(Preparedness Framework)(在新窗口中打开) 进行前瞻性规划与评估,预设每一款新模型都可能达到“高水平”的网络安全能力。所谓“高水平”,是指模型具备以下能力之一:能够针对防护严密的系统开发出有效的“零日漏洞”远程利用工具;或能实质性辅助针对企业及工业目标的复杂、隐蔽渗透行动,并产生现实影响。本文将阐述我们如何为达到此类水平的模型构建安全护栏,确保其在助力防御者的同时,最大限度地遏制滥用。

随着能力的演进,OpenAI 正加大投入,强化模型在网络防御任务中的表现,并开发相关工具协助防御者更高效地执行代码审计、漏洞修复等工作流。我们的目标是让模型和产品为那些往往处于“势单力薄、资源匮乏”境地的防御方带来显著优势。

与其他具备双重用途 (Dual-use) 的领域类似,网络安全中的攻防工作流通常依赖相同的底层知识与技术。我们正致力于完善安全机制,确保这些强大能力主要惠及防御侧,并限制其对恶意用途的增益。网络安全触达几乎所有领域,这意味着我们不能依赖单一的安全手段(如仅限制知识库或仅采用审核准入机制),而必须采取“纵深防御”(Defense-in-depth) 策略,在平衡风险的同时赋能用户。在实践中,这意味着我们需要对模型能力的准入方式、引导逻辑和应用场景进行全方位限定,使先进模型成为强化安全的基石,而非降低滥用门槛的推手。

我们并不将此视为一劳永逸的任务。相反,这是一项持续的长期战略投资。我们旨在为防御者争取长效优势,并不断提升全球生态系统中关键基础设施的安全韧性。

遏制恶意用途

我们的模型在设计与训练阶段便植入了安全基因,并辅以主动式系统,用于监测并响应网络滥用行为。随着模型能力与威胁态势的演变,我们也在持续完善这些防护机制。虽然在不严重影响防御用途的前提下,没有任何系统能百分之百杜绝网络安全领域的滥用,但我们的策略是通过“层级化安全栈”来降低风险。

在此基础之上,我们采取了纵深防御策略,依托访问控制、基础设施加固、出口 (Egress) 控制以及监控机制的组合拳。同时,我们通过检测与响应系统、专项威胁情报,以及内部风险预防计划对上述措施进行补充,确保能够快速识别并阻断新兴威胁。这些安全护栏旨在随威胁态势动态演进。我们预见变化,并在构建之初就确保系统能够做出快速而精准的调整。

在此基础之上,我们正在构建以下核心能力:

  • 训练模型拒绝或安全地响应有害请求,同时保持在教学与防御用途上的助益性:我们正在对前沿模型进行专项训练,使其能够拒绝或安全地响应可能导致显著网络滥用的请求,同时确保在合法的防御和教育场景下确保实用性。
  • 检测系统:我们在所有使用前沿模型的产品中持续优化并维护覆盖整个系统的监控机制,以识别潜在的恶意网络活动。一旦发现不安全活动,我们可能会拦截输出、将提示词路由至更安全或能力较低的模型,或升级处置以采取执行措施。我们的处置机制结合了自动化处理与人工审核,并综合考量法律法规、违规严重程度及重复行为等因素。此外,我们还与开发者及企业客户紧密协作,统一安全标准,并通过明确的升级处置路径推动负责任的技术使用。
  • 端到端红队测试:我们正与专业的红队测试机构合作,评估并优化安全缓解措施。红队专家的任务是模拟资源充足且意志坚定的攻击者,尝试通过端到端的方式绕过我们所有的防御体系。这有助于我们及早发现漏洞,从而加固整个系统的安全防线。

提升网络安全韧性的生态系统计划

OpenAI 早期便已投入将 AI 应用于网络防御场景的研究,我们的团队正与全球专家紧密协作,旨在推动模型及其应用场景走向成熟。我们高度重视全球网络安全从业者为守护数字世界所做的工作,并致力于提供强大的工具来支撑防御性安全任务。在推出全新安全护栏的同时,我们将继续与网络安全社区合作,共同探索 AI 在哪些领域能有效提升韧性,以及在哪些关键环节最需要周密的保护机制。

在开展这些协作的同时,我们正启动一系列专项行动,旨在协助防御者提升响应速度,使我们的安全护栏更贴合实战需求,并规模化地加速负责任的漏洞修补。

面向网络防御的受信访问计划

我们即将推出一项“受信访问计划”(Trusted Access Program)。在该计划下,我们将探索如何为从事网络防御工作且符合条件的用户及客户提供分级访问权限,使其能够调用最新模型中的增强功能,以支持防御性应用场景。目前,我们仍在审慎评估哪些功能可以大范围开放访问,哪些功能则需实施分级限制,相关的评估结果将影响该计划未来的设计走向。我们的目标是将此受信访问计划打造为构建网络韧性生态的基石。

利用 Aardvark 提升防御能力

我们的安全研究智能体 Aardvark 现已开启私测。Aardvark 旨在协助开发者与安全团队实现大规模的漏洞查找与修复。它能够扫描代码库漏洞并提供修复补丁,方便维护者快速采纳。通过对整个代码库进行逻辑推理,Aardvark 已在开源软件中发现了多个新的 CVE 漏洞。我们计划为部分非商业开源项目提供免费支持,为开源软件生态及供应链安全贡献力量。你可点击此处申请参与。

前沿风险委员会

我们将组建“前沿风险委员会”(Frontier Risk Council),这是一个由资深网络防御专家与安全从业者组成的咨询小组,旨在与我们的团队开展紧密协作。委员会的初期工作侧重于网络安全领域,未来会逐步将重点扩展至其他前沿能力领域。委员会成员将就“实用、负责任的能力边界”与“潜在滥用风险”之间的界限提供专业建议。这些洞察直接为我们的模型评估工作及安全护栏构建提供依据。我们将在近期分享更多关于该委员会的信息。

与业界就威胁模型达成共识

最后,我们预见行业内任何前沿模型都可能面临被恶意利用的风险。为应对这一挑战,我们正通过“前沿模型论坛”(Frontier Model Forum) 与其他前沿实验室开展协作。该论坛是由领先 AI 实验室及行业合作伙伴提供支持的非营利组织,旨在建立对威胁模型与最佳实践的统一认识。在此背景下,威胁建模能够识别 AI 能力被“武器化”的潜在方式、分析不同攻击者面临的关键瓶颈,并评估前沿模型可能带来的实质性增益,从而有效缓解风险。此类协作旨在建立一套全生态系统通用的“威胁者与攻击路径”认知体系,赋能各实验室、维护者及防御方持续优化其防御策略,并确保关键安全洞察在生态内实现快速传播。同时,我们正与外部团队合作开发网络安全评估(在新窗口中打开)体系。我们期待通过构建独立的评估生态,进一步提升各界对模型能力的共同认知。

上述举措体现了我们加强生态系统防御能力的长期承诺。随着模型能力的不断增强,我们的目标是确保这些能力转化为防御方的实战杠杆 — 这种优势将植根于实战需求,由专家建议打磨,并以审慎的方式部署。与此同时,我们计划探索更多专项行动与网络安全资助计划,旨在挖掘传统渠道之外的突破性想法,并广泛征集来自学术界、工业界及开源社区的创新防御方案。综上所述,这是一项持续推进的工作。随着实践经验的积累,我们将不断优化这些项目,以最有效的方式筑牢现实世界的安全防线。