跳至主要内容
OpenAI

2026年2月18日

研究刊发

EVMbench 正式推出

通过评估 AI 智能体在区块链环境中检测、修复和利用漏洞的能力,让智能合约更安全。

正在加载…

智能合约通常保护着超过 1000 亿美元的开源加密资产。随着 AI 智能体在阅读、编写与执行代码方面不断进步,在具有真实经济影响的环境中衡量其能力变得愈加重要;同时,也应鼓励将 AI 用于防御场景,对已部署合约进行审计与加固。

我们与 Paradigm(在新窗口中打开) 合作,共同推出了 EVMbench。该基准测试旨在评估 AI 智能体检测、修复和利用高危智能合约漏洞的能力。EVMbench 收录了来自 40 次审计的 117 个精选漏洞,其中大多数来源于公开代码审计竞赛。此外,EVMbench 还纳入了 Tempo(在新窗口中打开) 区块链安全审计流程中的一些漏洞场景。Tempo 是一条专为通过稳定币实现高吞吐量、低成本支付而构建的 L1 公链。这些场景将基准测试扩展至面向支付的智能合约代码领域,我们预计智能体驱动的稳定币支付将在该领域蓬勃发展,并有助于让测试落地于一个正在显现实际价值的新兴领域。

为构建任务环境,我们在已有条件下改造现有的概念验证攻击测试与部署脚本;若不存在,则由团队手动编写。在“修复”模式下,我们确保漏洞确实可被利用,并且能够在不引入导致编译失败的修改前提下完成修复,以免破坏测试环境。在“利用”模式下,我们编写了自定义评分程序,并对环境进行红队测试,尝试发现并修补智能体可能用来“绕过评分”的路径。除了借助 Paradigm 的领域专业支持进行质量控制外,我们还使用自动化任务审计智能体,进一步提升评测环境的可靠性。

EVMbench 评估三种能力模式:

  • 检测:智能体审计智能合约代码仓库,并依据其对真实漏洞及对应审计奖励的召回情况进行评分。
  • 修复:智能体修改存在漏洞的合约,在消除可被利用性的同时保持预期功能,并通过自动化测试与攻击验证进行校验。
  • 利用:智能体在沙盒区块链环境中对已部署合约发起端到端资金抽取攻击,评分通过交易回放与链上验证自动完成。

为支持客观且可复现的评估,我们开发了基于 Rust 的测试框架,用于部署合约、以确定性方式回放智能体交易,并限制不安全的 RPC 方法。“利用”任务运行在隔离的本地 Anvil 环境中,而非真实网络;涉及的漏洞均为历史公开案例。

我们在三种模式下评估了前沿模型的表现。在“利用”模式下,通过 Codex CLI 运行的 GPT‑5.3‑Codex 得分为 71.0%。相比六个多月前发布、得分 33.3% 的 GPT‑5,这是一次显著跃升。与此同时,检测召回率与修复成功率仍未实现全面覆盖 — 仍有大量漏洞难以被智能体发现与修复。

EVMbench 还揭示了模型在不同任务下的行为差异:智能体在“利用”任务中表现最好,因为目标非常明确:持续迭代直至资金被抽取;而在“检测”和“修复”任务中表现相对较弱。在“检测”任务中,智能体有时在识别出单个问题后就停止,而不是对代码库进行全面审计;在“修复”任务中,要在移除隐蔽漏洞的同时保持完整功能仍是不小的挑战。

功能局限

EVMbench 并未涵盖现实世界智能合约安全的全部复杂度。所纳入的漏洞来自 Code4rena 审计竞赛;尽管这些漏洞真实且严重,但许多广泛部署的加密合约通常经过更严格审查,因此可能更难被利用。

我们的评分系统较为稳健,但仍存在局限。在“检测”模式下,在“检测”模式下,我们检查智能体是否识别出与人类审计员相同的漏洞;若智能体发现额外问题,目前尚无法可靠判断其是否为人类遗漏的真实漏洞,或仅为误报。

“利用”场景也存在结构性限制。交易在评分容器中按顺序重放,因此依赖精确时间机制的行为不在评估范围内;链状态为全新本地 Anvil 实例而非主网分叉,目前仅支持单链环境;在某些情况下,这意味着需要使用模拟合约替代主网部署版本。

为什么这很重要

智能合约保护着数十亿美元资产,而 AI 智能体很可能同时改变攻击者与防御者的能力边界。衡量模型在这一领域的能力,有助于追踪新兴网络风险,并凸显以防御方式使用 AI 审计与加固合约的重要性。

EVMbench 既是衡量工具,也是一种行动倡议。随着智能体能力提升,开发者与安全研究人员将 AI 辅助审计纳入工作流程愈加关键。

近几个月来,我们看到模型在网络安全任务上的性能有了显著提升,这使开发者和安全专业人士共同受益。与此同时,我们一直在准备更强的网络安全保障措施,以支持防御性用途并增强整个生态系统的韧性。

由于网络安全本质上具有双重用途,我们正采取一种基于证据的迭代方法,在提升防御者发现并修复漏洞能力的同时减少滥用行为。我们的缓解措施包括安全训练、自动化监控、高级能力的受信访问,以及包含威胁情报在内的执行流水线。

我们也在投入生态防护建设,例如扩大安全研究智能体 Aardvark 的私测范围,并与开源维护者合作,为广泛使用的项目提供免费代码扫描。

在 2023 年启动的网络安全资助计划基础上,我们承诺提供 1000 万美元 API 额度,用于借助最先进模型加速网络防御,重点支持开源软件与关键基础设施。从事善意安全研究的组织可以通过我们的网络安全资助计划申请 API 额度和支持。

我们公开发布 EVMbench 的任务、工具与评估框架,支持持续研究如何衡量与管理新兴的 AI 网络能力。