2026年2月18日

EVMbench 正式推出

通过评估 AI 智能体在区块链环境中检测、修复和利用漏洞的能力，让智能合约更安全。

正在加载…

智能合约通常保护着超过 1000 亿美元的开源加密资产。随着 AI 智能体在阅读、编写与执行代码方面不断进步，在具有真实经济影响的环境中衡量其能力变得愈加重要；同时，也应鼓励将 AI 用于防御场景，对已部署合约进行审计与加固。

我们与 Paradigm⁠（在新窗口中打开）合作，共同推出了 EVMbench。该基准测试旨在评估 AI 智能体检测、修复和利用高危智能合约漏洞的能力。EVMbench 收录了来自 40 次审计的 117 个精选漏洞，其中大多数来源于公开代码审计竞赛。此外，EVMbench 还纳入了 Tempo⁠（在新窗口中打开）区块链安全审计流程中的一些漏洞场景。Tempo 是一条专为通过稳定币实现高吞吐量、低成本支付而构建的 L1 公链。这些场景将基准测试扩展至面向支付的智能合约代码领域，我们预计智能体驱动的稳定币支付将在该领域蓬勃发展，并有助于让测试落地于一个正在显现实际价值的新兴领域。

为构建任务环境，我们在已有条件下改造现有的概念验证攻击测试与部署脚本；若不存在，则由团队手动编写。在“修复”模式下，我们确保漏洞确实可被利用，并且能够在不引入导致编译失败的修改前提下完成修复，以免破坏测试环境。在“利用”模式下，我们编写了自定义评分程序，并对环境进行红队测试，尝试发现并修补智能体可能用来“绕过评分”的路径。除了借助 Paradigm 的领域专业支持进行质量控制外，我们还使用自动化任务审计智能体，进一步提升评测环境的可靠性。

EVMbench 评估三种能力模式：

检测：智能体审计智能合约代码仓库，并依据其对真实漏洞及对应审计奖励的召回情况进行评分。
修复：智能体修改存在漏洞的合约，在消除可被利用性的同时保持预期功能，并通过自动化测试与攻击验证进行校验。
利用：智能体在沙盒区块链环境中对已部署合约发起端到端资金抽取攻击，评分通过交易回放与链上验证自动完成。

为支持客观且可复现的评估，我们开发了基于 Rust 的测试框架，用于部署合约、以确定性方式回放智能体交易，并限制不安全的 RPC 方法。“利用”任务运行在隔离的本地 Anvil 环境中，而非真实网络；涉及的漏洞均为历史公开案例。

我们在三种模式下评估了前沿模型的表现。在“利用”模式下，通过 Codex CLI 运行的 GPT‑5.3‑Codex 得分为 71.0%。相比六个多月前发布、得分 33.3% 的 GPT‑5，这是一次显著跃升。与此同时，检测召回率与修复成功率仍未实现全面覆盖 — 仍有大量漏洞难以被智能体发现与修复。

EVMbench 还揭示了模型在不同任务下的行为差异：智能体在“利用”任务中表现最好，因为目标非常明确：持续迭代直至资金被抽取；而在“检测”和“修复”任务中表现相对较弱。在“检测”任务中，智能体有时在识别出单个问题后就停止，而不是对代码库进行全面审计；在“修复”任务中，要在移除隐蔽漏洞的同时保持完整功能仍是不小的挑战。

功能局限

EVMbench 并未涵盖现实世界智能合约安全的全部复杂度。所纳入的漏洞来自 Code4rena 审计竞赛；尽管这些漏洞真实且严重，但许多广泛部署的加密合约通常经过更严格审查，因此可能更难被利用。

我们的评分系统较为稳健，但仍存在局限。在“检测”模式下，在“检测”模式下，我们检查智能体是否识别出与人类审计员相同的漏洞；若智能体发现额外问题，目前尚无法可靠判断其是否为人类遗漏的真实漏洞，或仅为误报。

“利用”场景也存在结构性限制。交易在评分容器中按顺序重放，因此依赖精确时间机制的行为不在评估范围内；链状态为全新本地 Anvil 实例而非主网分叉，目前仅支持单链环境；在某些情况下，这意味着需要使用模拟合约替代主网部署版本。

为什么这很重要

智能合约保护着数十亿美元资产，而 AI 智能体很可能同时改变攻击者与防御者的能力边界。衡量模型在这一领域的能力，有助于追踪新兴网络风险，并凸显以防御方式使用 AI 审计与加固合约的重要性。

EVMbench 既是衡量工具，也是一种行动倡议。随着智能体能力提升，开发者与安全研究人员将 AI 辅助审计纳入工作流程愈加关键。

近几个月来，我们看到模型在网络安全任务上的性能有了显著提升，这使开发者和安全专业人士共同受益。与此同时，我们一直在准备更强的网络安全保障措施，以支持防御性用途并增强整个生态系统的韧性。

由于网络安全本质上具有双重用途，我们正采取一种基于证据的迭代方法，在提升防御者发现并修复漏洞能力的同时减少滥用行为。我们的缓解措施包括安全训练、自动化监控、高级能力的受信访问，以及包含威胁情报在内的执行流水线。

我们也在投入生态防护建设，例如扩大安全研究智能体 Aardvark 的私测范围，并与开源维护者合作，为广泛使用的项目提供免费代码扫描。

在 2023 年启动的网络安全资助计划基础上，我们承诺提供 1000 万美元 API 额度，用于借助最先进模型加速网络防御，重点支持开源软件与关键基础设施。从事善意安全研究的组织可以通过我们的网络安全资助计划申请 API 额度和支持。

我们公开发布 EVMbench 的任务、工具与评估框架，支持持续研究如何衡量与管理新兴的 AI 网络能力。

继续阅读

查看全部

GPT-Red：解锁稳健性自我优化能力

安全2026年7月15日

剥离编程评估中的噪音，提取真实信号

研究2026年7月8日

GeneBench-Pro 正式发布

研究2026年6月30日