智慧合約經常保護價值 100 億美元以上的開源加密資產。隨著 AI 代理在閱讀、撰寫和執行程式碼方面不斷進步,衡量其在具經濟意義的環境中的能力變得愈加重要,並鼓勵以防禦性方式使用 AI 系統來審核並強化已部署的合約。
我們與 Paradigm(在新視窗中開啟) 合作推出 EVMbench。這項基準測試用於評估智慧體偵測、修補與利用高嚴重性智慧合約漏洞的能力。EVMbench 從 40 次稽核中整理出 117 個漏洞範例,其中大部分來自公開的程式碼稽核競賽。EVMbench 另外加入多個來自 Tempo(在新視窗中開啟) 區塊鏈安全稽核流程的漏洞情境。Tempo 是專為透過穩定幣實現高吞吐量、低成本支付而設計的 L1 區塊鏈。這些情境將基準測試延伸到以支付為導向的智慧合約程式碼,我們預期智慧體穩定幣支付會逐漸普及,也讓這項基準測試更貼近具有實際應用價值的新興領域。
為了建立我們的任務環境,我們改編了現有的概念驗證漏洞利用測試和部署腳本(如果存在),否則就手動撰寫。在修補模式下,我們確保這些漏洞是可被利用的,並且可以在不引入會導致編譯失敗的變更的情況下加以緩解,否則將會破壞我們的設定。針對 exploit 模式,我們撰寫了自訂評分器,並對環境進行紅隊測試,嘗試找出並修補智慧體可能用來欺騙評分器的方法。除了透過 Paradigm 提供的領域專業進行任務品質控管之外,我們還使用自動化任務稽核代理來協助提升我們環境的健全性。
EVMbench 評估三種能力模式:
- Detect: 代理人稽核智慧合約程式碼庫,並根據其對真實漏洞的召回率和相關稽核獎勵進行評分。
- 修補:代理程式會修改存在漏洞的合約,必須在消除可利用性的同時保留預期功能,並透過自動化測試與攻擊檢查進行驗證。
- 利用:代理人在沙箱化的區塊鏈環境中,對已部署的合約執行端到端的資金抽乾攻擊,並透過交易重播與鏈上驗證以程式化方式進行評分。
為了支援客觀且可重現的評估,我們開發了一個以 Rust 為基礎的工具,可部署合約、以確定性方式重播智慧體交易,並限制不安全的 RPC 方法。利用任務在隔離的本地 Anvil 環境中執行,而不是在實時網絡上執行,且漏洞皆為歷史案例並已公開記錄。
我們在三種模式下評估前沿代理。在「exploit」模式下,透過 Codex CLI 運行的 GPT‑5.3‑Codex 取得 71.0% 的分數。這相較於先前的模型有顯著提升,例如六個多月前發布 GPT‑5 的得分為 33.3%。然而,漏洞偵測召回率與修補成功率仍未達完全覆蓋的水準,因為仍有很大一部分漏洞對智慧體而言依然難以找到並加以修復。
EVMbench 也揭示了模型在不同任務中的行為差異。智慧體在利用情境中表現最佳,目標明確:持續迭代直到資金耗盡。相較之下,偵測和修補任務的表現較弱。在「detect」中,智慧體有時會在識別出單一問題後就停止,而不是徹底稽核整個程式碼庫。在 ‘patch’ 中,在移除細微的安全漏洞的同時維持完整功能仍具挑戰性。
EVMbench 並不完全反映真實世界中智慧合約安全性的難度。所納入的漏洞來自 Code4rena 稽核競賽。雖然這些情境相當真實且嚴重,但許多廣泛部署和使用的加密合約會經過更嚴格的審查,因此可能更難以被利用。
我們的評分系統很健全,但不完美。在 「detect」 模式中,我們會檢查智慧體是否能找出與人類稽核人員所識別的相同漏洞。如果智慧體識別出其他問題,我們目前沒有可靠的方法來判斷它們是人類遺漏的真實漏洞,還是偽陽性。
「exploit」設定中也有結構上的限制。交易會在評分容器中依序重播,因此依賴精確時序機制的行為不在範圍內。鏈狀態是乾淨的本地 Anvil 實例,而不是主網的分支,我們目前僅支援單鏈環境。在某些情況下,這需要使用模擬合約,而不是主網部署。
智慧合約保障數十億美元的資產,AI 代理可能對攻擊者和防禦者產生變革性影響。衡量模型在此領域的能力有助於追蹤新興的網路風險,並強調以防禦方式使用 AI 系統來稽核和強化已部署合約的重要性。
EVMbench 的目的是作為一個測量工具和行動呼籲。隨著代理程式不斷改進,開發者和安全研究人員將 AI 輔助稽核納入其工作流程變得越來越重要。
過去幾個月來,我們看到模型在網路安全任務上的表現明顯提升,讓開發人員與資安專業人士都能從中受益。同時,我們也在準備加強的網路安全防護措施,以支援防禦用途並增強整體生態系統的韌性。
由於網路安全本身具有雙重用途,我們採取以實證為基礎、持續迭代的方法,一方面加快防禦者找出並修補漏洞的速度,同時降低被濫用的風險。我們的緩解措施包括安全訓練、自動化監控、進階功能的可信存取,以及包含威脅情報的執行管道。
我們正在投資於生態系統的防護措施,例如擴大 Aardvark(我們的安全研究智慧體)的私人測試版,並與開源維護者合作,為廣泛使用的專案提供免費的程式碼庫掃描。
延續我們於 2023 年推出的網路安全補助計畫,我們也承諾投入 1,000 萬美元的 API 點數,透過最強大的模型加速網路防禦,特別針對開源軟體和關鍵基礎設施系統。從事善意安全研究的組織可以透過我們的 網路安全補助計畫申請 API 點數和支援。
我們釋出 EVMbench 的任務、工具和評估框架,以支持持續研究,衡量並管理新興的 AI 網絡能力。


