智能合約通常保障價值超過 1,000 億美元的開源加密資產。隨著 AI 智能代理在閱讀、編寫和執行代碼方面的能力不斷提升,衡量其在具經濟意義的環境中的能力,以及鼓勵以防禦性方式使用 AI 系統來審計和強化已部署的合約已經變得越來越重要。
我們與 Paradigm(在新視窗中開啟) 合作推出 EVMbench,這是一項用於評估 AI 智能代理在偵測、修補及利用高嚴重程度智能合約漏洞方面能力的基準測試。VMbench 以從 40 次安全審計中整理出的 117 個漏洞案例為基礎,其中大部分來自公開的程式碼審計競賽。EVMbench 亦加入了多個來自 Tempo(在新視窗中開啟) 區塊鏈安全審計流程的漏洞情境。Tempo 是一個專為透過穩定幣實現高吞吐量、低成本支付而設計的 L1 區塊鏈。這些情境將基準測試延伸至以支付為導向的智能合約程式碼領域。我們預期,隨著智能代理主導的穩定幣支付逐漸增加,這個領域的重要性亦會持續提升,同時亦讓基準測試更貼近實際應用場景。
為了創建任務環境,我們在有現有資源的情況下改編概念驗證漏洞測試和部署腳本;如無現有資源,則手動編寫。對於修補 (patch) 模式,我們確保漏洞可利用,並可透過不會導致編譯失敗的更改來加以緩解,以免影響我們的設定。在利用 (exploit) 模式下,我們編寫了自訂評分器,並對環境進行紅隊測試,嘗試找出並修補智能代理可能用來欺騙評分器的方法。除了透過 Paradigm 提供的領域專業知識進行任務品質控制外,我們還使用自動化任務審計代理,以協助提升環境的穩健性。
EVMbench 評估三種功能模式:
- 偵測:智能代理審計智能合約程式碼庫,並根據其對真實漏洞及相關審計獎勵的回憶率進行評分。
- 修補:智能代理會修改存在漏洞的合約,必須在消除可利用性時保留預期功能,並透過自動化測試及漏洞檢查進行驗證。
- 利用:智能代理在沙盒區塊鏈環境中對已部署的合約執行端到端資金耗盡攻擊,透過交易重播及鏈上驗證以程式化方式進行評分。
為了支持客觀且可重現的評估,我們開發了一個基於 Rust 的工具,用於部署合約、確定性地重播智能代理交易,並限制不安全的 RPC 方法。利用 (Exploit) 任務在隔離的本地 Anvil 環境中運行,而不是在實時網絡上運行,且漏洞均屬歷史性並有公開記錄。
我們在三種模式下對前沿智能代理進行評估。在 「exploit」 模式下,透過 Codex CLI 運行的 GPT‑5.3‑Codex 取得 71.0% 的分數。這相較於之前的模型有顯著提升,例如約六個多月前發佈的 GPT‑5,其分數為 33.3%。不過,漏洞偵測召回率和修補成功率仍未達到全面覆蓋,因為仍有相當比例的漏洞對智能代理而言依然難以發現及修復。
EVMbench 亦揭示了模型在不同任務間行為的有趣差異。智能代理在利用場景中表現最佳,因為該場景目標明確:持續迭代直至資金耗盡。相較之下,智能代理在偵測與修補任務上的表現較弱。在「偵測」模式下,智能代理有時會在識別出單一問題後便停止,而非徹底審計整個程式庫。在「修補」模式下,在消除細微漏洞的同時維持完整功能,仍然具有挑戰性。
EVMbench 並未完全代表真實世界中智能合約安全的所有難度。所包含的漏洞來自 Code4rena 的審計競賽。儘管這些漏洞既真實又嚴重,但許多廣泛部署及使用的加密合約會經過更嚴格的審計,因此可能更難被利用。
我們的評分系統穩健但不完美。在「偵測」模式下,我們會檢查智能代理能否找出與人類審計員所識別相同的漏洞。如果智能代理識別出額外問題,我們目前並沒有可靠的方法來判定這些是人類遺漏的真實漏洞還是誤報。
「利用」設定中也存在結構性限制。交易會在評分容器中按順序重播,因此依賴精確計時機制的行為並不在範疇內。鏈狀態是一個乾淨的本地 Anvil 實例,而非主網分支複製,且我們目前僅支援單鏈環境。在某些情況下,這需要使用模擬合約,而非主網部署。
智能合約保障數十億美元的資產,而 AI 智能代理很可能會對攻擊者和防禦者雙方均帶來變革性影響。在這個領域衡量模型能力有助於追蹤新興的網絡風險,並強調以防禦方式使用 AI 系統來審計和加強已部署合約的重要性。
EVMbench 旨在同時作為量度工具及行動號召。隨著智能代理的能力不斷提升,開發者和安全研究人員將 AI 輔助審計納入其工作流程變得愈加重要。
在過去幾個月,我們觀察到模型在網絡安全任務上的表現有顯著提升,同時為開發人員與安全專業人員帶來助益。與此同時,我們亦一直準備加強的網絡安全防護措施,以支援防禦用途並提升整體生態系統的韌性。
由於網絡安全本質上具有雙重用途,我們採取以實證為基礎、迭代演進的方式,在加快防禦人員發現與修補漏洞的同時,減少被濫用的風險。我們的緩解措施包括安全訓練、自動化監測、用於進階功能的可信存取,以及包含威脅情報在內的執行流程。
我們正在投資於生態系統防護措施,例如擴大我們的安全研究智能代理 Aardvark 的私人測試版,並與開源維護者合作,為廣泛使用的項目提供免費的程式碼庫掃描服務。
在 2023 年推出的網絡安全資助計劃基礎上,我們亦承諾提供 1,000 萬美元的 API 積分,以加速利用我們最強大的模型推動網絡防禦,特別是針對開源軟體和關鍵基礎設施系統。從事善意安全研究的機構可透過我們的網絡安全資助計劃申請 API 積分及支援。
我們發布 EVMbench 的任務、工具和評估框架,以支持持續研究如何衡量和管理新興的 AI 網絡能力。


