2026年2月18日

EVMbench 登場

透過評估 AI 智慧體在區塊鏈環境中偵測、修補與利用漏洞的能力，提升智慧合約的安全性。

載入中…

智慧合約經常保護價值 100 億美元以上的開源加密資產。隨著 AI 代理在閱讀、撰寫和執行程式碼方面不斷進步，衡量其在具經濟意義的環境中的能力變得愈加重要，並鼓勵以防禦性方式使用 AI 系統來審核並強化已部署的合約。

我們與 Paradigm⁠(在新視窗中開啟) 合作推出 EVMbench。這項基準測試用於評估智慧體偵測、修補與利用高嚴重性智慧合約漏洞的能力。EVMbench 從 40 次稽核中整理出 117 個漏洞範例，其中大部分來自公開的程式碼稽核競賽。EVMbench 另外加入多個來自 Tempo⁠(在新視窗中開啟) 區塊鏈安全稽核流程的漏洞情境。Tempo 是專為透過穩定幣實現高吞吐量、低成本支付而設計的 L1 區塊鏈。這些情境將基準測試延伸到以支付為導向的智慧合約程式碼，我們預期智慧體穩定幣支付會逐漸普及，也讓這項基準測試更貼近具有實際應用價值的新興領域。

為了建立我們的任務環境，我們改編了現有的概念驗證漏洞利用測試和部署腳本（如果存在），否則就手動撰寫。在修補模式下，我們確保這些漏洞是可被利用的，並且可以在不引入會導致編譯失敗的變更的情況下加以緩解，否則將會破壞我們的設定。針對 exploit 模式，我們撰寫了自訂評分器，並對環境進行紅隊測試，嘗試找出並修補智慧體可能用來欺騙評分器的方法。除了透過 Paradigm 提供的領域專業進行任務品質控管之外，我們還使用自動化任務稽核代理來協助提升我們環境的健全性。

EVMbench 評估三種能力模式：

Detect: 代理人稽核智慧合約程式碼庫，並根據其對真實漏洞的召回率和相關稽核獎勵進行評分。
修補：代理程式會修改存在漏洞的合約，必須在消除可利用性的同時保留預期功能，並透過自動化測試與攻擊檢查進行驗證。
利用：代理人在沙箱化的區塊鏈環境中，對已部署的合約執行端到端的資金抽乾攻擊，並透過交易重播與鏈上驗證以程式化方式進行評分。

為了支援客觀且可重現的評估，我們開發了一個以 Rust 為基礎的工具，可部署合約、以確定性方式重播智慧體交易，並限制不安全的 RPC 方法。利用任務在隔離的本地 Anvil 環境中執行，而不是在實時網絡上執行，且漏洞皆為歷史案例並已公開記錄。

我們在三種模式下評估前沿代理。在「exploit」模式下，透過 Codex CLI 運行的 GPT‑5.3‑Codex 取得 71.0% 的分數。這相較於先前的模型有顯著提升，例如六個多月前發布 GPT‑5 的得分為 33.3%。然而，漏洞偵測召回率與修補成功率仍未達完全覆蓋的水準，因為仍有很大一部分漏洞對智慧體而言依然難以找到並加以修復。

EVMbench 也揭示了模型在不同任務中的行為差異。智慧體在利用情境中表現最佳，目標明確：持續迭代直到資金耗盡。相較之下，偵測和修補任務的表現較弱。在「detect」中，智慧體有時會在識別出單一問題後就停止，而不是徹底稽核整個程式碼庫。在 ‘patch’ 中，在移除細微的安全漏洞的同時維持完整功能仍具挑戰性。

限制說明

EVMbench 並不完全反映真實世界中智慧合約安全性的難度。所納入的漏洞來自 Code4rena 稽核競賽。雖然這些情境相當真實且嚴重，但許多廣泛部署和使用的加密合約會經過更嚴格的審查，因此可能更難以被利用。

我們的評分系統很健全，但不完美。在 「detect」 模式中，我們會檢查智慧體是否能找出與人類稽核人員所識別的相同漏洞。如果智慧體識別出其他問題，我們目前沒有可靠的方法來判斷它們是人類遺漏的真實漏洞，還是偽陽性。

「exploit」設定中也有結構上的限制。交易會在評分容器中依序重播，因此依賴精確時序機制的行為不在範圍內。鏈狀態是乾淨的本地 Anvil 實例，而不是主網的分支，我們目前僅支援單鏈環境。在某些情況下，這需要使用模擬合約，而不是主網部署。

為什麼這很重要

智慧合約保障數十億美元的資產，AI 代理可能對攻擊者和防禦者產生變革性影響。衡量模型在此領域的能力有助於追蹤新興的網路風險，並強調以防禦方式使用 AI 系統來稽核和強化已部署合約的重要性。

EVMbench 的目的是作為一個測量工具和行動呼籲。隨著代理程式不斷改進，開發者和安全研究人員將 AI 輔助稽核納入其工作流程變得越來越重要。

過去幾個月來，我們看到模型在網路安全任務上的表現明顯提升，讓開發人員與資安專業人士都能從中受益。同時，我們也在準備加強的網路安全防護措施，以支援防禦用途並增強整體生態系統的韌性。

由於網路安全本身具有雙重用途，我們採取以實證為基礎、持續迭代的方法，一方面加快防禦者找出並修補漏洞的速度，同時降低被濫用的風險。我們的緩解措施包括安全訓練、自動化監控、進階功能的可信存取，以及包含威脅情報的執行管道。

我們正在投資於生態系統的防護措施，例如擴大 Aardvark（我們的安全研究智慧體）的私人測試版，並與開源維護者合作，為廣泛使用的專案提供免費的程式碼庫掃描。

延續我們於 2023 年推出的網路安全補助計畫，我們也承諾投入 1,000 萬美元的 API 點數，透過最強大的模型加速網路防禦，特別針對開源軟體和關鍵基礎設施系統。從事善意安全研究的組織可以透過我們的網路安全補助計畫申請 API 點數和支援。

我們釋出 EVMbench 的任務、工具和評估框架，以支持持續研究，衡量並管理新興的 AI 網絡能力。

繼續閱讀

檢視全部

GPT-Red：解鎖提升穩健性的自我改進能力

安全2026年7月15日

在程式碼評估中分辨訊號與雜訊

研究2026年7月8日

推出 GeneBench-Pro

研究2026年6月30日