2026年2月18日

EVMbench のご紹介

ブロックチェーン環境における脆弱性の検出、パッチ適用、悪用に関する AI エージェントの能力を評価することで、スマートコントラクトの安全性を高めます。

読み込んでいます...

スマートコントラクトは、日常的に1,000億ドル超のオープンソースの暗号資産を保護しています。AI エージェントによるコードの読み取り、記述、実行能力が進化するにつれ、実際に経済的価値が関わる環境でその能力を測定すること、そしてデプロイ済みコントラクトの監査や強化のために AI システムを防御的に活用できるようにすることの重要性がますます高まっています。

OpenAI と Paradigm⁠（新しいウィンドウで開く）は共同で、AI エージェントが重大度の高いスマートコントラクトの脆弱性を検出・修正・攻撃できる能力を評価するベンチマーク「EVMbench」を発表します。EVMbench は40件の監査から厳選された117件の脆弱性を基に構成されており、その大半は公開コード監査コンペティションから取得されたものです。さらに EVMbench には、L1 ブロックチェーン Tempo⁠（新しいウィンドウで開く）のセキュリティ監査プロセスから得られた脆弱性シナリオもいくつか含まれています。Tempo は、ステーブルコインによる高スループット・低コストの決済を実現するために設計されたブロックチェーンです。これらのシナリオにより、ベンチマークの対象は決済用途のスマートコントラクトコードへと拡張されています。これは、エージェント型ステーブルコイン決済の拡大が見込まれる領域であり、実務上の重要性が高まりつつある分野にベンチマークを位置づけるものです。

タスク環境の作成にあたっては、既存の概念実証用エクスプロイトテストやデプロイスクリプトが存在する場合はそれらを利用し、存在しない場合は手動で作成しました。パッチモードでは、脆弱性が実際に悪用可能であること、そしてコンパイル不能となる変更を導入することなく緩和できることを確認しました（そのような変更は評価環境を損なうため）。エクスプロイトモードでは、カスタムの評価システムを作成しました。また、レッドチーミングを実施し、エージェントが評価を不正に回避できる手法を特定して修正しました。Paradigm のドメイン専門知識によるタスク品質管理に加え、自動化されたタスク監査エージェントを活用して、環境の妥当性向上にも取り組みました。

EVMbench は3つの能力モードを評価します。

検知：エージェントはスマートコントラクトのリポジトリを監査し、事前に特定された脆弱性の再現率およびそれに対応する監査報酬に基づいて評価されます。
パッチ：エージェントは脆弱なコントラクトを修正し、意図された機能を維持しながらエクスプロイトの可能性を排除する必要があります。これは自動テストおよびエクスプロイトチェックによって検証されます。
エクスプロイト：エージェントはサンドボックス化されたブロックチェーン環境上でデプロイ済みコントラクトに対しエンドツーエンドの資金引き出し攻撃を実行します。評価はトランザクションのリプレイおよびオンチェーン検証を通じてプログラム的に行われます。

客観的かつ再現可能な評価を支援するため、私たちは Rust ベースのハーネスを開発しました。このハーネスはコントラクトをデプロイし、エージェントのトランザクションを決定論的にリプレイし、安全でない RPC メソッドを制限します。エクスプロイトタスクは本番ネットワークではなく、隔離されたローカル Anvil 環境で実行されました。また、脆弱性は過去のものであり、公開文書化されています。

私たちはフロンティアエージェントを、3つすべてのモードで評価しています。「exploit」モードでは、GPT‑5.3‑CodexCodex CLI 経由で実行した場合、71.0% のスコアを達成しました。これは、わずか6か月強前にリリースされた GPT‑5（33.3%）などの従来モデルに比べて大幅な向上です。一方で、検出リコール率とパッチ成功率は依然として完全な網羅には達しておらず、多くの脆弱性はエージェントにとって依然として発見・修正が難しい状況です。

EVMbench は、タスク間におけるモデル挙動の興味深い差異も明らかにしています。エージェントはエクスプロイト設定で最も高い性能を発揮します。これは「資金が枯渇するまで反復を続ける」という明確な目的が設定されているためです。これに対し、検出およびパッチタスクでは性能が低下します。「検出」では、コードベース全体を徹底的に監査するのではなく、単一の問題を特定した時点で停止してしまう場合があります。「パッチ」では、目立たない脆弱性を除去しつつ完全な機能性を維持することが依然として困難です。

制限事項

EVMbench は、実世界におけるスマートコントラクトセキュリティの難易度全体を表すものではありません。含まれる脆弱性は Code4rena の監査コンペティションから抽出されたものです。これらは現実的かつ重大度の高いものですが、広くデプロイされ多用されている暗号資産コントラクトの多くは、はるかに厳密なチェックを受けており、より悪用が困難である可能性があります。

私たちの評価システムは堅牢ですが完全ではありません。「検出」モードでは、人間の監査担当者が特定したものと同じ脆弱性をエージェントが見つけたかどうかを確認します。エージェントが追加の問題を特定した場合、それらが人間が見逃した真の脆弱性なのか、それとも誤検知なのかを判断する信頼性の高い方法は現時点ではありません。

また、「エクスプロイト」設定にも構造的な制限があります。トランザクションは評価コンテナ内で順次リプレイされるため、正確なタイミングメカニズムに依存する挙動は対象外です。チェーン状態はメインネットのフォークではなくクリーンなローカル Anvil インスタンスであり、現在は単一チェーン環境のみをサポートしています。場合によっては、メインネット上のデプロイメントの代わりにモックコントラクトが必要になります。

なぜこれが重要なのか

スマートコントラクトは数十億ドル規模の資産を保護しており、AI エージェントは攻撃側と防御側の双方にとって変革的存在になる可能性があります。この分野におけるモデル能力を測定することは、新たなサイバーリスクの追跡に役立ち、デプロイ済みコントラクトを監査および強化するために AI システムを防御的に活用する重要性を浮き彫りにします。

EVMbench は、測定ツールであると同時に行動を促す呼びかけでもあります。エージェントの能力が向上するにつれ、開発者やセキュリティ研究者がワークフローに AI 支援監査を組み込むことがますます重要になっています。

ここ数か月で、サイバーセキュリティ関連タスクにおけるモデル性能が大きく向上し、開発者やセキュリティ専門家の業務に実質的な改善が見られています。並行して、防御的な利用と、より広範なエコシステムのレジリエンスを支えるため、サイバーセキュリティ対策の強化も進めてきました。

サイバーセキュリティは、防御と悪用の両面を持つ領域であるため、当社ではエビデンスに基づく反復的なアプローチを採用しています。これにより、防御側が脆弱性を迅速に発見・修正できるようにしつつ、悪用のリスクを抑制しています。これらの対策には、安全性を重視したトレーニング、自動モニタリング、高度な機能に対する信頼ベースのアクセス管理、脅威インテリジェンスを含む実行・監視の仕組みが含まれます。

私たちは、セキュリティ研究エージェント Aardvark のプライベートベータの提供を拡大しています。また、オープンソースプロジェクトのメンテナーと提携し、広く利用されているプロジェクトに対して、無料のコードベーススキャンを提供しています。

2023年に開始したサイバーセキュリティ助成金プログラムを基盤に、当社は新たに1,000万ドル分の API クレジットを提供します。特に、オープンソースソフトウェアや重要インフラシステムを対象に、当社の最も高性能なモデルを活用したサイバー防御の加速を支援します。善意でセキュリティ研究に取り組む組織は、当社のサイバーセキュリティ助成金プログラムを通じて、API クレジットや各種サポートを申請できます。

私たちは、AI の新たなサイバー能力の測定および管理に関する継続的研究を支援するため、EVMbench のタスク、ツール、評価フレームワークをリリースします。

さらに読む

すべてを表示

GPT-Red：堅牢性向上に向けた自己改善を実現

安全性2026年7月15日

コーディング評価における信号とノイズの切り分け

研究2026年7月8日

GeneBench-Pro のご紹介

研究2026年6月30日