EVMbench 소개
블록체인 환경에서 취약점을 탐지하고, 패치하며, 악용하는 AI 에이전트의 능력을 평가함으로써 스마트 계약을 더욱 안전하게 만듭니다.
스마트 계약은 오픈소스 기반 가상자산 생태계에서 1,000억 달러가 넘는 자산을 일상적으로 보호하고 있습니다. AI 에이전트가 코드를 읽고, 작성하고, 실행하는 능력이 향상됨에 따라 경제적으로 의미 있는 환경에서 그 역량을 측정하고, 배포된 계약을 감사하고 강화하는 데 AI 시스템을 방어적으로 활용하도록 장려하는 것이 점점 더 중요해지고 있습니다.
OpenAI는 Paradigm(새 창에서 열기)과 함께 개발한 새로운 EVMbench 벤치마크를 공개합니다. EVMbench는 AI 에이전트가 심각도 높은 스마트 계약 취약점을 탐지하고 이를 보완하여 악용할 수 있는 능력을 평가하는 벤치마크입니다. EVMbench는 40건의 보안 감사에서 선별한 취약점 117개를 기반으로 구성되었으며, 대부분은 공개 코드 감사 대회에서 수집되었습니다. 또한 EVMbench에는 스테이블코인을 활용한 고처리량 저비용 결제를 지원하도록 설계된 전용 L1 블록체인 Tempo(새 창에서 열기)의 보안 감사 과정에서 도출된 여러 취약점 시나리오도 포함되었습니다. 이 시나리오는 벤치마크 범위를 결제 처리용 스마트 계약 코드 영역으로 확장하며, 에이전트 기반 스테이블코인 결제가 성장할 것으로 예상되는 분야에 실질적 중요성을 부여합니다.
작업 환경을 구성하기 위해 OpenAI 팀은 기존에 존재하는 경우 개념 증명 익스플로잇 테스트와 배포 스크립트를 수정해 활용했고, 존재하지 않는 경우에는 직접 작성했습니다. 패치 모드에서는 취약점이 실제로 악용 가능한지 확인하고, 평가 환경을 훼손할 수 있는 컴파일 오류 없이 코드 수정으로 취약점을 완화할 수 있도록 구성했습니다. 익스플로잇 모드에서는 커스텀 채점기를 제작했으며, 에이전트가 채점기를 속일 수 있는 방법을 찾고 이를 수정하기 위해 환경을 레드팀 방식으로 테스트했습니다. 또한 Paradigm의 도메인 전문 지식을 바탕으로 한 작업 품질 검토와 함께 자동화된 작업 감사 에이전트를 활용해 환경의 신뢰성을 높였습니다.
EVMbench는 세 가지 역량 모드를 평가합니다.
- 감지: 에이전트는 스마트 계약 저장소를 감사하고, 정답 취약점(ground-truth vulnerabilities)의 재현율 및 관련 감사 보상 기준으로 점수를 부여받습니다.
- 패치: 에이전트는 취약한 계약을 수정하며, 자동화된 테스트와 익스플로잇 검증을 통해 악용 가능성을 제거하는 동시에 의도된 기능을 유지해야 합니다.
- 익스플로잇: 에이전트는 샌드박스 블록체인 환경에서 배포된 계약에 대해 엔드투엔드 자금 탈취 공격을 실행하며, 채점은 트랜잭션 재생 및 온체인 검증을 통해 프로그램적으로 수행됩니다.
객관적이고 재현 가능한 평가를 지원하기 위해, 계약을 배포하고, 에이전트의 트랜잭션을 결정론적으로 재생하며, 안전하지 않은 RPC 메서드를 제한하는 Rust 기반 하니스를 개발했습니다. 익스플로잇 작업은 실제 네트워크가 아닌 격리된 로컬 Anvil 환경에서 실행되며, 포함된 취약점은 과거 사례이며 공개적으로 문서화된 것입니다.
OpenAI는 프런티어 에이전트를 세 가지 모드에서 모두 평가합니다. '익스플로잇' 모드에서 Codex CLI를 통해 실행된 GPT‑5.3‑Codex는 71.0%의 점수를 기록했습니다. 이는 불과 6개월 전에 공개된 GPT‑5가 33.3%를 기록한 것과 비교하면 큰 향상입니다. 다만 상당수 취약점은 여전히 에이전트가 발견하고 수정하기 어려워 취약점 탐지 재현율과 패치 성공률은 아직 전체 취약점을 포괄하는 수준에는 이르지 못했습니다.
EVMbench는 또한 작업 전반에 걸친 모델 행동에서 흥미로운 차이를 보여줍니다. 에이전트는 목표가 명확한 익스플로잇 설정에서 가장 높은 성능을 보이며, 그 목표는 자금이 모두 소진될 때까지 반복을 계속하는 것입니다. 반면, 감지 및 패치 작업에서는 성능이 더 낮게 나타납니다. ‘감지’ 모드에서는 에이전트가 코드베이스를 철저히 감사하기보다는 단일 문제를 식별한 후 중단하는 경우가 있습니다. ‘패치’ 모드에서는 미묘한 취약점을 제거하면서 전체 기능을 유지하는 것이 여전히 어려운 과제로 남아 있습니다.
EVMbench는 실제 스마트 계약 보안의 전체 난이도를 모두 반영하는 것은 아닙니다. 포함된 취약점은 Code4rena 감사 대회에서 수집되었습니다. 이들은 현실적이고 심각도가 높은 취약점이지만, 대규모로 배포되고 널리 사용되는 많은 암호화 계약은 훨씬 더 엄격한 검증을 거치므로 악용하기가 더 어려울 수 있습니다.
우리의 채점 시스템은 견고하지만 완벽하지는 않습니다. ‘감지’ 모드에서는 에이전트가 인간 감사자가 식별한 것과 동일한 취약점을 발견하는지 확인합니다. 에이전트가 추가적인 문제를 식별할 경우, 그것이 인간이 놓친 실제 취약점인지 아니면 오탐지인지 판단할 수 있는 신뢰할 만한 방법은 현재로서는 없습니다.
‘익스플로잇’ 설정에는 구조적 한계도 존재합니다. 트랜잭션은 채점 컨테이너에서 순차적으로 재생되므로, 정밀한 타이밍 메커니즘에 의존하는 동작은 평가 범위에 포함되지 않습니다. 체인 상태는 메인넷을 포크한 것이 아니라 깨끗한 로컬 Anvil 인스턴스이며, 현재는 단일 체인 환경만 지원합니다. 일부 경우에는 메인넷 배포 대신 모의 계약을 사용해야 합니다.
스마트 계약은 수십억 달러 규모의 자산을 보호하고 있으며, AI 에이전트는 공격자와 방어자 모두에게 변혁적인 영향을 미칠 가능성이 있습니다. 이 분야에서 모델의 역량을 측정하는 것은 새롭게 등장하는 사이버 위험을 추적하는 데 도움이 되며, 배포된 계약을 감사하고 강화하기 위해 AI 시스템을 방어적으로 활용하는 것의 중요성을 강조합니다.
EVMbench는 측정 도구이자 행동 촉구(call to action)로 설계되었습니다. 에이전트의 성능이 향상됨에 따라, 개발자와 보안 연구자가 워크플로에 AI 지원 감사를 통합하는 것이 점점 더 중요해지고 있습니다.
최근 몇 달 동안 사이버 보안 관련 작업에서 모델 성능이 유의미하게 향상되었으며, 이는 개발자와 보안 전문가 모두에게 큰 도움이 되고 있습니다. OpenAI는 이에 발맞춰 방어 목적의 AI 활용과 생태계 전반의 회복력을 강화하기 위해 한층 강화된 사이버 보호 장치를 준비하고 있습니다.
사이버 보안 기술은 본질적으로 방어와 공격 모두에 사용될 수 있는 이중적 성격을 지니고 있기 때문에 OpenAI는 증거 기반의 반복적 접근 방식을 채택해 방어 측의 취약점 탐지 및 수정 역량은 가속하고 오용은 억제합니다. 여기에는 안전성 학습, 모니터링 자동화, 고급 기능에 대한 신뢰 기반 접근 제어, 위협 인텔리전스를 기반으로 한 대응 파이프라인 등이 포함됩니다.
우리는 보안 연구 에이전트인 Aardvark의 비공개 베타를 확대하고, 오픈소스 유지관리자들과 협력하여 널리 사용되는 프로젝트에 무료 코드베이스 스캐닝을 제공하는 등 생태계 보호 장치에 투자하고 있습니다.
2023년에 시작한 사이버 보안 그랜트 프로그램을 기반으로, 오픈 소스 소프트웨어와 핵심 인프라 시스템을 위한 사이버 방어를 가속화하기 위해 가장 강력한 모델을 활용하여 1,000만 달러 상당의 API 크레딧을 추가로 제공할 것을 약속합니다. 선의의 보안 연구에 참여하는 조직은 사이버 보안 지원 프로그램을 통해 API 크레딧과 지원을 신청할 수 있습니다.
새롭게 등장하는 AI 사이버 역량을 측정하고 관리하기 위한 지속적인 연구를 지원하기 위해 EVMbench의 작업, 툴링, 평가 프레임워크를 공개합니다.


