Apresentamos o EVMbench
Aumentando a segurança dos contratos inteligentes ao avaliar a capacidade dos agentes de IA de detectar, corrigir e explorar vulnerabilidades em ambientes de blockchain.
Normalmente, os contratos inteligentes protegem mais de US$ 100 bilhões em criptoativos de código aberto. À medida que os agentes de IA aprimoram suas habilidades de leitura, escrita e execução de código, torna-se cada vez mais importante avaliar a capacidade deles em ambientes economicamente relevantes e incentivar o uso de sistemas de IA de forma defensiva para auditar e fortalecer os contratos implementados.
Junto com a Paradigm(abre em uma nova janela), estamos apresentando o EVMbench, um benchmark que avalia a capacidade dos agentes de IA de detectar, corrigir e explorar vulnerabilidades graves em contratos inteligentes. O EVMbench utiliza 117 vulnerabilidades selecionadas de 40 auditorias, com a maioria proveniente de competições de auditoria de código aberto. O EVMbench também inclui vários cenários de vulnerabilidade extraídos do processo de auditoria de segurança da blockchain Tempo(abre em uma nova janela), uma L1 projetada especificamente para permitir pagamentos com alta taxa de processamento e baixo custo via stablecoins. Esses cenários ampliam o benchmark para incluir código de contrato inteligente voltado para pagamentos. Esperamos que os pagamentos com stablecoins por meio de agentes cresçam, ajudando a estabelecê-lo em um domínio de importância prática emergente.
Para criar nossos ambientes de tarefas, adaptamos testes de exploração de prova de conceito e scripts de implantação existentes. Quando não estavam disponíveis, nós os escrevemos manualmente. Para o modo de correção, garantimos que as vulnerabilidades fossem exploráveis e pudessem ser mitigadas sem introduzir alterações que comprometessem a compilação, o que danificaria nossa configuração. Para o modo de exploração, desenvolvemos avaliadores personalizados e realizamos testes de invasão nos ambientes para identificar e corrigir métodos pelos quais um agente poderia burlar o avaliador. Além do controle de qualidade das tarefas por meio do conhecimento de domínio fornecido pela Paradigm, utilizamos agentes automatizados de auditoria de tarefas para ajudar a aumentar a estabilidade dos nossos ambientes.
O EVMbench avalia três modos de capacidade:
- Detecção: os agentes auditam um repositório de contratos inteligentes e são avaliados com base na identificação de vulnerabilidades reais e nas recompensas de auditoria associadas.
- Correção: os agentes modificam contratos vulneráveis e precisam preservar a funcionalidade pretendida enquanto eliminam a possibilidade de exploração, o que é verificado por meio de testes automatizados e verificações de exploração.
- Exploração: os agentes executam ataques de subtração de fundos de ponta a ponta contra contratos implementados em um ambiente de blockchain isolado, com avaliação realizada de forma programática por meio de repetição de transações e verificação on-chain.
Para apoiar uma avaliação objetiva e reproduzível, desenvolvemos um sistema baseado em Rust que implanta contratos, repete transações de agentes de forma determinística e restringe métodos RPC inseguros. As tarefas de exploração são realizadas em um ambiente local isolado do Anvil, em vez de redes ativas, e as vulnerabilidades são históricas e documentadas publicamente.
Avaliamos agentes de fronteira em todos os três modos. No modo de ‘exploração’, GPT‑5.3‑Codex sendo executado via CLI do Codex alcança uma pontuação de 71.0%. Isso representa um ganho significativo em relação a modelos anteriores, como o GPT‑5, que tem pontuação de 33,3% e foi lançado há pouco mais de seis meses. As taxas de sucesso de detecção e correção permanecem abaixo da cobertura total, pois ainda é difícil para os agentes encontrar e reparar uma grande parte das vulnerabilidades.
O EVMbench também revela diferenças interessantes no comportamento do modelo em várias tarefas. Os agentes têm melhor desempenho no cenário de exploração, onde o objetivo é claro: continuar iterando até que os fundos acabem. Por outro lado, o desempenho é mais fraco em tarefas de detecção e correção. No modo de detecção, em vez de auditar exaustivamente a base de código, os agentes algumas vezes param após identificar um único problema. Na correção, manter a funcionalidade completa enquanto as vulnerabilidades sutis são removidas continua sendo um desafio.
O EVMbench não retrata completamente a complexidade da segurança de contratos inteligentes no mundo real. As vulnerabilidades incluídas foram retiradas de competições de auditoria do Code4rena. Embora elas sejam realistas e graves, muitos contratos de criptomoeda amplamente implementados e usados passam por um escrutínio significativamente maior e podem ser mais difíceis de explorar.
Embora robusto, nosso sistema de avaliação é imperfeito. No modo de detecção, verificamos se o agente encontra as mesmas vulnerabilidades que os auditores humanos identificaram. Se o agente identificar problemas adicionais, atualmente não temos um método confiável para determinar se representam vulnerabilidades reais que passaram despercebidas pelos humanos ou se são falsos positivos.
Também existem limitações estruturais na configuração de exploração. Como as transações são repetidas sequencialmente no contêiner de avaliação, comportamentos que dependem de mecânicas temporais precisas estão fora do escopo. O estado da cadeia é uma instância local limpa do Anvil, em vez de um fork de rede principal (mainnet), e no momento oferecemos suporte apenas a ambientes de cadeia única. Em alguns casos, isso requer contratos simulados em vez de implantações na rede principal.
Os contratos inteligentes protegem bilhões de dólares em ativos, e agentes de IA provavelmente serão transformadores tanto para quem ataca como para quem defende. Avaliar a capacidade do modelo nesse domínio ajuda a monitorar riscos cibernéticos emergentes e destaca a importância de usar sistemas de IA defensivamente para auditar e fortalecer contratos implementados.
O EVMbench é uma ferramenta de avaliação e um convite à ação. À medida que os agentes melhoram, torna-se cada vez mais importante para desenvolvedores e pesquisadores de segurança incorporar auditoria assistida por IA em seus fluxos de trabalho.
Nos últimos meses, vimos ganhos significativos no desempenho do modelo em tarefas de cibersegurança, beneficiando tanto desenvolvedores quanto profissionais de segurança. Em paralelo, estamos preparando salvaguardas cibernéticas reforçadas para apoiar o uso defensivo e uma resiliência maior do ecossistema.
Como a cibersegurança é inerentemente de uso duplo, estamos adotando uma abordagem iterativa e baseada em evidências que acelera a capacidade dos defensores de encontrar e corrigir vulnerabilidades, ao mesmo tempo em que desacelera o uso indevido. Nossas mitigações incluem treinamento de segurança, monitoramento automatizado, acesso confiável para capacidades avançadas e pipelines de aplicação que incluem inteligência de ameaças.
Estamos investindo em salvaguardas para o ecossistema, como ampliar o beta privado do Aardvark, nosso agente de pesquisa em segurança, e fazer parcerias com mantenedores de código aberto para oferecer varredura gratuita de base de código para projetos amplamente usados.
Com base no nosso Cybersecurity Grant Program lançado em 2023, também estamos comprometendo US$ 10 milhões em créditos de API para acelerar a defesa cibernética com nossos modelos mais capazes, especialmente para software de código aberto e sistemas de infraestrutura crítica. Organizações engajadas em pesquisa de segurança de boa-fé podem solicitar créditos de API e suporte por meio do nosso Cybersecurity Grant Program.
Lançamos tarefas, ferramentas e o framework de avaliação do EVMbench para apoiar a pesquisa contínua sobre a avaliação e gestão de habilidades cibernéticas emergentes de IA.


