Apresentamos o EVMbench
Tornar os contratos inteligentes mais seguros ao avaliar a capacidade dos agentes de IA para detetar, corrigir e explorar vulnerabilidades em ambientes de blockchain.
Os contratos inteligentes protegem rotineiramente mais de 100 mil milhões de dólares em ativos de criptomoedas open source. À medida que os agentes de IA melhoram na leitura, escrita e execução de código, torna-se cada vez mais importante medir as suas capacidades em ambientes economicamente relevantes e incentivar o uso defensivo de sistemas de IA para auditar e reforçar contratos já implementados.
Juntamente com a Paradigm(abre numa nova janela), estamos a lançar o EVMbench, um benchmark que avalia a capacidade dos agentes de IA para detetar, corrigir e explorar vulnerabilidades graves em contratos inteligentes. O EVMbench baseia-se em 117 vulnerabilidades selecionadas provenientes de 40 auditorias, sendo a maioria obtida a partir de competições de auditoria de código aberto. O EVMbench inclui ainda vários cenários de vulnerabilidade extraídos do processo de auditoria de segurança da blockchain Tempo(abre numa nova janela), uma L1 criada especificamente para permitir pagamentos de elevada taxa de processamento e baixo custo através de stablecoins. Estes cenários expandem o benchmark para incluir código de contratos inteligentes orientados para pagamentos, onde se espera que os pagamentos automatizados em stablecoins cresçam, ajudando a ancorar o estudo num domínio de importância prática emergente.
Para criar os nossos ambientes de tarefa, adaptámos testes de exploração de prova de conceito e scripts de implementação existentes, quando disponíveis, e, caso contrário, escrevemo-los manualmente. No modo de correção, assegurámos que as vulnerabilidades são exploráveis e que podem ser mitigadas sem introduzir alterações que quebrem a compilação, o que comprometeria a nossa configuração. Para o modo de exploração, desenvolvemos avaliadores personalizados e realizámos testes de intrusão nos ambientes, numa tentativa de identificar e corrigir métodos através dos quais um agente pudesse contornar ou enganar o sistema de avaliação. Para além do controlo de qualidade das tarefas através do conhecimento do domínio especializado fornecido pela Paradigm, utilizámos agentes automatizados de auditoria de tarefas para ajudar a aumentar a solidez dos nossos ambientes.
O EVMbench avalia três modos de capacidade:
- Detetar: os agentes auditam um repositório de contratos inteligentes e são avaliados com base na identificação de vulnerabilidades reais e nas recompensas de auditoria associadas.
- Corrigir: os agentes modificam contratos vulneráveis e devem preservar a funcionalidade prevista, eliminando a possibilidade de exploração, verificado através de testes automatizados e verificações de exploração.
- Explorar: os agentes executam ataques completos de drenagem de fundos contra contratos implementados num ambiente de blockchain isolado, com a avaliação realizada programaticamente através de reprodução de transações e verificação on-chain.
Para suportar uma avaliação objetiva e reprodutível, desenvolvemos um sistema baseado em Rust que implementa contratos, reproduz transações de agentes de forma determinística e restringe métodos RPC inseguros. As tarefas de exploração são realizadas num ambiente Anvil local isolado, em vez de em redes ao vivo, e as vulnerabilidades são históricas e documentadas publicamente.
Avaliamos agentes de ponta em todos os três modos. No modo "exploração", o GPT‑5.3‑Codex executado através do Codex CLI atinge uma pontuação de 71%. Isto representa um ganho significativo em relação a modelos anteriores, como o GPT‑5, que obteve uma pontuação de 33,3% e foi lançado há pouco mais de seis meses. As taxas de deteção (recall) e de sucesso na correção continuam abaixo da cobertura total, uma vez que uma grande parte das vulnerabilidades permanece difícil de os agentes detetarem e corrigirem.
O EVMbench também revela diferenças interessantes no comportamento do modelo em várias tarefas. Os agentes têm melhor desempenho no cenário de exploração, onde o objetivo é claro: continuar a iterar até que os fundos sejam esgotados. Em contrapartida, o desempenho é mais fraco em tarefas de deteção e correção. No modo "detetar", os agentes por vezes param após identificar um único problema, em vez de auditar exaustivamente todo o código. No modo "corrigir", manter a funcionalidade completa enquanto se eliminam vulnerabilidades subtis continua a ser um desafio.
O EVMbench não representa toda a dificuldade da segurança de contratos inteligentes no mundo real. As vulnerabilidades incluídas foram extraídas das competições de auditoria da Code4rena. Embora estes sejam realistas e de alta severidade, muitos contratos de criptomoedas amplamente implementados e utilizados passam por um escrutínio significativamente maior e podem ser mais difíceis de explorar.
O nosso sistema de avaliação é robusto, mas imperfeito. No modo "detetar", verificamos se o agente encontra as mesmas vulnerabilidades identificadas por auditores humanos. Se o agente identificar problemas adicionais, atualmente não dispomos de uma forma fiável de determinar se representam vulnerabilidades reais que os humanos não detetaram ou falsos positivos.
Existem também limitações estruturais no modo "explorar". As transações são reproduzidas sequencialmente no contentor de avaliação, portanto, comportamentos que dependem de mecânicas de temporização precisas estão fora do âmbito. O estado da blockchain é uma instância limpa do Anvil local, em vez de um fork da mainnet, e atualmente suportamos apenas ambientes de cadeia única. Em alguns casos, isto requer contratos simulados em vez de implementações na mainnet.
Os contratos inteligentes protegem milhares de milhões de dólares em ativos, e os agentes de IA têm um grande potencial transformador tanto para atacantes como para defensores. Medir a capacidade dos modelos neste domínio ajuda a monitorizar os riscos cibernéticos emergentes e destaca a importância de usar sistemas de IA de forma defensiva para auditar e reforçar contratos já implementados.
O EVMbench destina-se tanto a ser uma ferramenta de medição quanto um apelo à ação. À medida que os agentes melhoram, torna-se cada vez mais importante que os programadores e investigadores de segurança integrem a auditoria assistida por IA nos seus fluxos de trabalho.
Nos últimos meses, temos observado ganhos significativos no desempenho dos modelos em tarefas de cibersegurança, beneficiando tanto programadores como profissionais de segurança. Em paralelo, temos estado a preparar salvaguardas cibernéticas reforçadas para apoiar a utilização defensiva e aumentar a resiliência do ecossistema.
Como a cibersegurança é inerentemente de dupla utilização, estamos a adotar uma abordagem iterativa e baseada em evidência que acelera a capacidade dos defensores de encontrar e corrigir vulnerabilidades, ao mesmo tempo que abranda o uso indevido. As nossas mitigações incluem formação em segurança, monitorização automatizada, acesso confiável para capacidades avançadas e pipelines de aplicação, incluindo inteligência de ameaças.
Estamos a investir em medidas de proteção do ecossistema, como expandir a beta privada do Aardvark, o nosso agente de investigação de segurança, e a estabelecer parcerias com responsáveis por projetos de código aberto para disponibilizar análise gratuita de bases de código a projetos amplamente utilizados.
Com base no nosso Programa de Bolsas para Cibersegurança lançado em 2023, estamos também a alocar 10 milhões de dólares em créditos de API para acelerar a ciberdefesa com os nossos modelos mais avançados, especialmente para software de código aberto e sistemas de infraestruturas críticas. As organizações envolvidas em investigação de segurança de boa-fé podem candidatar-se a créditos de API e apoio através do nosso Programa de Bolsas de Cibersegurança.
Lançamos as tarefas, ferramentas e o framework de avaliação do EVMbench para apoiar a investigação contínua sobre a medição e gestão de capacidades emergentes de cibersegurança da IA.


