Pasar al contenido principal
OpenAI

18 de febrero de 2026

InvestigaciónPublicación

Presentamos EVMbench

Mejorar la seguridad de los contratos inteligentes al evaluar la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades en entornos de blockchain.

Cargando...

Los contratos inteligentes protegen habitualmente más de $100 000 millones en criptoactivos de código abierto. A medida que los agentes de IA mejoran en la lectura, escritura y ejecución de código, se vuelve cada vez más importante medir sus capacidades en entornos económicamente significativos y fomentar el uso defensivo de los sistemas de IA para auditar y fortalecer los contratos implementados.

Junto con Paradigm(se abre en una nueva ventana), presentamos EVMbench, una evaluación comparativa que mide la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades de alta gravedad en contratos inteligentes. EVMbench se basa en 117 vulnerabilidades seleccionadas de 40 auditorías, con la mayoría provenientes de competencias abiertas de auditorías de código.  EVMbench también incluye varios escenarios de vulnerabilidad derivados del proceso de auditoría de seguridad de la blockchain Tempo(se abre en una nueva ventana), una L1 diseñada específicamente para permitir pagos de alto rendimiento y bajo costo mediante stablecoins. Estos escenarios amplían el punto de referencia hacia el código de contratos inteligentes orientado a pagos, donde esperamos que los pagos con stablecoins realizados por agentes aumenten y ayuden a fundamentarlo en un dominio de importancia práctica emergente.

Para crear nuestros entornos de tareas, adaptamos pruebas de explotaciones de prueba de concepto y scripts de implementación existentes, cuando existían, y de lo contrario los escribimos manualmente. Para el modo de parche, nos aseguramos de que las vulnerabilidades sean explotables y que puedan mitigarse sin introducir cambios que rompan la compilación, lo cual comprometería nuestra configuración. Para el modo de explotación, escribimos calificadores personalizados y realizamos pruebas de equipo rojo en los entornos en un intento de encontrar y corregir métodos mediante los cuales un agente podría engañar al calificador. Además del control de calidad de las tareas a través de la experiencia en el dominio proporcionada por Paradigm, empleamos agentes automatizados de auditoría de tareas para mejorar la solidez de nuestros entornos.

EVMbench evalúa tres modos de capacidad:

  • Detectar: Los agentes auditan un repositorio de contratos inteligentes y se les califica según su capacidad para identificar vulnerabilidades reales y las recompensas de auditoría asociadas.
  • Emparchar: Los agentes modifican contratos vulnerables y deben preservar la funcionalidad prevista mientras eliminan la posibilidad de explotación, lo cual se verifica mediante pruebas automatizadas y verificaciones de explotación.
  • Explotar: Los agentes ejecutan ataques de drenaje de fondos de extremo a extremo contra contratos desplegados en un entorno de blockchain aislado, con la calificación realizada de forma programática mediante la repetición de transacciones y la verificación en cadena.

Para respaldar una evaluación objetiva y reproducible, desarrollamos una estructura basada en Rust que implementa contratos, reproduce transacciones de agentes de manera determinista y limita los métodos RPC no seguros. Las tareas de explotación se ejecutan en un entorno local de Anvil aislado en lugar de en redes activas, y las vulnerabilidades son históricas y están documentadas públicamente.

Evaluamos agentes de vanguardia en los tres modos. En el modo ‘explotación’, GPT‑5.3‑Codex ejecutado a través de Codex CLI alcanza una puntuación del 71.0 %. Esto representa un avance significativo respecto a modelos anteriores, como GPT‑5, que obtiene una puntuación de 33.3 % y se lanzó hace poco más de seis meses. Las tasas de éxito en la detección, recuperación y corrección permanecen por debajo de la cobertura total, ya que una gran parte de las vulnerabilidades sigue siendo difícil de identificar y corregir para los agentes.

EVMbench también revela diferencias interesantes en el comportamiento del modelo a través de tareas. Los agentes rinden mejor en el entorno de explotación, donde el objetivo es claro: continuar iterando hasta que los fondos se agoten. Por el contrario, el rendimiento es más débil en las tareas de detección y corrección de fallos. En ‘detectar’, los agentes a veces se detienen después de identificar un solo problema en lugar de auditar exhaustivamente el código. En ‘emparchar’, mantener la funcionalidad completa mientras se eliminan vulnerabilidades sutiles sigue siendo un desafío.

Limitaciones

EVMbench no refleja completamente la complejidad de la seguridad de los contratos inteligentes en el mundo real. Las vulnerabilidades incluidas fueron extraídas de las competencias de auditoría de Code4rena. Aunque estas son realistas y de alta gravedad, muchos contratos de criptomonedas que se implementan ampliamente y se utilizan de manera generalizada se someten a un escrutinio significativamente mayor y pueden ser más difíciles de explotar.

Nuestro sistema de calificación es robusto pero imperfecto. En el modo ‘detectar’, comprobamos si el agente detecta las mismas vulnerabilidades identificadas por auditores humanos. Si el agente identifica problemas adicionales, actualmente no tenemos una manera confiable de determinar si representan vulnerabilidades reales que los humanos no detectaron o falsos positivos.

También hay limitaciones estructurales en la configuración de ‘explotación’. Las transacciones se reproducen secuencialmente en el contenedor de calificación, por lo que los comportamientos que dependen de mecanismos de sincronización precisos están fuera del alcance. El estado de la cadena es una instancia local limpia de Anvil en lugar de un fork de la red principal, y actualmente solo admitimos entornos de cadena única. En algunos casos, esto requiere contratos simulados en lugar de implementaciones en la red principal.

Por qué esto importa

Los contratos inteligentes aseguran miles de millones de dólares en activos, y es probable que los agentes de IA sean transformadores tanto para atacantes como para defensores. Medir la capacidad del modelo en este dominio ayuda a rastrear los riesgos cibernéticos emergentes y resalta la importancia de utilizar sistemas de IA de forma defensiva para auditar y reforzar los contratos implementados.

EVMbench está destinado tanto a ser una herramienta de medición como un llamado a la acción. A medida que los agentes mejoran, es cada vez más importante que los desarrolladores e investigadores de seguridad integren auditorías asistidas por IA en sus flujos de trabajo.

En los últimos meses, hemos observado mejoras significativas en el rendimiento del modelo en tareas de ciberseguridad, lo que ha beneficiado tanto a desarrolladores como a profesionales del área. Al mismo tiempo, hemos estado fortaleciendo las salvaguardas cibernéticas para respaldar el uso defensivo y aumentar la resiliencia del ecosistema.

Dado que la ciberseguridad es inherentemente de doble uso, estamos adoptando un enfoque iterativo basado en evidencia que acelera la capacidad de los defensores para encontrar y corregir vulnerabilidades mientras ralentiza el uso indebido. Nuestras mitigaciones incluyen capacitación en seguridad, monitoreo automatizado, acceso confiable a capacidades avanzadas y flujos de aplicación que incorporan inteligencia sobre amenazas.

Estamos invirtiendo en salvaguardas del ecosistema, como la ampliación de la beta privada de Aardvark, nuestro agente de investigación de seguridad, y en asociarnos con mantenedores de código abierto para ofrecer escaneo gratuito de bases de código en proyectos de uso extendido.

Siguiendo nuestro Programa de Subvenciones de Ciberseguridad, lanzado en 2023, ahora hemos destinado $10 millones en créditos de API para acelerar la defensa cibernética con nuestros modelos más avanzados, especialmente en software de código abierto y sistemas de infraestructura crítica. Las organizaciones que participen en investigaciones de seguridad de buena fe pueden solicitar créditos de API y apoyo a través de nuestro Programa de Subvenciones de Ciberseguridad.

Lanzamos las tareas, las herramientas y el marco de evaluación de EVMbench para respaldar la investigación continua sobre la medición y gestión de las capacidades cibernéticas emergentes de la IA.