Ir al contenido principal
OpenAI

18 de febrero de 2026

InvestigaciónPublicación

Presentamos EVMbench

Hacer que los contratos inteligentes sean más seguros evaluando la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades en entornos de blockchain.

Cargando…

Los contratos inteligentes aseguran habitualmente más de 100 000 millones de dólares en activos criptográficos de código abierto. A medida que los agentes de IA mejoran en la lectura, escritura y ejecución de código, se vuelve cada vez más importante medir sus capacidades en entornos económicamente significativos y fomentar el uso defensivo de los sistemas de IA para auditar y fortalecer los contratos implementados.

Junto con Paradigm(se abre en una ventana nueva), presentamos EVMbench, una evaluación comparativa que mide la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades de alta gravedad en contratos inteligentes. EVMbench se basa en 117 vulnerabilidades seleccionadas de 40 auditorías, con la mayoría provenientes de competencias abiertas de auditorías de código.  EVMbench también incluye varios escenarios de vulnerabilidad derivados del proceso de auditoría de seguridad de la blockchain Tempo(se abre en una ventana nueva), una L1 diseñada específicamente para permitir pagos de alto rendimiento y bajo costo mediante stablecoins. Estos escenarios amplían el punto de referencia hacia el código de contratos inteligentes orientado a pagos, donde esperamos que los pagos con stablecoins realizados por agentes aumenten y ayuden a fundamentarlo en un dominio de importancia práctica emergente.

Para crear nuestros entornos de tareas, adaptamos pruebas de concepto de exploits y scripts de implementación existentes, cuando estaban disponibles, y, en caso contrario, los escribimos manualmente. Para el modo de parche, nos aseguramos de que las vulnerabilidades sean explotables y de que puedan mitigarse sin introducir cambios que rompan la compilación, lo cual comprometería nuestra configuración. Para el modo de explotación, escribimos evaluadores personalizados y realizamos pruebas de red en los entornos para intentar encontrar y corregir métodos mediante los cuales un agente podría engañar al evaluador. Además del control de calidad de las tareas mediante la experiencia en el dominio proporcionada por Paradigm, usamos agentes automatizados de auditoría de tareas para ayudar a aumentar la solidez de nuestros entornos.

EVMbench evalúa tres modos de capacidad:

  • Detectar: Los agentes auditan un repositorio de contratos inteligentes y se evalúan según su capacidad para identificar vulnerabilidades reales y las recompensas de auditoría correspondientes.
  • Parche: Los agentes modifican contratos vulnerables y deben preservar la funcionalidad prevista mientras eliminan la posibilidad de explotación, verificada mediante pruebas automatizadas y verificaciones de explotación.
  • Explotación: Los agentes ejecutan ataques de drenaje de fondos de extremo a extremo contra contratos desplegados en un entorno de blockchain en un entorno de prueba, y la calificación se realiza de forma programática mediante la repetición de transacciones y la verificación en cadena.

Para apoyar una evaluación objetiva y reproducible, desarrollamos un sistema basado en Rust que despliega contratos, reproduce transacciones de agentes de manera determinista y limita los métodos RPC inseguros. Las tareas de explotación se ejecutan en un entorno local aislado de Anvil en lugar de en redes activas, y las vulnerabilidades son históricas y están documentadas públicamente.

Evaluamos a los agentes de vanguardia en los tres modos. En el modo «exploit», GPT‑5.3‑Codex ejecutado a través de CLI de Codex logra una puntuación del 71,0 %. Esto representa una ganancia significativa respecto a modelos anteriores, como GPT‑5, que obtiene una puntuación del 33,3 % y se lanzó hace poco más de seis meses. Las tasas de éxito de detección y aplicación de parches siguen por debajo de la cobertura total, ya que una gran parte de las vulnerabilidades sigue siendo difícil de identificar y corregir para los agentes.

EVMbench también muestra diferencias interesantes en el comportamiento del modelo a través de las tareas. Los agentes rinden mejor en el entorno de explotación, donde el objetivo es claro: seguir iterando hasta que se agoten los fondos. Por el contrario, el rendimiento es más débil en las tareas de detectar y corregir. En «detect», los agentes a veces se detienen después de identificar un solo problema en lugar de auditar exhaustivamente la base de código. En «patch», mantener la funcionalidad completa mientras se eliminan vulnerabilidades sutiles sigue siendo un desafío.

Limitaciones

EVMbench no refleja completamente la complejidad de la seguridad de los contratos inteligentes en el mundo real. Las vulnerabilidades incluidas se tomaron de las competiciones de auditoría de Code4rena. Aunque estos son realistas y de alta gravedad, muchos contratos de criptomonedas que se despliegan ampliamente y se utilizan de forma generalizada se someten a un escrutinio mucho más riguroso y pueden ser más difíciles de explotar.

Nuestro sistema de calificación es sólido, pero imperfecto. En el modo «detect», verificamos si el agente encuentra las mismas vulnerabilidades que han sido identificadas por auditores humanos. Si el agente identifica problemas adicionales, actualmente no tenemos una manera confiable de determinar si representan vulnerabilidades reales que los humanos no detectaron o falsos positivos.

También hay limitaciones estructurales en el entorno de «explotación». Las transacciones se reproducen secuencialmente en el contenedor de evaluación, por lo que los comportamientos que dependen de mecanismos de temporización precisos quedan fuera de consideración. El estado de la cadena es una instancia local limpia de Anvil en lugar de un fork de la red principal, y actualmente solo admitimos entornos de cadena única. En algunos casos, esto requiere contratos «simulados» en lugar de despliegues en la red principal.

¿Por qué esto importa?

Los contratos inteligentes aseguran miles de millones de dólares en activos, y es probable que los agentes de IA sean transformadores tanto para los atacantes como para los defensores. Medir la capacidad del modelo en este ámbito ayuda a seguir los riesgos cibernéticos emergentes y resalta la importancia de usar sistemas de IA defensivamente para auditar y reforzar los contratos implementados.

EVMbench está diseñado tanto como una herramienta de medición como una invitación a actuar. A medida que los agentes mejoran, se vuelve cada vez más importante que los desarrolladores e investigadores de seguridad integren la auditoría asistida por IA en sus flujos de trabajo.

En los últimos meses, hemos visto mejoras significativas en el rendimiento del modelo en tareas de ciberseguridad, beneficiando tanto a desarrolladores como a profesionales de la seguridad. En paralelo, hemos estado preparando salvaguardas cibernéticas reforzadas para apoyar el uso defensivo y la resiliencia más amplia del ecosistema.

Dado que la ciberseguridad es inherentemente de doble uso, estamos adoptando un enfoque iterativo basado en evidencia que acelera la capacidad de los defensores para encontrar y corregir vulnerabilidades mientras ralentiza el uso indebido. Nuestras medidas de mitigación incluyen la formación en seguridad, la monitorización automatizada, el acceso confiable a capacidades avanzadas y los flujos de aplicación que incorporan inteligencia sobre amenazas.

Estamos invirtiendo en salvaguardas del ecosistema, como la ampliación de la beta privada de Aardvark, nuestro agente de investigación de seguridad, y colaborando con mantenedores de código abierto para ofrecer escaneo gratuito de bases de código en proyectos de uso extendido.

Basándonos en nuestro Programa de Subvenciones de Ciberseguridad lanzado en 2023, también estamos comprometiendo 10 millones de dólares en créditos de API para acelerar la defensa cibernética con nuestros modelos más capaces, especialmente para software de código abierto y sistemas de infraestructura crítica. Las organizaciones que realicen investigaciones de seguridad de buena fe pueden solicitar créditos de API y apoyo a través de nuestro Programa de Subvenciones de Ciberseguridad.

Lanzamos las tareas, herramientas y el marco de evaluación de EVMbench para apoyar la investigación continua sobre la medición y gestión de las capacidades emergentes de ciberseguridad de la IA.