Présentation d’EVMbench
Rendre les contrats intelligents plus sécurisés en évaluant la capacité des agents IA à détecter, corriger et exploiter les vulnérabilités dans les environnements de chaîne de blocs.
Les contrats intelligents sécurisent régulièrement plus de 100 milliards de dollars d'actifs cryptographiques en source ouverte. À mesure que les agents IA s’améliorent en lecture, en rédaction et en exécution de code, il devient de plus en plus important de mesurer leurs capacités dans des environnements économiquement pertinents et d’encourager l’utilisation défensive des systèmes d’IA pour auditer et renforcer les contrats déployés.
En collaboration avec Paradigm(s'ouvre dans une nouvelle fenêtre), nous présentons EVMbench, un benchmark qui évalue la capacité des agents d’IA à détecter, corriger et exploiter des vulnérabilités critiques dans les smart contracts. EVMbench s’appuie sur 117 vulnérabilités sélectionnées parmi 40 audits de sécurité, dont la majorité provient de concours d’audit. EVMbench inclut également plusieurs scénarios de vulnérabilité issus du processus d’audit de sécurité de la blockchain Tempo(s'ouvre dans une nouvelle fenêtre), une L1 spécialement conçue pour permettre des paiements à haut débit et à faible coût via des stablecoins. Ces scénarios étendent le benchmark aux smart contracts orientés paiements, où l’on s’attend à une croissance des paiements en stablecoins, et contribuent à l'ancrer dans un domaine d'importance pratique émergente.
Pour créer nos environnements de tâches, nous avons adapté des tests d'exploitation de preuve de concept existants et des scripts de déploiement lorsqu'ils étaient disponibles, sinon nous les avons rédigés manuellement. Pour le mode correctif, nous avons veillé à ce que les vulnérabilités soient exploitables et puissent être atténuées sans introduire de changements qui interrompraient la compilation, ce qui compromettrait notre configuration. Pour le mode d’exploitation, nous avons développé des correcteurs personnalisés et effectué des exercices de red teaming sur les environnements pour identifier et corriger les méthodes par lesquelles un agent pourrait tromper le correcteur. En plus du contrôle de la qualité des tâches grâce à l’expertise de domaine fournie par Paradigm, nous avons utilisé des agents d’audit automatisés pour contribuer à accroître la solidité de nos environnements.
EVMbench évalue trois modes de capacité :
- Détecter : Les agents procèdent à l’audit d’un dépôt de contrats intelligents et sont notés sur leur capacité à identifier les vulnérabilités réelles et à obtenir les récompenses d’audit associées.
- Correctif : Les agents modifient des contrats vulnérables et doivent préserver la fonctionnalité prévue tout en éliminant l’exploitabilité, ce qui est vérifié au moyen de tests automatisés et de vérifications d’exploit.
- Exploiter : Les agents mènent des attaques de vidange de fonds de bout en bout contre des contrats déployés dans un environnement de chaîne de blocs en bac à sable, avec une évaluation effectuée de manière programmatique par relecture des transactions et vérification sur la chaîne.
Pour soutenir une évaluation objective et reproductible, nous avons développé un harnais basé sur Rust qui déploie des contrats, rejoue de manière déterministe les transactions des agents et restreint les méthodes RPC non sécurisées. Les tâches d’exploitation s’exécutent dans un environnement Anvil local isolé plutôt que sur des réseaux en direct, et les vulnérabilités sont historiques et documentées publiquement.
Nous évaluons les agents de pointe dans les trois modes. En mode « exploitation », GPT‑5.3‑Codex exécuté via Codex CLI affiche un score de 71 %. Cela représente un gain significatif par rapport aux modèles précédents, tels que GPT‑5, qui obtient une note de 33,3 % et a été lancé il y a un peu plus de six mois. Les taux de rappel en détection et de correction restent inférieurs à la couverture complète, car une grande partie des vulnérabilités restent difficiles à trouver et à corriger pour les agents.
EVMbench révèle également des différences intéressantes dans le comportement du modèle selon les tâches. Les agents excellent dans le cadre d'exploitation, où l'objectif est clair : continuer à itérer jusqu'à épuisement des fonds. En revanche, les performances sont plus faibles pour les tâches de détection et de correction. Dans « détection », les agents s’arrêtent parfois après avoir identifié un seul problème plutôt que d’auditer la base de code de façon exhaustive. Dans « correctif », maintenir une fonctionnalité complète tout en éliminant des vulnérabilités subtiles demeure un défi.
EVMbench ne reflète pas entièrement la complexité de la sécurité des contrats intelligents dans le monde réel. Les vulnérabilités incluses proviennent des compétitions d’audit de Code4rena. Bien que ceux-ci soient réalistes et de haute gravité, de nombreux contrats cryptographiques largement déployés et utilisés font l'objet d'un examen beaucoup plus approfondi et peuvent être plus difficiles à exploiter.
Notre système de notation est robuste mais imparfait. En mode « détection », nous vérifions si l’agent trouve les mêmes vulnérabilités que celles identifiées par des auditeurs humains. Si l’agent identifie des problèmes supplémentaires, nous n’avons actuellement aucun moyen fiable de déterminer s’ils représentent de véritables vulnérabilités que les humains ont manquées ou des faux positifs.
Il existe également des limites structurelles dans le paramètre « exploitation ». Les transactions sont rejouées séquentiellement dans le conteneur d'évaluation, de sorte que les comportements qui dépendent de mécanismes de synchronisation précis sont exclus du champ d'application. L’état de la chaîne est une instance Anvil locale propre plutôt qu’un fork du réseau principal, et nous prenons actuellement en charge uniquement les environnements à chaîne unique. Dans certains cas, cela nécessite des contrats simulés plutôt que des déploiements sur le réseau principal.
Les contrats intelligents sécurisent des milliards de dollars d’actifs, et les agents IA sont susceptibles de transformer tant les attaquants que les défenseurs. Évaluer les capacités des modèles dans ce domaine permet de suivre les cyberrisques émergents et souligne l'importance d'utiliser des systèmes d'IA de manière défensive pour auditer et renforcer les contrats déployés.
EVMbench est conçu à la fois comme un outil de mesure et un appel à l’action. À mesure que les agents s'améliorent, il devient de plus en plus crucial pour les développeurs et les chercheurs en sécurité d'intégrer l'audit assisté par l'IA dans leurs processus de travail.
Au cours des derniers mois, nous avons observé des améliorations significatives des performances des modèles sur des tâches de cybersécurité, profitant tant aux développeurs qu'aux professionnels de la sécurité. En parallèle, nous avons préparé des mesures de cybersécurité renforcées pour soutenir l'utilisation défensive et la résilience accrue de l'écosystème.
Du fait de la nature fondamentalement à double usage de la cybersécurité, nous adoptons une approche itérative basée sur des preuves, qui améliore la capacité des défenseurs à identifier et remédier aux vulnérabilités, tout en ralentissant les usages malveillants. Nos mesures d’atténuation comprennent la formation à la sécurité, la surveillance automatisée, l’accès de confiance pour les capacités avancées, et des pipelines d’application incluant le renseignement sur les menaces.
Nous investissons dans des mesures de protection de l’écosystème, telles que l'élargissement de la bêta privée de Aardvark, notre agent de recherche en sécurité, et la collaboration avec des mainteneurs open source pour offrir une analyse gratuite des bases de code des projets largement utilisés.
En nous appuyant sur notre programme de subventions pour la cybersécurité lancé en 2023, nous nous engageons également à allouer 10 millions de dollars en crédits API pour accélérer la cyberdéfense avec nos modèles les plus performants, notamment pour les logiciels open source et les systèmes d'infrastructure critique. Les organisations qui mènent des recherches en sécurité de bonne foi peuvent demander des crédits d’API et du soutien par l’intermédiaire de notre Programme de subventions en cybersécurité.
Nous publions les tâches, les outils et le cadre d’évaluation d’EVMbench pour soutenir la recherche continue sur la mesure et la gestion des capacités émergentes de l’IA en cybersécurité.


