Présentation d’EVMbench
Renforcer la sécurité des contrats intelligents en évaluant la capacité des agents d’IA à détecter, à corriger et à exploiter les vulnérabilités dans les environnements blockchain.
Les contrats intelligents sécurisent couramment plus de 100 milliards de dollars de crypto-actifs open-source. À mesure que les agents d’IA progressent en lecture, en écriture et en exécution de code, il devient crucial de mesurer leurs capacités dans des environnements économiquement significatifs, et d’encourager l’usage défensif des systèmes d’IA pour auditer et renforcer les contrats déployés.
En collaboration avec Paradigm(ouverture dans une nouvelle fenêtre), nous présentons EVMbench, un benchmark qui évalue la capacité des agents d’IA à détecter, corriger et exploiter des vulnérabilités critiques dans les smart contracts. EVMbench s’appuie sur 117 vulnérabilités sélectionnées parmi 40 audits de sécurité, dont la majorité provient de compétitions d’audit de code. EVMbench inclut également plusieurs scénarios de vulnérabilité issus du processus d’audit de sécurité de la blockchain Tempo(ouverture dans une nouvelle fenêtre), une couche 1 (L1) conçue pour permettre des paiements à haut débit transactionnel et à faible coût via des stablecoins. Ces scénarios étendent le banc d’essai au code des smart contracts axés sur les paiements – secteur où nous prévoyons un essor des paiements en stablecoins réalisés par des agents – et contribuent à l’ancrer dans un domaine d’une portée pratique émergente.
Pour créer nos environnements de tâches, nous avons adapté les tests d’exploitation de preuve de concept et les scripts de déploiement existants lorsqu’ils étaient disponibles ; dans le cas contraire, nous les avons rédigés manuellement. Pour le mode correctif, nous avons veillé à ce que les vulnérabilités soient exploitables et qu’elles puissent être atténuées sans introduire de ruptures de compilation, lesquelles compromettraient notre configuration. Pour le mode exploitation, nous avons conçu des systèmes de notation personnalisés et soumis les environnements à des tests d’intrusion (« red teaming ») afin d’identifier et de corriger les méthodes par lesquelles un agent pourrait tromper le système. Outre le contrôle qualité des tâches assuré par l’expertise métier de Paradigm, nous avons eu recours à des agents d’audit automatisés pour renforcer la rigueur de nos environnements.
EVMbench évalue trois modes de compétences :
- Détection : les agents auditent un dépôt de contrats intelligents et sont évalués sur leur rappel des vulnérabilités de vérité de terrain ainsi que sur les primes d’audit associées.
- Correction : les agents modifient des contrats vulnérables et doivent préserver l’intégrité fonctionnelle tout en éliminant l’exploitabilité, le tout vérifié par des tests automatisés et des tests d’exploitation.
- Exploitation : les agents mènent des attaques par siphonnage de fonds de bout en bout contre des contrats déployés dans un environnement de bac à sable ; la notation est effectuée de manière programmatique par relecture de transactions et vérification on-chain.
Afin de garantir une évaluation objective et reproductible, nous avons conçu un banc d’essai en Rust qui déploie les contrats, rejoue les transactions des agents de manière déterministe et restreint les méthodes RPC risquées. Les tâches d’exploitation s’exécutent dans un environnement Anvil local et isolé, plutôt que sur des réseaux de production, et les vulnérabilités sont historiques et documentées publiquement.
Nous évaluons les agents de dernière génération à travers ces trois modes. En mode « exploitation », GPT‑5.3‑Codex exécuté via Codex CLI affiche un score de 71 %. Cela représente une progression majeure par rapport aux modèles précédents, comme GPT‑5, qui affiche un score de 33,3 % et dont le lancement remonte à peine à plus de six mois. Le taux de recall en détection et les taux de réussite des correctifs restent inférieurs à une couverture complète, car une grande partie des vulnérabilités demeure difficile à identifier et à corriger pour les agents.
EVMbench met également en lumière des divergences de comportement intéressantes chez les modèles d’une tâche à l’autre. C’est dans le contexte d’exploitation que les agents se montrent les plus performants, car l’objectif y est explicite : continuer d’itérer jusqu’à ce que les fonds soient siphonnés. À l’inverse, les performances sont plus en retrait sur les tâches de détection et de correction. En mode « détection », les agents s’arrêtent parfois après avoir relevé un seul problème au lieu de réaliser un audit exhaustif du code source. En mode « correction », préserver l’intégralité des fonctions tout en éliminant des failles subtiles demeure une tâche complexe.
EVMbench ne reflète pas l’entière complexité de la sécurité des contrats intelligents en conditions réelles. Les vulnérabilités incluses sont issues des concours d’audit de Code4rena. Bien que ces vulnérabilités soient réalistes et de sévérité élevée, de nombreux contrats de crypto-actifs massivement déployés et utilisés font l’objet d’un examen bien plus rigoureux et peuvent s’avérer plus difficiles à exploiter.
Notre système d’évaluation est robuste, bien qu’il comporte certaines limites. En mode « détection », nous vérifions si l’agent identifie les mêmes vulnérabilités que celles relevées par des auditeurs humains. Si l’agent identifie des problèmes supplémentaires, nous ne disposons actuellement d’aucun moyen fiable pour déterminer s’il s’agit de vulnérabilités avérées omises par les humains ou de faux positifs.
Le contexte « exploitation » présente également des limites structurelles. Les transactions sont rejouées séquentiellement au sein du conteneur d’évaluation ; par conséquent, les comportements dépendant de mécanismes de synchronisation précis ne sont pas couverts. L’état de la chaîne repose sur une instance Anvil locale vierge plutôt que sur un fork du réseau principal, et nous ne prenons actuellement en charge que les environnements à chaîne unique. Dans certains cas, cela nécessite l’usage de contrats simulés en lieu et place de déploiements sur le réseau principal.
Les contrats intelligents sécurisent des milliards de dollars d’actifs, et les agents d’IA sont susceptibles de transformer radicalement les stratégies tant offensives que défensives. Mesurer les capacités des modèles dans ce domaine permet de suivre les cyber-risques émergents et souligne l’importance d’utiliser les systèmes d’IA à des fins défensives pour auditer et renforcer les contrats déployés.
EVMbench se veut à la fois un outil de mesure et un appel à la mobilisation. À mesure que les agents progressent, il devient impératif pour les développeurs et les chercheurs en sécurité d’intégrer l’audit assisté par l’IA dans leurs flux de travail.
Ces derniers mois, nous avons constaté des progrès substantiels dans les capacités des modèles sur les tâches de cybersécurité ; cette évolution profite tant aux développeurs qu’aux professionnels de la sécurité. Parallèlement, nous avons élaboré des garde-fous cybernétiques renforcés afin de favoriser l’usage défensif et d’accroître la résilience globale de l’écosystème.
La cybersécurité étant par nature une technologie à double usage, nous adoptons une approche itérative fondée sur des données probantes ; celle-ci accroît la capacité des défenseurs à détecter et à corriger les vulnérabilités tout en freinant les risques de détournement. Nos mesures d’atténuation comprennent des formations à la sûreté, une surveillance automatisée, un accès sécurisé pour les capacités avancées ainsi que des chaînes de mise en conformité intégrant le renseignement sur les menaces.
Nous investissons dans des protections de l’écosystème, notamment par l’extension de la bêta privée d’Aardvark (notre agent de recherche en sécurité) et par la collaboration avec des mainteneurs de projets open source afin d’offrir des audits de code gratuits pour les projets les plus répandus.
Dans la lignée de notre programme de subventions pour la cybersécurité lancé en 2023, nous allouons également 10 millions de dollars en crédits API afin d’accélérer la cyberdéfense grâce à nos modèles les plus avancés, en particulier pour les logiciels libres et les systèmes d’infrastructures critiques. Les organisations qui mènent des recherches en sécurité de bonne foi peuvent solliciter des crédits API ainsi qu’un accompagnement dans le cadre de notre programme de subventions pour la cybersécurité.
Nous mettons à disposition les tâches, l’outillage et le cadre d’évaluation d’EVMbench afin de soutenir la recherche continue sur la mesure et la gestion des cyber-capacités émergentes de l’IA.


