18. Februar 2026

Einführung von EVMbench

Die Sicherheit von Smart Contracts wird erhöht, indem die Fähigkeit von KI-Agenten bewertet wird, Schwachstellen in Blockchain-Umgebungen zu erkennen (Detect), zu beheben (Patch) und auszunutzen (Exploit).

Artikel lesen

Laden …

Smart Contracts sichern routinemäßig über 100 Mrd. USD an Open-Source-Krypto-Assets. Während KI-Agenten immer besser darin werden, Code zu lesen, zu schreiben und auszuführen, wird es zunehmend wichtiger, ihre Fähigkeiten in wirtschaftlich relevanten Umgebungen zu messen und den defensiven Einsatz von KI-Systemen zu fördern, um bestehende Verträge zu prüfen und zu stärken.

Zusammen mit Paradigm⁠(wird in einem neuen Fenster geöffnet) führen wir EVMbench ein, einen Benchmark, der die Fähigkeit von KI-Agenten bewertet, schwerwiegende Smart-Contract-Schwachstellen zu erkennen, zu beheben und auszunutzen. EVMbench nutzt 117 kuratierte Schwachstellen aus 40 Audits, wobei die meisten aus offenen Code-Audit-Wettbewerben stammen. EVMbench umfasst außerdem mehrere Schwachstellenszenarien, die aus dem Sicherheitsaudit-Prozess für die Tempo⁠(wird in einem neuen Fenster geöffnet)-Blockchain stammen, eine speziell entwickelte L1, die darauf ausgelegt ist, Zahlungen mit hohem Durchsatz und niedrigen Kosten über Stablecoins zu ermöglichen. Diese Szenarien erweitern den Benchmark auf zahlungsorientierten Smart-Contract-Code, wo wir eine Zunahme agentischer Stablecoin-Zahlungen erwarten, und helfen, ihn in einem Bereich von aufkommender praktischer Bedeutung zu verankern.

Zur Erstellung unserer Aufgabenumgebungen haben wir gegebenenfalls bestehende Proof-of-Concept-Exploit-Tests und Bereitstellungsskripte angepasst und sie andernfalls manuell geschrieben. Im Patch-Modus haben wir sichergestellt, dass die Schwachstellen ausnutzbar sind und ohne die Einführung von Änderungen, die die Kompilierung beeinträchtigen, behoben werden können, da solche Änderungen unser Setup gefährden würden. Für den Exploit-Modus haben wir benutzerdefinierte Bewerter entwickelt und die Umgebungen mit Red-Teaming getestet, um Methoden zu finden und zu beheben, mit denen ein Agent den Bewerter täuschen könnte. Zusätzlich zur Aufgabenqualitätskontrolle durch die von Paradigm bereitgestellte Domänenexpertise haben wir automatisierte Aufgaben-Auditing-Agenten eingesetzt, um die Zuverlässigkeit unserer Umgebungen zu verbessern.

EVMbench bewertet drei Fähigkeitsmodi:

Detect: Agenten prüfen ein Smart-Contract-Repository und werden basierend auf der Erkennungsrate von tatsächlichen Schwachstellen und den damit verbundenen Audit-Belohnungen bewertet.
Patch: Agenten modifizieren anfällige Verträge und müssen die beabsichtigte Funktionalität beibehalten, während sie die Ausnutzbarkeit beseitigen. Dies wird durch automatisierte Tests und Exploit-Prüfungen verifiziert.
Exploit: Agenten führen End-to-End-Angriffe zur Abschöpfung von Geldern gegen bereitgestellte Verträge in einer Sandbox-basierten Blockchain-Umgebung aus, wobei die Bewertung programmgesteuert über Transaktionswiederholung und On-Chain-Verifizierung erfolgt.

Zur Unterstützung einer objektiven und reproduzierbaren Bewertung haben wir ein Rust-basiertes Testgerüst entwickelt, das Verträge bereitstellt, Agententransaktionen deterministisch wiedergibt und unsichere RPC-Methoden einschränkt. Exploit-Aufgaben werden in einer isolierten lokalen Anvil-Umgebung ausgeführt, nicht in Live-Netzwerken, und die Schwachstellen sind historisch und öffentlich dokumentiert.

Wir bewerten Frontier-Agenten in allen drei Modi. Im „Exploit“-Modus erreicht GPT‑5.3‑Codex, ausgeführt über Codex CLI, einen Score von 71,0 %. Dies stellt einen erheblichen Fortschritt gegenüber früheren Modellen dar, wie etwa GPT‑5, das 31,9 % erzielt und erst vor etwas mehr als sechs Monaten veröffentlicht wurde. Die Erfolgsraten bei Erkennung, Rückruf und Behebung bleiben unterhalb der vollständigen Abdeckung, da ein großer Teil der Schwachstellen für Agenten weiterhin schwer zu finden und zu beheben ist.

EVMbench zeigt auch interessante Unterschiede im Verhalten von Modellen bei verschiedenen Aufgaben. Agenten erzielen im Exploit-Szenario die besten Ergebnisse, wo das Ziel klar ist: weiter iterieren, bis die Mittel erschöpft sind. Im Gegensatz dazu ist die Leistung bei Detect- und Patch-Aufgaben schwächer. Bei „Detect“ hören Agenten manchmal auf, nachdem sie ein einzelnes Problem identifiziert haben, anstatt die Codebasis umfassend zu überprüfen. Bei „Patch“ bleibt es eine Herausforderung, die volle Funktionalität aufrechtzuerhalten und gleichzeitig subtile Schwachstellen zu beseitigen.

Einschränkungen

EVMbench spiegelt nicht die gesamte Komplexität der Smart-Contract-Sicherheit in der realen Welt wider. Die enthaltenen Schwachstellen wurden aus Code4rena-Audit-Wettbewerben übernommen. Obwohl diese realistisch und schwerwiegend sind, werden viele stark verbreitete und weitläufig genutzte Krypto-Verträge deutlich strenger geprüft und sind möglicherweise schwerer auszunutzen.

Unser Bewertungssystem ist robust, aber nicht perfekt. Im „Detect“-Modus prüfen wir, ob der Agent dieselben Sicherheitslücken findet, die von menschlichen Prüfern identifiziert wurden. Wenn der Agent zusätzliche Probleme identifiziert, haben wir derzeit keine zuverlässige Methode, um festzustellen, ob es sich um echte Schwachstellen handelt, die von Menschen übersehen wurden, oder um Fehlalarme.

Es gibt auch strukturelle Einschränkungen in der „Exploit“-Einstellung. Transaktionen werden im Bewertungscontainer nacheinander wiedergegeben, sodass Verhaltensweisen, die von genauen Timing-Mechanismen abhängen, nicht berücksichtigt werden. Der Chain-Status ist eine saubere lokale Anvil-Instanz und wurde nicht von Mainnet geforkt. Derzeit unterstützen wir nur Single-Chain-Umgebungen. In einigen Fällen erfordert dies Mock-Verträge anstelle von Mainnet-Bereitstellungen.

Warum das wichtig ist

Smart Contracts sichern Vermögenswerte in Milliardenhöhe, und KI-Agenten werden wahrscheinlich sowohl für Angreifer:innen als auch Verteidiger:innen von großer Bedeutung sein. Die Messung der Fähigkeiten des Modells in diesem Bereich hilft, neu entstehende Cyberrisiken zu verfolgen, und unterstreicht die Bedeutung, KI-Systeme defensiv einzusetzen, um bereitgestellte Verträge zu prüfen und zu stärken.

EVMbench ist sowohl als Messinstrument als auch als Handlungsaufforderung gedacht. Mit der Verbesserung von Agenten wird es für Entwickler:innen und Sicherheitsforscher:innen immer wichtiger, KI-gestützte Audits in ihre Arbeitsabläufe zu integrieren.

In den letzten Monaten haben wir bedeutende Verbesserungen der Modellleistung bei Cybersicherheitsaufgaben verzeichnet, von denen sowohl Entwickler:innen als auch Sicherheitsfachleute profitieren. Parallel dazu haben wir verstärkte Cyber-Schutzmaßnahmen vorbereitet, um die defensive Nutzung und eine breitere Resilienz des Ökosystems zu unterstützen.

Da Cybersicherheit von Natur aus einen Dual-Use-Charakter hat, verfolgen wir einen evidenzbasierten, iterativen Ansatz, der die Fähigkeit der Abwehrspezialist:innen beschleunigt, Schwachstellen zu finden und zu beheben, während er den Missbrauch verlangsamt. Unsere Maßnahmen zur Risikominderung umfassen Sicherheitsschulungen, automatisierte Überwachung, eingeschränkten Zugriff (Trusted Access) auf erweiterte Funktionen sowie Durchsetzungspipelines, die Bedrohungsinformationen einschließen.

Wir investieren in Schutzmaßnahmen für das Ökosystem, wie die Ausweitung der privaten Beta von Aardvark, unserem Sicherheitsforschungs-Agenten, und arbeiten mit Open-Source-Maintainern zusammen, um kostenlose Codebase-Scans für weit verbreitete Projekte bereitzustellen.

Aufbauend auf unserem 2023 gestarteten Cybersicherheits-Förderprogramm verpflichten wir uns außerdem zur Bereitstellung von API-Credits im Wert von 10 Mio. USD, um die Cyberabwehr mit unseren leistungsfähigsten Modellen zu beschleunigen, insbesondere für Open-Source-Software und kritische Infrastruktursysteme. Organisationen, die in gutem Glauben Sicherheitsforschung betreiben, können über unser Cybersicherheits-Förderprogramm API-Credits und Unterstützung beantragen.

Wir veröffentlichen die Aufgaben, Tools und das Bewertungsframework von EVMbench, um die fortlaufende Forschung zur Messung und Verwaltung neu entstehender KI-Cyberfähigkeiten zu unterstützen.

Mehr lesen

Alles anzeigen

GPT-Red: Selbstverbesserung für mehr Robustheit

Sicherheit15. Juli 2026

Signal und Rauschen bei Code-Bewertungen trennen

Forschung8. Juli 2026

Einführung von GeneBench-Pro

Forschung30. Juni 2026