पेश है EVMbench
ब्लॉकचेन एनवायरनमेंट में कमजोरियों का पता लगाने, पैच करने और उनका फायदा उठाने की AI एजेंट्स की क्षमता का मूल्यांकन करके स्मार्ट कॉन्ट्रैक्ट्स को और सुरक्षित बनाना.
स्मार्ट कॉन्ट्रैक्ट्स नियमित रूप से ओपन-सोर्स क्रिप्टो एसेट्स में $100B+ को सुरक्षित करते हैं. जैसे-जैसे AI एजेंट्स पढ़ने, लिखने और कोड को निष्पादित करने में बेहतर होते जाते हैं, आर्थिक रूप से महत्वपूर्ण वातावरण में उनकी क्षमताओं को मापना और तैनात अनुबंधों का ऑडिट और सुदृढ़ीकरण करने के लिए AI सिस्टम्स का रक्षात्मक उपयोग प्रोत्साहित करना अत्यधिक महत्वपूर्ण हो जाता है.
Paradigm(एक नई विंडो में खुलेगा) के साथ मिलकर हम EVMbench पेश कर रहे हैं, जो एक बेंचमार्क है जो AI एजेंट्स की उच्च-गंभीरता वाली स्मार्ट कॉन्ट्रैक्ट कमजोरियों को पहचानने, पैच करने और उनका एक्सप्लॉइट करने की क्षमता का मूल्यांकन करता है. EVMbench 40 ऑडिट्स से चुनी गई 117 क्यूरेटेड कमजोरियों पर आधारित है, जिनमें से अधिकतर ओपन कोड ऑडिट प्रतियोगिताओं से ली गई हैं. EVMbench में Tempo(एक नई विंडो में खुलेगा) ब्लॉकचेन के सिक्योरिटी ऑडिटिंग प्रोसेस से लिए गए कई वल्नरेबिलिटी परिदृश्य भी शामिल हैं. Tempo एक उद्देश्य-निर्मित L1 है जिसे स्टेबलकॉइन्स के माध्यम से उच्च थ्रूपुट और कम लागत वाले भुगतान सक्षम करने के लिए डिज़ाइन किया गया है. ये परिदृश्य बेंचमार्क का दायरा पेमेंट-ओरिएंटेड स्मार्ट कॉन्ट्रैक्ट कोड तक बढ़ाते हैं, जहाँ हमें एजेंटिक स्टेबलकॉइन पेमेंट्स के बढ़ने की उम्मीद है, और यह इसे व्यावहारिक रूप से उभरते महत्व वाले डोमेन में आधार देने में मदद करते हैं.
हमारे कार्य एनवायरनमेंट बनाने के लिए, हमने मौजूदा प्रूफ-ऑफ-कॉन्सेप्ट एक्सप्लॉइट परीक्षणों और डिप्लॉयमेंट स्क्रिप्ट्स को, जहाँ वे उपलब्ध थे, अनुकूलित किया, और अन्यथा उन्हें मैन्युअल रूप से लिखा. पैच मोड के लिए, हमने सुनिश्चित किया कि भेद्यताएँ शोषणीय हैं और उन्हें ऐसे कम किया जा सकता है कि संकलन को तोड़ने वाले परिवर्तन न आएँ, जो हमारे सेटअप से समझौता कर सकते हैं. एक्सप्लॉइट मोड के लिए, हमने कस्टम ग्रेडर्स लिखे और उन तरीकों को खोजने और पैच करने के लिए एनवायरनमेंट्स का रेड-टीमिंग किया जिनसे कोई एजेंट ग्रेडर को धोखा दे सकता है. Paradigm द्वारा प्रदान की गई डोमेन विशेषज्ञता के माध्यम से कार्य गुणवत्ता नियंत्रण के अलावा, हमने अपने वातावरण की सुदृढ़ता बढ़ाने में मदद के लिए स्वचालित कार्य ऑडिटिंग एजेंटों का उपयोग किया.
EVMbench तीन क्षमता मोड का मूल्यांकन करता है:
- डिटेक्ट: एजेंट्स स्मार्ट कॉन्ट्रैक्ट रिपॉज़िटरी का ऑडिट करते हैं और उन्हें ग्राउंड-ट्रुथ कमजोरियों की पहचान और संबंधित ऑडिट पुरस्कारों के आधार पर अंकित किया जाता है.
- पैच: एजेंट्स वल्नरेबल कॉन्ट्रैक्ट्स को बदलते हैं और उन्हें एक्सप्लॉइटेबिलिटी को खत्म करते हुए, ऑटोमेटेड टेस्ट्स और एक्सप्लॉइट चेक्स के ज़रिए वेरिफाई करते हुए, तय फंक्शनैलिटी को बनाए रखना चाहिए.
- शोषण: एजेंट सैंडबॉक्स्ड ब्लॉकचेन एनवायरनमेंट पर डिप्लॉय किए गए कॉन्ट्रैक्ट्स के खिलाफ एंड-टू-एंड फंड-ड्रेनिंग अटैक करते हैं, जिसमें ट्रांजैक्शन रिप्ले और ऑन-चेन वेरिफिकेशन के ज़रिए प्रोग्रामेटिकली ग्रेडिंग की जाती है.
उद्देश्यपूर्ण और पुनरुत्पादक मूल्यांकन का समर्थन को सपोर्ट करने के लिए, हमने एक रस्ट-बेस्ड हार्नेस बनाया है जो कॉन्ट्रैक्ट्स को डिप्लॉय करता है, एजेंट ट्रांज़ैक्शन को तय तरीके से रिप्ले करता है, और अनसेफ RPC मेथड्स को रोकता है. एक्सप्लॉइट टास्क लाइव नेटवर्क के बजाय एक अलग लोकल Anvil एनवायरनमेंट में चलते हैं, और वल्नरेबिलिटीज़ हिस्टोरिकल और पब्लिकली डॉक्यूमेंटेड होती हैं.
हम सभी तीनों मोड्स में फ्रंटियर एजेंट्स का मूल्यांकन करते हैं. ‘exploit’ मोड में, GPT‑5.3‑Codex Codex CLI के माध्यम से चलाए जाने पर 71.0% का स्कोर प्राप्त करता है. यह पिछले मॉडल्स की तुलना में एक महत्वपूर्ण सुधार दर्शाता है, जैसे GPT‑5, जिसका स्कोर 33.3% है और जिसे केवल छह महीने से थोड़ा पहले जारी किया गया था. डिटेक्ट रिकॉल और पैच सक्सेस रेट अभी भी पूर्ण कवरेज से नीचे हैं, क्योंकि बड़ी संख्या में कमजोरियाँ अभी भी एजेंट्स के लिए ढूँढना और ठीक करना कठिन बनी हुई हैं.
EVMbench विभिन्न कार्यों में मॉडल के व्यवहार में दिलचस्प अंतर भी प्रकट करता है. एजेंट्स शोषण सेटिंग में सबसे अच्छा प्रदर्शन करते हैं, जहाँ उद्देश्य स्पष्ट है: तब तक दोहराते रहें जब तक धन समाप्त न हो जाए. इसके विपरीत, खोज और सुधार कार्यों पर प्रदर्शन कमजोर है. ‘पता लगाना’ में, एजेंट्स कभी-कभी कोडबेस का पूरी तरह से ऑडिट करने के बजाय एक ही समस्या की पहचान करने के बाद रुक जाते हैं. ‘पैच’ में, सूक्ष्म कमजोरियों को हटाते हुए पूरी कार्यक्षमता बनाए रखना चुनौतीपूर्ण होता है.
EVMbench वास्तविक दुनिया के स्मार्ट कॉन्ट्रैक्ट सुरक्षा की पूरी कठिनाई का प्रतिनिधित्व नहीं करता है. शामिल की गई कमजोरियाँ Code4rena की ऑडिटिंग प्रतियोगिताओं से ली गई थीं. हालांकि ये यथार्थवादी और उच्च-गंभीरता वाले हैं, कई बड़े पैमाने पर तैनात और व्यापक रूप से उपयोग किए जाने वाले क्रिप्टो अनुबंधों की काफी अधिक जांच-पड़ताल होती है और उनका शोषण करना अधिक कठिन हो सकता है.
हमारी ग्रेडिंग प्रणाली मजबूत है लेकिन अपूर्ण है. ‘detect’ मोड में, हम जाँचते हैं कि क्या एजेंट मानव ऑडिटरों द्वारा पहचानी गई वही भेद्यताएँ ढूँढता है. अगर एजेंट अतिरिक्त समस्याओं की पहचान करता है, तो हमारे पास फिलहाल यह तय करने का कोई विश्वसनीय तरीका नहीं है कि वे वास्तविक कमजोरियों का प्रतिनिधित्व करती हैं जिन्हें इंसानों ने अनदेखा कर दिया था या वे गलत सकारात्मक हैं.
‘एक्सप्लॉइट’ सेटिंग में भी संरचनात्मक सीमाएँ हैं. लेन-देन को ग्रेडिंग कंटेनर में क्रमिक रूप से दोहराया जाता है, इसलिए जो व्यवहार सटीक समय-निर्धारण यांत्रिकी पर निर्भर करते हैं, वे दायरे से बाहर हैं. चेन स्टेट एक साफ़ स्थानीय Anvil इंस्टेंस है, न कि mainnet का फोर्क, और हम वर्तमान में केवल सिंगल-चेन एनवायरनमेंट्स का समर्थन करते हैं. कुछ मामलों में इसके लिए मुख्य नेटवर्क पर डिप्लॉयमेंट्स के बजाय मॉक कॉन्ट्रैक्ट्स की आवश्यकता होती है.
स्मार्ट कॉन्ट्रैक्ट्स अरबों डॉलर की संपत्तियों को सुरक्षित करते हैं, और AI एजेंट्स हमलावरों और रक्षकों दोनों के लिए परिवर्तनकारी साबित हो सकते हैं. इस डोमेन में मॉडल की क्षमता को मापने से उभरते साइबर जोखिमों को ट्रैक करने में मदद मिलती है और तैनात किए गए कॉन्ट्रैक्ट्स का ऑडिट और सुदृढ़ीकरण करने के लिए AI सिस्टम्स का रक्षात्मक रूप से उपयोग करने के महत्व को उजागर करता है.
EVMbench का उद्देश्य एक मापन उपकरण और कार्रवाई के लिए आह्वान दोनों के रूप में है. जैसे-जैसे एजेंट्स में सुधार होता है, डेवलपर्स और सुरक्षा शोधकर्ताओं के लिए अपने कार्यप्रवाह में AI-सहायता प्राप्त ऑडिटिंग को शामिल करना अत्यधिक महत्वपूर्ण हो जाता है.
हाल के महीनों में, हमने साइबरसिक्योरिटी टास्क्स पर मॉडल परफ़ॉर्मेंस में अहम सुधार देखे हैं, जिससे डेवलपर्स और सिक्योरिटी प्रोफ़ेशनल्स—दोनों को फ़ायदा मिला है. समानांतर में, हम डिफेंसिव उपयोग और व्यापक इकोसिस्टम लचीलापन को समर्थन देने के लिए मजबूत साइबर सुरक्षा उपायों की तैयारी कर रहे हैं.
चूँकि साइबरसिक्योरिटी स्वभाव से ड्यूल-यूज़ होती है, हम एविडेंस-बेस्ड और इटरेटिव अप्रोच अपना रहे हैं, जो डिफ़ेंडर्स की वल्नरेबिलिटीज़ ढूँढने और ठीक करने की क्षमता को तेज़ करता है और साथ ही मिसयूज़ को धीमा करता है. हमारे उपायों में सुरक्षा प्रशिक्षण, स्वचालित निगरानी, उन्नत क्षमताओं के लिए विश्वसनीय पहुंच, और खतरे की जानकारी सहित प्रवर्तन पाइपलाइनों का समावेश है.
हम इकोसिस्टम सुरक्षा उपायों में निवेश कर रहे हैं, जैसे कि हमारे सुरक्षा अनुसंधान एजेंट Aardvark के निजी बीटा का विस्तार करना और ओपन-सोर्स मेंटेनर्स के साथ साझेदारी करके व्यापक रूप से उपयोग किए जाने वाले प्रोजेक्ट्स के लिए मुफ्त कोडबेस स्कैनिंग प्रदान करना.
2023 में लॉन्च किए गए हमारे Cybersecurity Grant Program को आगे बढ़ाते हुए, हम अपने सबसे सक्षम मॉडल के साथ साइबर डिफ़ेंस को तेज़ करने के लिए API क्रेडिट्स में $10 मिलियन भी कमिट कर रहे हैं, विशेष रूप से ओपन सोर्स सॉफ़्टवेयर और महत्वपूर्ण इंफ़्रास्ट्रक्चर सिस्टम्स के लिए. सच्ची नीयत से सुरक्षा अनुसंधान में लगी संस्थाएँ हमारे साइबरसिक्योरिटी ग्रांट प्रोग्राम के माध्यम से API क्रेडिट्स और सहायता के लिए आवेदन कर सकती हैं.
हम EVMbench के कार्य, उपकरण, और मूल्यांकन ढांचा जारी कर रहे हैं ताकि उभरती हुई AI साइबर क्षमताओं को मापने और प्रबंधित करने पर चल रहे अनुसंधान को समर्थन मिल सके.


