EVMbench ची ओळख
ब्लॉकचेन वातावरणांमध्ये भेद्यता शोधणे, पॅच करणे आणि शोषण करणे यासाठी AI एजंट्सच्या क्षमतेचे मूल्यांकन करून स्मार्ट कॉन्ट्रॅक्ट्स अधिक सुरक्षित बनवणे.
स्मार्ट कॉन्ट्रॅक्ट्स नियमितपणे ओपन-सोर्स क्रिप्टो मालमत्तेमध्ये $100B+ ची सुरक्षा करतात. AI एजंट्स वाचन, लेखन, आणि कोड अंमलात आणण्यात अधिक सक्षम होत असताना, आर्थिकदृष्ट्या अर्थपूर्ण वातावरणांमध्ये त्यांच्या क्षमतांचे मोजमाप करणे आणि उपयोजित करारांचे ऑडिट करून त्यांना बळकट करण्यासाठी AI प्रणालींचा बचावात्मक वापर प्रोत्साहित करणे अधिकाधिक महत्त्वाचे ठरते.
Paradigm(नवीन विंडोमध्ये उघडेल) सोबत, आम्ही EVMbench सादर करत आहोत, जो AI एजंट्सच्या उच्च-गंभीरतेच्या स्मार्ट कॉन्ट्रॅक्ट असुरक्षा ओळखणे, पॅच करणे आणि शोषण करण्याच्या क्षमतेचे मूल्यांकन करणारा एक मापदंड आहे. EVMbench 40 ऑडिटमधील 117 काळजीपूर्वक निवडलेल्या असुरक्षिततांवर आधारित आहे, ज्यापैकी बहुतेक ओपन कोड ऑडिट स्पर्धांमधून घेतल्या आहेत. EVMbench मध्ये याव्यतिरिक्त Tempo(नवीन विंडोमध्ये उघडेल) blockchain साठीच्या सुरक्षा ऑडिटिंग प्रक्रियेतून घेतलेली अनेक असुरक्षा परिदृश्ये समाविष्ट आहेत, हा एक उद्देश-निर्मित L1 आहे जो stablecoins द्वारे उच्च-थ्रुपुट, कमी-किंमतीची पेमेंट्स सक्षम करण्यासाठी डिझाइन केलेला आहे. ही परिस्थिती बेंचमार्कला पेमेंट-केंद्रित स्मार्ट कॉन्ट्रॅक्ट कोडमध्ये विस्तारित करतात, जिथे आम्हाला एजंटिक स्टेबलकॉइन पेमेंट्स वाढतील अशी अपेक्षा आहे, आणि उदयोन्मुख व्यावहारिक महत्त्वाच्या क्षेत्रात त्याला भक्कम आधार देण्यास मदत करतात.
आमची कार्य वातावरणे तयार करण्यासाठी, जिथे उपलब्ध होती तिथे आम्ही विद्यमान प्रूफ-ऑफ-कॉन्सेप्ट एक्स्प्लॉइट चाचण्या आणि डिप्लॉयमेंट स्क्रिप्ट्समध्ये बदल केले, आणि अन्यथा त्या आम्ही स्वतः लिहिल्या. पॅच मोडसाठी, आम्ही सुनिश्चित केले की भेद्यता शोषणक्षम आहेत आणि आमच्या सेटअपला बाधा आणणारे संकलन-भंग करणारे बदल न करता त्यांचे शमन करता येईल. शोषण मोडसाठी, आम्ही कस्टम ग्रेडर्स तयार केले आणि वातावरणांचे रेड-टीमिंग केले, ज्यायोगे एखादा एजंट ग्रेडरला फसवू शकेल अशा पद्धती शोधून त्यांना पॅच करण्याचा प्रयत्न केला. Paradigm कडून दिल्या जाणाऱ्या डोमेन तज्ज्ञतेद्वारे कार्य-गुणवत्ता नियंत्रणाव्यतिरिक्त, आमच्या वातावरणांची स्थिरता वाढवण्यासाठी आम्ही स्वयंचलित कार्य-ऑडिटिंग एजंट्सचा वापर केला.
EVMbench तीन क्षमता मोडचे मूल्यांकन करते:
- डिटेक्ट: एजंट्स स्मार्ट कॉन्ट्रॅक्ट रिपॉझिटरीचे ऑडिट करतात आणि ग्राउंड-ट्रुथ असुरक्षिततांच्या ओळख आणि संबंधित ऑडिट बक्षिसांवर त्यांना गुण दिले जातात.
- पॅच: एजंट्स दुर्बल करारांमध्ये बदल करतात आणि शोषणक्षमता दूर करताना अपेक्षित कार्यक्षमता जपली पाहिजे. हे स्वयंचलित चाचण्या आणि शोषण तपासण्यांद्वारे पडताळले जाते.
- शोषण: एजंट्स सँडबॉक्स केलेल्या ब्लॉकचेन वातावरणात तैनात केलेल्या करारांवर एंड-टू-एंड निधी-निचरा हल्ले करतात, आणि ग्रेडिंग ट्रान्झॅक्शन रीप्ले आणि ऑन-चेन सत्यापनाद्वारे प्रोग्रामॅटिक पद्धतीने केले जाते.
उद्दिष्टपूर्ण आणि पुनरुत्पादनीय मूल्यांकनाला समर्थन देण्यासाठी, आम्ही Rust-आधारित हार्नेस विकसित केला जो करार डिप्लॉय करतो, एजंट व्यवहार निर्धारकपणे पुन्हा चालवतो, आणि असुरक्षित RPC पद्धतींवर मर्यादा घालतो. शोषण कार्ये स्वतंत्र स्थानिक Anvil वातावरणात चालवली जातात, लाइव्ह नेटवर्क्सवर नाही, आणि भेद्यता ऐतिहासिक आणि सार्वजनिकरीत्या दस्तऐवजीकृत आहेत.
आम्ही सर्व तीन मोड्समध्ये अत्याधुनिक एजंट्सचे मूल्यांकन करतो. ‘शोषण’ मोडमध्ये, GPT‑5.3‑Codex ला Codex CLI द्वारे चालवल्यावर 71.0% गुण मिळतात. हे GPT‑5 सारख्या मागील मॉडेल्सच्या तुलनेत एक लक्षणीय प्रगती दर्शवते, ज्याला 33.3% गुण मिळाले आहेत आणि ते फक्त सहा महिन्यांहून थोड्याच अधिक काळापूर्वी रिलीज झाले होते. डिटेक्ट, रिकॉल आणि पॅच यशाचे दर पूर्ण कव्हरेजच्या खालीच राहतात, कारण मोठ्या प्रमाणातील दुर्बलता एजंटसाठी शोधणे आणि दुरुस्त करणे अजूनही कठीण आहे.
EVMbench विविध कार्यांमध्ये मॉडेलच्या वर्तनातील मनोरंजक फरक देखील उघड करते. एजंट्स 'शोषण' सेटिंगमध्ये सर्वोत्तम कामगिरी करतात, जिथे उद्दिष्ट स्पष्ट असते: निधी संपेपर्यंत पुनरावृत्ती करत राहा. याउलट, शोध आणि पॅच कार्यांवर कामगिरी कमकुवत आहे. In ‘डिटेक्ट’, एजंट्स कधीकधी कोडबेसचे सखोल ऑडिट करण्याऐवजी एकच समस्या ओळखल्यानंतर थांबतात. ‘पॅच’ मध्ये, सूक्ष्म असुरक्षा दूर करताना पूर्ण कार्यक्षमता कायम राखणे आव्हानात्मक राहते.
EVMbench वास्तविक जगातील स्मार्ट कॉन्ट्रॅक्ट सुरक्षेची संपूर्ण कठीणता दर्शवत नाही. समाविष्ट केलेल्या असुरक्षा Code4rena ऑडिटिंग स्पर्धांमधून घेतल्या गेल्या होत्या. जरी हे वास्तववादी आणि उच्च-गंभीरतेचे असले, तरी अनेक मोठ्या प्रमाणावर तैनात आणि व्यापकपणे वापरले जाणारे क्रिप्टो कॉन्ट्रॅक्ट्स लक्षणीय अधिक काटेकोर तपासणीला सामोरे जातात आणि त्यांचा गैरफायदा घेणे अधिक कठीण असू शकते.
आमची ग्रेडिंग प्रणाली मजबूत आहे पण परिपूर्ण नाही. ‘डिटेक्ट’ मोडमध्ये, मानवी ऑडिटर्सनी ओळखलेल्या त्याच असुरक्षितता एजंटला सापडतात का हे आम्ही तपासतो. जर एजंट अतिरिक्त समस्या ओळखतो, तर त्या खऱ्या असुरक्षा आहेत का जे माणसांच्या लक्षात आले नाहीत किंवा खोटे सकारात्मक आहेत हे ठरवण्यासाठी सध्या आमच्याकडे विश्वासार्ह मार्ग नाही.
‘शोषण’ सेटिंगमध्येही संरचनात्मक मर्यादा आहेत. ग्रेडिंग कंटेनरमध्ये व्यवहार क्रमाने पुन्हा चालवले जातात, त्यामुळे अचूक वेळेच्या यंत्रणांवर अवलंबून असलेली वर्तणूक या कक्षेबाहेर आहे. चेन स्टेट ही मुख्य जाळ्याच्या फोर्कऐवजी स्वच्छ स्थानिक Anvil इन्स्टन्स आहे, आणि आम्ही सध्या फक्त एकल-चेन वातावरणांना समर्थन देतो. काही प्रकरणांमध्ये यासाठी मुख्य जाळ्यावरील डिप्लॉयमेंट्सऐवजी बनावट करारांची आवश्यकता असते.
स्मार्ट कॉन्ट्रॅक्ट्स अब्जावधी डॉलर्सच्या मालमत्तेचे संरक्षण करतात, आणि AI एजंट्स हल्लेखोर आणि बचावकर्त्यांसाठी परिवर्तनकारी ठरू शकतात. या डोमेनमध्ये मॉडेलची क्षमता मोजणे उदयोन्मुख सायबर जोखमींचा मागोवा घेण्यास मदत करते आणि तैनात केलेल्या करारांचे ऑडिट आणि बळकटीकरण करण्यासाठी AI प्रणालींचा संरक्षणात्मक वापर करण्याचे महत्त्व अधोरेखित करते.
EVMbench हे मोजमाप साधन आणि कृतीसाठीचे आवाहन म्हणून उद्दिष्टित आहे. एजंट्स सुधारत असताना, विकसक आणि सुरक्षा संशोधकांसाठी त्यांच्या कार्यप्रवाहांमध्ये AI-सहाय्यित ऑडिटिंग समाविष्ट करणे अधिक महत्त्वाचे ठरते.
गेल्या काही महिन्यांत, आम्ही सायबरसुरक्षा कामांवरील मॉडेलच्या कामगिरीत महत्त्वपूर्ण सुधारणा पाहिल्या आहेत, ज्याचा लाभ विकासक आणि सुरक्षा व्यावसायिक दोघांनाही झाला आहे. समांतरपणे, आम्ही बळकट सायबर संरक्षण उपायांची तयारी करत आहोत जे संरक्षणात्मक वापरास समर्थन देतील आणि व्यापक परिसंस्थेची लवचिकता वाढवतील.
सायबरसुरक्षा स्वभावतः दुहेरी-वापराची असल्यामुळे, आम्ही पुराव्यावर आधारित, पुनरावृत्ती दृष्टिकोन स्वीकारत आहोत जो रक्षकांना भेद्यता शोधण्याची आणि दुरुस्त करण्याची क्षमता वाढवतो, तसेच गैरवापर कमी करतो. आमच्या शमन उपायांमध्ये सुरक्षा प्रशिक्षण, स्वयंचलित मॉनिटरिंग, प्रगत क्षमतांसाठी विश्वसनीय प्रवेश, आणि धोका बुद्धिमत्तेसह अंमलबजावणी पाइपलाईन्स यांचा समावेश आहे.
आम्ही इकोसिस्टम संरक्षण उपायांमध्ये गुंतवणूक करत आहोत, जसे की Aardvark, आमचा सुरक्षा संशोधन एजंट, याच्या प्रायव्हेट बीटाचा विस्तार करणे, आणि ओपन-सोर्स मेंटेनर्ससोबत भागीदारी करून व्यापकपणे वापरल्या जाणाऱ्या प्रकल्पांसाठी मोफत कोडबेस स्कॅनिंग प्रदान करणे.
2023 मध्ये सुरू केलेल्या आमच्या सायबरसुरक्षा ग्रँट प्रोग्रॅमवर आधारित, आम्ही आमच्या सर्वात सक्षम मॉडेल्ससह सायबर संरक्षणाला गती देण्यासाठी API क्रेडिट्समध्ये $10M देण्याची वचनबद्धता करत आहोत, विशेषतः ओपन सोर्स सॉफ्टवेअर आणि अत्यावश्यक पायाभूत सुविधा प्रणालींसाठी. चांगल्या हेतूने सुरक्षा संशोधनात सहभागी असलेल्या संस्था आमच्या सायबरसुरक्षा ग्रँट प्रोग्रॅम च्या माध्यमातून API क्रेडिट्स आणि समर्थनासाठी अर्ज करू शकतात.
उदयोन्मुख AI सायबर क्षमतांचे मोजमाप आणि व्यवस्थापन यावरील सततच्या संशोधनाला पाठिंबा देण्यासाठी आम्ही EVMbench चे कार्य, साधने आणि मूल्यांकन फ्रेमवर्क प्रकाशित करत आहोत.


