18 பிப்ரவரி, 2026

EVMbench-ஐ அறிமுகப்படுத்தல்

பிளாக்செயின் சூழல்களில் உள்ள பலவீனங்களைக் கண்டறிய, திருத்த, மற்றும் பயன்படுத்தும் AI ஏஜென்ட்டுகளின் திறனை மதிப்பீடு செய்வதன் மூலம் ஸ்மார்ட் ஒப்பந்தங்களை மேலும் பாதுகாப்பானதாக மாற்றுதல்.

ஆய்வுக் கட்டுரையைப் படிக்கவும்

ஏற்றுகிறது…

ஸ்மார்ட் கான்ட்ராக்ட்டுகள் வழக்கமாக ஓப்பன்-சோர்ஸ் கிரிப்டோவில் $100 பில்லியனுக்கும் அதிகமான மதிப்பைப் பெறுகின்றன. AI ஏஜென்ட்டுகள் குறியீட்டை வாசிக்க, எழுத, இயக்கும் திறன் மேம்படும்போது, பொருளாதார ரீதியாக அர்த்தமுள்ள சூழல்களில் அவற்றின் திறன்களை அளவிடுவது முக்கியமாகிறது, மேலும் வெளியிடப்பட்ட ஒப்பந்தங்களைத் தணிக்கை செய்து வலுப்படுத்த AI அமைப்புகளை பாதுகாப்பு நோக்கில் பயன்படுத்த ஊக்குவிப்பதும் அவசியமாகிறது.

Paradigm⁠(புதிய சாளரத்தில் திறக்கும்) உடன் சேர்ந்து, AI ஏஜென்ட்கள் உயர் தீவிரத்தன்மை கொண்ட ஸ்மார்ட் கான்ட்ராக்ட் பாதிப்புகளை கண்டறிய, திருத்த, மற்றும் பயன்படுத்தும் திறனை மதிப்பீடு செய்யும் அளவுகோலான EVMbench ஐ நாங்கள் அறிமுகப்படுத்துகிறோம். EVMbench 40 தணிக்கைகளிலிருந்து தேர்ந்தெடுக்கப்பட்ட 117 பாதிப்புகளை அடிப்படையாகக் கொண்டுள்ளது, அவற்றில் பெரும்பாலானவை திறந்த குறியீடு தணிக்கை போட்டிகளிலிருந்து பெறப்பட்டவை. ஸ்டேபிள்காயின்கள் மூலம் உயர்-த்ரூபுட் மற்றும் குறைந்த செலவிலான கட்டணங்களை இயலுமைப்படுத்த உருவாக்கப்பட்ட L1 பிளாக்செயினான Tempo⁠(புதிய சாளரத்தில் திறக்கும்) -வின் பாதுகாப்பு தணிக்கை செயல்முறையிலிருந்து பெறப்பட்ட பல பலவீன நிலைகளையும் EVMbench கூடுதலாக உள்ளடக்குகிறது. இந்த நிலைகள், கட்டணங்களை நோக்கமாகக் கொண்ட ஸ்மார்ட் ஒப்பந்தக் குறியீட்டுக்குள் அளவுகோலை விரிவுபடுத்துகின்றன, அங்கு நாங்கள் ஏஜென்ட் சார்ந்த ஸ்டேபிள்காயின் பணப்பரிவர்த்தனைகள் வளரும் என்று எதிர்பார்க்கிறோம், மேலும் இது வளர்ந்து வரும் நடைமுறை முக்கியத்துவம் கொண்ட துறையில் நிலைநிறுத்த உதவுகிறது.

எங்கள் பணிச் சூழல்களை உருவாக்குவதற்காக, இருந்த இடங்களில் proof-of-concept எக்ஸ்ப்ளாய்ட் சோதனைகள் மற்றும் டிப்ளாய்மென்ட் ஸ்க்ரிப்ட்டுகளைத் தழுவிக் கொண்டோம்; அவை இல்லாத சந்தர்ப்பங்களில் அவற்றை கையால் எழுதினோம். பேட்ச் மோடுக்காக, பலவீனங்கள் பயன்படுத்தக்கூடியதாக இருப்பதையும், எங்கள் அமைப்பை பாதிக்கும் தொகுப்பாக்கத்தை முறிக்கும் மாற்றங்களை அறிமுகப்படுத்தாமல் அவற்றைத் சரி செய்ய முடியும் என்பதையும் நாங்கள் உறுதிசெய்தோம். எக்ஸ்ப்ளாய்ட் மோடுக்காக தனிப்பயன் மதிப்பீட்டாளர்களை (custom graders) உருவாக்கி, ஒரு AI ஏஜென்ட் மதிப்பீட்டு அமைப்பை ஏமாற்றக்கூடிய வழிகளை கண்டறிந்து அவற்றை திருத்தும் நோக்கில் சூழல்களை red-team சோதனைக்கு உட்படுத்தினோம். Paradigm வழங்கிய டொமைன் நிபுணத்துவத்தின் மூலம் பணித் தரக் கட்டுப்பாட்டை மேற்கொண்டதுடன், எங்கள் சூழல்களின் உறுதித்தன்மையை அதிகரிக்க ஆட்டோமேட்டிக் பணித் தணிக்கை ஏஜென்ட்டுகளைப் பயன்படுத்தினோம்.

EVMbench மூன்று திறன் நிலைகளை மதிப்பீடு செய்கிறது:

கண்டறிதல்: ஏஜென்ட்டுகள் ஒரு ஸ்மார்ட் கான்ட்ராக்ட் ரிபாசிட்டரியை தணிக்கை செய்து, உண்மைத் தரவிலுள்ள பாதிப்புகளை மீட்டெடுக்கும் திறன் மற்றும் தொடர்புடைய தணிக்கை வெகுமதிகளின் அடிப்படையில் மதிப்பெண்கள் பெறுகின்றன.
பேட்ச்: ஏஜென்ட்டுகள் பாதிக்கப்படும் ஒப்பந்தங்களை மாற்றி, எக்ஸ்ப்ளாய்ட் செய்யப்படுவதற்கான வாய்ப்புகளை நீக்கி, நோக்கமிட்ட செயல்பாட்டை பாதுகாக்க வேண்டும்; இது தானியங்கி சோதனைகள் மற்றும் எக்ஸ்ப்ளாய்ட் சரிபார்ப்புகள் மூலம் உறுதிப்படுத்தப்படுகிறது.
எக்ஸ்ப்ளாய்ட்: ஏஜென்ட்டுகள் sandbox செய்யப்பட்ட ப்ளாக்செயின் சூழலில் வெளியிடப்பட்ட ஒப்பந்தங்களுக்கு எதிராக தொடக்கம் முதல் முடிவு வரை நிதியை வடிகட்டும் தாக்குதல்களை செயல்படுத்துகின்றனர். பரிவர்த்தனை ரீப்ளே மற்றும் ஆன்-செயின் சரிபார்ப்பு மூலம் தரப்படுத்தல் நிரல்முறைப்படுத்தப்பட்ட வகையில் மேற்கொள்ளப்படுகிறது.

பாரபட்சமற்ற மற்றும் மறுபடியும் உருவாக்கக்கூடிய மதிப்பீட்டை ஆதரிப்பதற்காக, ஒப்பந்தங்களை வெளியிடவும், ஏஜென்ட் பரிவர்த்தனைகளை நிர்ணயிக்கப்பட்ட முறையில் மீளபாடம் செய்யவும், பாதுகாப்பற்ற RPC முறைகளை கட்டுப்படுத்தவும் கூடிய Rust அடிப்படையிலான harness ஒன்றை உருவாக்கினோம். எக்ஸ்ப்ளாய்ட் பணிகள் நேரடி நெட்வொர்க்குகளில் அல்லாமல், தனிமைப்படுத்தப்பட்ட உள்ளூர் Anvil சூழலில் இயங்குகின்றன, மேலும், பயன்படுத்தப்படும் பலவீனங்கள் வரலாற்றுச் சம்பவங்களாகவும் பொதுவாக ஆவணப்படுத்தப்பட்டவையாகவும் உள்ளன.

நாங்கள் மூன்று பயன்முறைகளிலும் அதிநவீன ஏஜென்ட்களை மதிப்பீடு செய்கிறோம். ‘exploit’ பயன்முறையில், GPT‑5.3‑Codex Codex CLI மூலம் இயக்குவது 71.0% மதிப்பெண்ணை பெறுகிறது. இது முந்தைய மாடல்களுடன் ஒப்பிடும்போது குறிப்பிடத்தக்க முன்னேற்றத்தை காட்டுகிறது. உதாரணமாக, 33.3% மதிப்பெண் பெறும் GPT‑5 மாடல் ஆறு மாதங்களுக்கு சற்றே மேலாக முன்பு வெளியிடப்பட்டது. கண்டறிதல், மீட்டெடுத்தல் மற்றும் திருத்தம் செய்யும் வெற்றிவிகிதங்கள் முழு கவரேஜுக்கு கீழே உள்ளன, ஏனெனில் பல பாதிப்புகளை ஏஜென்ட்டுகள் கண்டுபிடித்து சரிசெய்வது இன்னும் கடினமாகவே உள்ளது.

EVMbench மாடல் நடத்தையில் பணிகளுக்கிடையே சுவாரஸ்யமான வேறுபாடுகளை வெளிப்படுத்துகிறது. நோக்கம் தெளிவாக உள்ள இடங்களில் ஏஜென்ட்டுகள் எக்ஸ்ப்ளாய்ட் அமைப்பில் சிறப்பாக செயல்படுகின்றன: நிதி முழுமையாக காலியாகும் வரை தொடர்ந்து முயற்சிகளை மேற்கொள்வது. இதற்கு மாறாக, கண்டறிதல் மற்றும் திருத்தல் பணிகளில் செயல்திறன் பலவீனமாக உள்ளது. ‘detect’-இல், ஏஜென்ட்டுகள் சில நேரங்களில் குறியீட்டுத் தொகுப்பை முழுமையாகத் தணிக்கை செய்வதற்குப் பதிலாக, ஒரு ஒற்றை பிரச்சினையை அடையாளம் கண்ட பிறகு நிறுத்திவிடுகின்றன. ‘patch’-இல், நுண்ணிய பாதிப்புகளை அகற்றும் போது முழு செயல்பாட்டை பராமரிப்பது சவாலாக உள்ளது.

வரம்புகள்

EVMbench நிஜ உலக ஸ்மார்ட் கான்ட்ராக்ட் பாதுகாப்பின் முழுமையான சிக்கல்களை பிரதிநிதித்துவப்படுத்தாது. சேர்க்கப்பட்ட பாதிப்புகள் Code4rena ஆடிட் போட்டிகளிலிருந்து பெறப்பட்டவை. இவை யதார்த்தமானதும் உயர் தீவிரத்தன்மை கொண்டதுமானவை என்றாலும், பரவலாக பயன்படுத்தப்படும் பல கிரிப்டோ ஒப்பந்தங்கள் குறிப்பிடத்தக்க அளவில் அதிகமான ஆய்வுக்கு உட்படுத்தப்படுகின்றன மற்றும் அவற்றை எக்ஸ்ப்ளாய்ட் செய்வது கடினமாக இருக்கலாம்.

எங்கள் தரப்படுத்தும் முறை வலுவானது ஆனால் குறைபாடு அற்றது இல்லை. ‘detect’ பயன்முறையில், மனித தணிக்கையாளர்கள் கண்டறிந்த அதே பாதுகாப்பு குறைபாடுகளை ஏஜென்ட் கண்டறிகிறதா என்பதை நாங்கள் சரிபார்க்கிறோம். ஏஜென்ட் கூடுதல் சிக்கல்களை கண்டறிந்தால், அவை மனிதர்கள் கவனிக்காத உண்மையான பாதுகாப்பு குறைபாடுகளாக அல்லது தவறான நேர்மறைகளாக உள்ளன என்பதை தீர்மானிக்க நம்பகமான வழி எங்களிடம் தற்போது இல்லை.

'எக்ஸ்ப்ளாய்ட்' அமைப்பிலும் கட்டமைப்பு வரம்புகள் உள்ளன. பரிவர்த்தனைகள் மதிப்பீட்டு கன்டெய்னரில் வரிசையாக மீண்டும் இயக்கப்படுகின்றன, எனவே துல்லியமான நேரமிடல் இயந்திரவியல்களை சார்ந்த நடத்தைகள் வரம்புக்கு வெளியானவை. செயின் நிலை என்பது மெயின்நெட்டின் ஒரு ஃபோர்க் அல்ல, மாறாக, ஒரு சுத்தமான உள்ளூர் அன்வில் உதாரணமாகும், மேலும் தற்போது நாங்கள் ஒற்றை-செயின் சூழல்களையே ஆதரிக்கிறோம். சில சந்தர்ப்பங்களில் இதற்கு mainnet பயன்படுத்தல்களுக்குப் பதிலாக மாதிரி ஒப்பந்தங்கள் தேவைப்படும்.

ஏன் இது முக்கியமானது

ஸ்மார்ட் ஒப்பந்தங்கள் பில்லியன் கணக்கான டாலர் மதிப்புள்ள சொத்துகளை பாதுகாக்கின்றன, மேலும் AI ஏஜென்ட்டுகள் தாக்குதலாளர்களுக்கும் பாதுகாப்பாளர்களுக்கும் மாற்றத்தை ஏற்படுத்தக்கூடியவையாக இருக்கலாம். இந்த துறையில் மாடல் திறனை அளவிடுவது உருவாகி வரும் சைபர் அபாயங்களைக் கண்காணிக்க உதவுகிறது மற்றும் நடைமுறையில் அமல்படுத்தப்பட்ட ஒப்பந்தங்களை தணிக்கை செய்து வலுப்படுத்த AI அமைப்புகளை தற்காப்பு நோக்கில் பயன்படுத்துவதன் முக்கியத்துவத்தை வலியுறுத்துகிறது.

EVMbench என்பது ஒரு அளவீட்டு கருவியாகவும், செயல்பட வேண்டிய அழைப்பாகவும் நோக்கப்பட்டுள்ளது. ஏஜென்ட்டுகள் மேம்படும்போது, உருவாக்குபவர்களும் பாதுகாப்பு ஆராய்ச்சியாளர்களும் தங்கள் செயல் ஓட்டங்களில் AI உதவியுடன் தணிக்கையை இணைப்பது மிகவும் முக்கியமாகிறது.

கடந்த சில மாதங்களில், சைபர் பாதுகாப்பு பணிகளில் மாடல் செயல்திறனில் குறிப்பிடத்தக்க முன்னேற்றங்களை நாங்கள் கண்டுள்ளோம், இது டெவலப்பர்கள் மற்றும் பாதுகாப்பு நிபுணர்களுக்கு பயனுள்ளதாக உள்ளது. இணையாக, பாதுகாப்பு நோக்கிலான பயன்பாட்டையும் பரந்த சூழலமைப்பு மீள்தன்மையையும் ஆதரிக்க, நாங்கள் வலுப்படுத்தப்பட்ட சைபர் பாதுகாப்பு நடவடிக்கைகளைத் தயாரித்து வருகிறோம்.

சைபர் பாதுகாப்பு இயல்பாகவே இரட்டை பயன்பாட்டுக்குரியது என்பதால், பாதுகாப்பு நிபுணர்கள் பாதிப்புகளைக் கண்டறிந்து சரிசெய்யும் திறனை வேகப்படுத்துவதற்கும், தவறான பயன்பாட்டை மந்தப்படுத்துவதற்கும் ஆதார அடிப்படையிலான, தொடர்ச்சியான அணுகுமுறையை நாங்கள் எடுத்துக்கொள்கிறோம். எங்கள் தணிப்பு நடவடிக்கைகளில் பாதுகாப்பு பயிற்சி, தானியங்கி கண்காணிப்பு, மேம்பட்ட திறன்களுக்கான நம்பகமான அணுகல், மற்றும் அச்சுறுத்தல் நுண்ணறிவை உள்ளடக்கிய அமலாக்க வழிமுறைகள் அடங்கும்.

நாங்கள் சூழலமைப்பு பாதுகாப்பு நடவடிக்கைகளில் முதலீடு செய்கிறோம், அதாவது எங்கள் பாதுகாப்பு ஆராய்ச்சி ஏஜென்ட் Aardvark இன் தனியார் பீட்டாவை விரிவுபடுத்துவது மற்றும் பரவலாகப் பயன்படுத்தப்படும் திட்டங்களுக்கு இலவச கோட்பேஸ் ஸ்கேனிங்கை வழங்க ஓபன்-சோர்ஸ் பராமரிப்பாளர்களுடன் கூட்டாண்மை செய்வது.

2023 இல் தொடங்கப்பட்ட எங்கள் Cybersecurity Grant Program-ஐ அடிப்படையாகக் கொண்டு, திறந்த மூல மென்பொருள் மற்றும் முக்கிய உட்கட்டமைப்பு அமைப்புகளுக்காக எங்கள் மிக திறமையான மாடல்களைப் பயன்படுத்தி சைபர் பாதுகாப்பை துரிதப்படுத்த API கிரெடிட்களில் $10 மில்லியன் ஒதுக்க நாங்கள் உறுதிபூண்டுள்ளோம். நல்ல நம்பிக்கையுடன் பாதுகாப்பு ஆராய்ச்சியில் ஈடுபடும் நிறுவனங்கள் எங்கள் Cybersecurity Grant Program மூலம் API கிரெடிட்ஸ் மற்றும் ஆதரவுக்காக விண்ணப்பிக்கலாம்.

உருவாகி வரும் AI சைபர் திறன்களை அளவிடவும் நிர்வகிக்கவும் தொடர்ச்சியான ஆராய்ச்சியை ஆதரிக்க, EVMbench இன் பணிகள், கருவிகள், மற்றும் மதிப்பீட்டுக் கட்டமைப்பை நாங்கள் வெளியிடுகிறோம்.

தொடர்ந்து படிக்க

அனைத்தையும் பார்க்கவும்

GPT-Red: உறுதித்தன்மைக்கான சுய மேம்பாட்டை திறத்தல்

பாதுகாப்பு15 ஜூலை, 2026

கோடிங் மதிப்பீடுகளில் சிக்னலை இரைச்சலிலிருந்து பிரித்தல்

ஆராய்ச்சி8 ஜூலை, 2026

GeneBench-Pro-ஐ அறிமுகப்படுத்துகிறோம்

ஆராய்ச்சி30 ஜூன், 2026