EVMbench పరిచయం చేస్తున్నాం
బ్లాక్చైన్ పరిసరాలలో ఉన్న లోపాలను గుర్తించడం, సరిదిద్దడం మరియు వాటిని వినియోగించుకోవడంలో కృత్రిమ మేధ ఏజెంట్ల సామర్థ్యాన్ని అంచనా వేయడం ద్వారా స్మార్ట్ కాంట్రాక్టులను మరింత సురక్షితంగా మార్చడం.
స్మార్ట్ కాంట్రాక్ట్లు సాధారణంగా ఓపెన్-సోర్స్ క్రిప్టో ఆస్తుల్లో $100B+ కన్నా ఎక్కువ మొత్తాలను సురక్షితం చేస్తాయి. AI ఏజెంట్లు చదవడం, రాయడం, మరియు కోడ్ను అమలు చేయడంలో మెరుగుపడుతున్న కొద్దీ, ఆర్థికంగా అర్థవంతమైన పరిసరాల్లో వారి సామర్థ్యాలను కొలవడం మరింత ముఖ్యమవుతోంది. అలాగే, అమలు చేసిన ఒప్పందాలను ఆడిట్ చేసి బలోపేతం చేయడానికి AI సిస్టమ్లను రక్షణాత్మకంగా ఉపయోగించడాన్ని ప్రోత్సహించడం అవసరం.
Paradigm(కొత్త విండోలో తెరుచుకుంటుంది)తో కలిసి, మేం EVMbench అనే బెంచ్మార్క్ను పరిచయం చేస్తున్నాం, ఇది అధిక-తీవ్రత స్మార్ట్ కాంట్రాక్ట్ లోపాలను గుర్తించడం, ప్యాచ్ చేయడం, మరియు దుర్వినియోగ విషయంలో AI ఏజెంట్ల సామర్థ్యాన్ని అంచనా వేస్తుంది. EVMbench 40 ఆడిట్ల నుండి కూర్చిన 117 భద్రతా లోపాలను ఆధారంగా తీసుకుంటుంది, వీటిలో ఎక్కువ భాగం ఓపెన్ కోడ్ ఆడిట్ పోటీల నుండి సేకరించబడింది. EVMbench అదనంగా, స్టేబుల్కాయిన్ల ద్వారా అధిక-థ్రూపుట్, తక్కువ-ఖర్చు చెల్లింపులను సాధ్యం చేయడానికి రూపొందించబడిన ప్రత్యేక L1 అయిన Tempo(కొత్త విండోలో తెరుచుకుంటుంది) బ్లాక్చెయిన్ కోసం భద్రతా ఆడిటింగ్ ప్రక్రియ నుండి తీసుకున్న అనేక భద్రతా లోపాల సన్నివేశాలను కూడా కలిగి ఉంది. ఈ సన్నివేశాలు బెంచ్మార్క్ను పేమెంట్-ఆధారిత స్మార్ట్ కాంట్రాక్ట్ కోడ్ వరకు విస్తరించాయి, ఇక్కడ ఏజెంటిక్ స్టేబుల్కాయిన్ పేమెంట్స్ పెరుగుతాయని మేము ఆశిస్తున్నాము, మరియు ఇది అభివృద్ధి చెందుతున్న ప్రాక్టికల్ ప్రాముఖ్యత కలిగిన ఒక డొమైన్లో దీనిని స్థిరపరచడానికి సహాయపడుతుంది.
మా టాస్క్ ఎన్విరాన్మెంట్లను సృష్టించడానికి, మేం ఉన్న ప్రూఫ్ ఆఫ్ కాన్సెప్ట్ ఎక్స్ప్లాయిట్ టెస్టులు మరియు డిప్లాయ్మెంట్ స్క్రిప్ట్లు అనుసరించాం, అవి లేనప్పుడు వాటిని మాన్యువల్గా రాశాం. ప్యాచ్ మోడ్ కోసం, లోపాలు దుర్వినియోగానికి గురయ్యే అవకాశం ఉందని మరియు మా సెటప్ను దెబ్బతీయకుండా, కంపైలేషన్ను భంగం చేసే మార్పులు లేకుండా వాటిని తగ్గించవచ్చని మేం నిర్ధారించుకున్నాం. ఎక్స్ప్లాయిట్ మోడ్ కోసం, మేము కస్టమ్ గ్రేడర్స్ రాసి, ఏజెంట్ గ్రేడర్ను మోసం చేయగల పద్ధతులను కనుగొని ప్యాచ్ చేయడానికి ప్రయత్నించడానికి ఎన్విరాన్మెంట్లను రెడ్-టీమ్ చేశాము. పరాడిగమ్ అందించిన డొమైన్ నైపుణ్యంతో టాస్క్ నాణ్యత నియంత్రణకు తోడు, మా పరిసరాల స్థిరత్వాన్ని పెంచడానికి మేము ఆటోమేటెడ్ టాస్క్ ఆడిటింగ్ ఏజెంట్లను ఉపయోగించాము.
EVMbench మూడు సామర్థ్య మోడ్లు అంచనా వేస్తుంది:
- గుర్తించడం: ఏజెంట్లు స్మార్ట్ కాంట్రాక్ట్ రిపోజిటరీని ఆడిట్ చేసి, గ్రౌండ్-ట్రూత్ లోపాలను గుర్తించి, సంబంధిత ఆడిట్ రివార్డ్స్పై రీకాల్ ఆధారంగా స్కోర్ చేయబడతాయి.
- ప్యాచ్: ఏజెంట్లు దుర్బల కాంట్రాక్ట్లను సవరించి, దుర్వినియోగ సామర్థ్యాన్ని తొలగిస్తూ, ఉద్దేశించిన విధులను కాపాడాలి. ఇది ఆటోమేటెడ్ పరీక్షలు మరియు ఎక్స్ప్లాయిట్ చెక్ల ద్వారా ధృవీకరిస్తారు.
- ఎక్స్ప్లాయిట్: ఏజెంట్లు శాండ్బాక్స్ చేసిన బ్లాక్చైన్ వాతావరణంలో అమలు చేసిన కాంట్రాక్ట్లపై ఎండ్-టు-ఎండ్ నిధుల డ్రైనింగ్ దాడులను నిర్వహిస్తాయి, ట్రాన్సాక్షన్ రీప్లే మరియు ఆన్-చైన్ వెరిఫికేషన్ ద్వారా ప్రోగ్రామాటిక్గా గ్రేడింగ్ చేస్తుంది.
నిష్పాక్షికమైన మరియు పునరుత్పత్తి చేయదగిన అంచనాకు మద్దతుగా, మేము కాంట్రాక్టులను అమలు చేసే, ఏజెంట్ లావాదేవీలను నిర్ణయాత్మకంగా పునరావృతం చేసే మరియు అసురక్షిత RPC పద్ధతులను నియంత్రించే రస్ట్ ఆధారిత హార్నెస్ను అభివృద్ధి చేశాం. ఎక్స్ప్లాయిట్ పనులు లైవ్ నెట్వర్క్లపై కాకుండా, వేరుచేసిన లోకల్ Anvil వాతావరణంలో నడుస్తాయి, లోపాల్లో చారిత్రక మరియు ప్రజలకు అందుబాటులో ఉన్న డాక్యుమెంటేషన్ ఉంటుంది.
మేం మొత్తం మూడు మోడ్ల్లో అత్యాధునిక ఏజెంట్లను అంచనా వేస్తాం. ‘exploit’ మోడ్లో, GPT‑5.3‑Codex Codex CLI ద్వారా నడపడం 71.0% స్కోర్ సాధించింది. ఇది పూర్వ మోడళ్లతో పోలిస్తే గణనీయమైన పురోగతిని సూచిస్తుంది, ఉదాహరణకు, GPT‑5 33.3% స్కోర్ సాధించింది మరియు అది కేవలం ఆరు నెలల కాస్త ఎక్కువ క్రితమే విడుదలైంది. డిటెక్ట్ రీకాల్ మరియు ప్యాచ్ విజయ రేట్లు ఇంకా పూర్తి కవరేజ్ కంటే తక్కువగా ఉన్నాయి, ఎందుకంటే చాలా వల్నరబిలిటీలు ఏజెంట్లకు కనుగొనడం మరియు సరిచేయడం కష్టంగా ఉంది.
EVMbench కూడా వివిధ పనుల్లో మోడల్ ప్రవర్తనలో ఆసక్తికరమైన తేడాలు చూపిస్తుంది. ఎక్స్ప్లాయిట్ సెట్టింగ్లో ఏజెంట్లు అత్యుత్తమంగా పనిచేస్తారు, అక్కడ లక్ష్యం స్పష్టంగా ఉంటుంది: నిధులు పూర్తిగా ఖాళీ అయ్యే వరకు పునరావృతం చేయండి. దీనికి విరుద్ధంగా, గుర్తించడం మరియు ప్యాచ్ టాస్క్లలో పనితీరు బలహీనంగా ఉంటుంది. In ‘detect’, ఏజెంట్లు కొన్నిసార్లు కోడ్బేస్ను పూర్తిగా ఆడిట్ చేయకుండా, ఒక్క సమస్యను గుర్తించిన తర్వాతే ఆగిపోతారు. ‘పాచ్’లో, పూర్తి కార్యాచరణను కొనసాగిస్తూ సూక్ష్మమైన బలహీనతలను తొలగించడం సవాలుగా మిగిలింది.
EVMbench నిజమైన ప్రపంచ స్మార్ట్ కాంట్రాక్ట్ భద్రత పూర్తి కఠినత ప్రతిబింబించదు. చేర్చిన బలహీనతలు Code4rena ఆడిటింగ్ పోటీల నుంచి తీసుకున్నవి. ఇవి వాస్తవమైనవి మరియు అధిక తీవ్రత కలిగినవైనా, విస్తృతంగా అమలు చేసిన మరియు విస్తృతంగా ఉపయోగించే అనేక క్రిప్టో కాంట్రాక్టులు గణనీయంగా ఎక్కువ పరిశీలనకు లోనవుతాయి, వాటిని దుర్వినియోగం చేయడం మరింత కష్టంగా ఉండవచ్చు.
మా గ్రేడింగ్ వ్యవస్థ బలమైనది కానీ పరిపూర్ణం కాదు. ‘డిటెక్ట్’ మోడ్లో, మేం ఏజెంట్ మానవ ఆడిటర్లు గుర్తించిన అదే దుర్బలతలు కనుగొంటుందా అని తనిఖీ చేస్తాం. ఏజెంట్ అదనపు సమస్యలను గుర్తిస్తే, అవి మనుషులు మిస్ చేసిన నిజమైన దుర్బలతలని లేదా తప్పుడు పాజిటివ్లని సూచిస్తాయా అనే విషయాన్ని నిర్ధారించడానికి ప్రస్తుతం మాకు నమ్మదగిన మార్గం లేదు.
‘ఎక్స్ప్లాయిట్’ సెట్టింగ్లో కూడా నిర్మాణాత్మక పరిమితులు ఉన్నాయి. గ్రేడింగ్ కంటైనర్లో లావాదేవీలు వరుసగా పునరావృతం చేయబడతాయి, అందువల్ల ఖచ్చితమైన సమయ యాంత్రికతలపై ఆధారపడే ప్రవర్తనలు పరిధిలో లేవు. చైన్ స్థితి mainnet యొక్క ఫోర్క్ కాకుండా శుభ్రమైన స్థానిక Anvil ఇన్స్టాన్స్, మరియు మేము ప్రస్తుతం కేవలం సింగిల్-చైన్ వాతావరణాలను మాత్రమే మద్దతు ఇస్తున్నాము. కొన్ని సందర్భాల్లో ఇది మెయిన్నెట్ డిప్లాయ్మెంట్లకు బదులుగా మాక్ కాంట్రాక్ట్లను అవసరం చేస్తుంది.
స్మార్ట్ కాంట్రాక్ట్లు బిలియన్ల డాలర్ల ఆస్తులను సురక్షితం చేస్తాయి, AI ఏజెంట్లు దాడి చేసేవారికీ రక్షించేవారికీ విప్లవాత్మక మార్పులను తీసుకువచ్చే అవకాశం ఉంది. ఈ డొమైన్లో మోడల్ సామర్థ్యాన్ని కొలవడం ఉద్భవిస్తున్న సైబర్ ముప్పులను ట్రాక్ చేయడంలో సహాయపడుతుంది, అమలులో ఉన్న ఒప్పందాలను ఆడిట్ చేసి బలోపేతం చేయడానికి AI వ్యవస్థలను రక్షణాత్మకంగా ఉపయోగించే ప్రాముఖ్యతను హైలైట్ చేస్తుంది.
EVMbench కొలత సాధనంగా మరియు చర్యకు పిలుపుగా ఉద్దేశించబడింది. ఏజెంట్లు మెరుగుపడుతున్న కొద్దీ, డెవలపర్లు మరియు భద్రతా పరిశోధకులు తమ పనితీరులో AI-సహాయంతో ఆడిటింగ్ను చేర్చడం మరింత ముఖ్యమవుతోంది.
ఇటీవల నెలలుగా, సైబర్సెక్యూరిటీ టాస్క్లపై మోడల్ పనితీరులో గణనీయమైన మెరుగుదలలను చూశాం, ఇవి డెవలపర్లు మరియు సెక్యూరిటీ ప్రొఫెషనల్స్ ఇద్దరికీ లాభాన్ని చేకూర్చాయి. అదే సమయంలో, రక్షణాత్మక వినియోగానికి మద్దతు ఇవ్వడానికి మరియు విస్తృత ఎకోసిస్టమ్ స్థిరత్వాన్ని పెంచడానికి మేం బలోపేతం చేసిన సైబర్ రక్షణలను సిద్ధం చేయడం పై పని చేస్తున్నాము.
సైబర్సెక్యూరిటీ స్వభావతా డ్యూయల్-యూజ్ కావడం వల్ల, డిఫెండర్లు వల్నరబిలిటీలను కనుగొని ఫిక్స్ చేయగల సామర్థ్యాన్ని వేగవంతం చేస్తూనే, మిస్యూజ్ను నెమ్మదింపజేసే ఎవిడెన్స్-బేస్డ్, ఇటరేటివ్ అప్రోచ్ను మేము తీసుకుంటున్నాము. మా నివృత్తి చర్యల్లో భద్రతా శిక్షణ, ఆటోమేటెడ్ మానిటరింగ్, అధునాతన సామర్థ్యాల కోసం నమ్మకమైన ప్రాప్యత, ముప్పు నిఖిలం కలిగిన అమలు పైప్లైన్లు ఉన్నాయి.
మేం Aardvark అనే మా సెక్యూరిటీ రీసెర్చ్ ఏజెంట్ ప్రైవేట్ బీటాను విస్తరించడం వంటి ఎకోసిస్టమ్ రక్షణ చర్యల్లో ఇన్వెస్ట్ చేస్తున్నాం, విస్తృతంగా ఉపయోగించే ప్రాజెక్ట్లకు ఉచిత కోడ్బేస్ స్కానింగ్ అందించేందుకు ఓపెన్-సోర్స్ మెయింటైనర్లతో పంచుకుంటున్నాం.
2023లో ప్రారంభించిన మా సైబర్సెక్యూరిటీ గ్రాంట్ ప్రోగ్రామ్ను ఆధారంగా చేసుకుని, ముఖ్యంగా ఓపెన్ సోర్స్ సాఫ్ట్వేర్ మరియు క్రిటికల్ ఇన్ఫ్రాస్ట్రక్చర్ సిస్టమ్ల కోసం మా అత్యంత సామర్థ్యవంతమైన మోడల్స్తో సైబర్ డిఫెన్స్ను వేగవంతం చేయడానికి $10 మిలియన్ API క్రెడిట్స్ను కేటాయించడానికి మేం కూడా కట్టుబడి ఉన్నాం. నిజాయితీతో కూడిన భద్రతా పరిశోధనలో పాల్గొంటున్న సంస్థలు మా సైబర్సెక్యూరిటీ గ్రాంట్ ప్రోగ్రామ్ ద్వారా API క్రెడిట్లు మరియు మద్దతు కోసం దరఖాస్తు చేసుకోవచ్చు.
ఉద్భవిస్తున్న AI సైబర్ సామర్థ్యాలను కొలవడం, నిర్వహించడం పై కొనసాగుతున్న పరిశోధనకు మద్దతు ఇవ్వడానికి మేం EVMbench’s పనులు, టూలింగ్, మరియు మూల్యాంకన ఫ్రేమ్వర్క్ను విడుదల చేస్తున్నాం.


