18 ఫిబ్రవరి, 2026

EVMbench‌ పరిచయం చేస్తున్నాం

బ్లాక్‌చైన్ పరిసరాలలో ఉన్న లోపాలను గుర్తించడం, సరిదిద్దడం మరియు వాటిని వినియోగించుకోవడంలో కృత్రిమ మేధ ఏజెంట్ల సామర్థ్యాన్ని అంచనా వేయడం ద్వారా స్మార్ట్ కాంట్రాక్టులను మరింత సురక్షితంగా మార్చడం.

పేపర్ చదవండి

లోడ్ అవుతోంది…

స్మార్ట్ కాంట్రాక్ట్‌లు సాధారణంగా ఓపెన్-సోర్స్ క్రిప్టో ఆస్తుల్లో $100B+ కన్నా ఎక్కువ మొత్తాలను సురక్షితం చేస్తాయి. AI ఏజెంట్‌లు చదవడం, రాయడం, మరియు కోడ్‌ను అమలు చేయడంలో మెరుగుపడుతున్న కొద్దీ, ఆర్థికంగా అర్థవంతమైన పరిసరాల్లో వారి సామర్థ్యాలను కొలవడం మరింత ముఖ్యమవుతోంది. అలాగే, అమలు చేసిన ఒప్పందాలను ఆడిట్ చేసి బలోపేతం చేయడానికి AI సిస్టమ్‌లను రక్షణాత్మకంగా ఉపయోగించడాన్ని ప్రోత్సహించడం అవసరం.

Paradigm⁠(కొత్త విండోలో తెరుచుకుంటుంది)తో కలిసి, మేం EVMbench అనే బెంచ్‌మార్క్‌ను పరిచయం చేస్తున్నాం, ఇది అధిక-తీవ్రత స్మార్ట్ కాంట్రాక్ట్ లోపాలను గుర్తించడం, ప్యాచ్ చేయడం, మరియు దుర్వినియోగ విషయంలో AI ఏజెంట్ల సామర్థ్యాన్ని అంచనా వేస్తుంది. EVMbench 40 ఆడిట్ల నుండి కూర్చిన 117 భద్రతా లోపాలను ఆధారంగా తీసుకుంటుంది, వీటిలో ఎక్కువ భాగం ఓపెన్ కోడ్ ఆడిట్ పోటీల నుండి సేకరించబడింది. EVMbench అదనంగా, స్టేబుల్‌కాయిన్ల ద్వారా అధిక-థ్రూపుట్, తక్కువ-ఖర్చు చెల్లింపులను సాధ్యం చేయడానికి రూపొందించబడిన ప్రత్యేక L1 అయిన Tempo⁠(కొత్త విండోలో తెరుచుకుంటుంది) బ్లాక్‌చెయిన్ కోసం భద్రతా ఆడిటింగ్ ప్రక్రియ నుండి తీసుకున్న అనేక భద్రతా లోపాల సన్నివేశాలను కూడా కలిగి ఉంది. ఈ సన్నివేశాలు బెంచ్‌మార్క్‌ను పేమెంట్-ఆధారిత స్మార్ట్ కాంట్రాక్ట్ కోడ్ వరకు విస్తరించాయి, ఇక్కడ ఏజెంటిక్ స్టేబుల్‌కాయిన్ పేమెంట్స్ పెరుగుతాయని మేము ఆశిస్తున్నాము, మరియు ఇది అభివృద్ధి చెందుతున్న ప్రాక్టికల్ ప్రాముఖ్యత కలిగిన ఒక డొమైన్‌లో దీనిని స్థిరపరచడానికి సహాయపడుతుంది.

మా టాస్క్ ఎన్విరాన్‌మెంట్‌లను సృష్టించడానికి, మేం ఉన్న ప్రూఫ్ ఆఫ్ కాన్సెప్ట్ ఎక్స్‌ప్లాయిట్ టెస్టులు మరియు డిప్లాయ్‌మెంట్ స్క్రిప్ట్‌లు అనుసరించాం, అవి లేనప్పుడు వాటిని మాన్యువల్‌గా రాశాం. ప్యాచ్ మోడ్ కోసం, లోపాలు దుర్వినియోగానికి గురయ్యే అవకాశం ఉందని మరియు మా సెటప్‌ను దెబ్బతీయకుండా, కంపైలేషన్‌ను భంగం చేసే మార్పులు లేకుండా వాటిని తగ్గించవచ్చని మేం నిర్ధారించుకున్నాం. ఎక్స్‌ప్లాయిట్ మోడ్ కోసం, మేము కస్టమ్ గ్రేడర్స్ రాసి, ఏజెంట్ గ్రేడర్‌ను మోసం చేయగల పద్ధతులను కనుగొని ప్యాచ్ చేయడానికి ప్రయత్నించడానికి ఎన్విరాన్‌మెంట్‌లను రెడ్-టీమ్ చేశాము. పరాడిగమ్ అందించిన డొమైన్ నైపుణ్యంతో టాస్క్ నాణ్యత నియంత్రణకు తోడు, మా పరిసరాల స్థిరత్వాన్ని పెంచడానికి మేము ఆటోమేటెడ్ టాస్క్ ఆడిటింగ్ ఏజెంట్లను ఉపయోగించాము.

EVMbench మూడు సామర్థ్య మోడ్‌లు అంచనా వేస్తుంది:

గుర్తించడం: ఏజెంట్‌లు స్మార్ట్ కాంట్రాక్ట్ రిపోజిటరీని ఆడిట్ చేసి, గ్రౌండ్-ట్రూత్ లోపాలను గుర్తించి, సంబంధిత ఆడిట్ రివార్డ్స్‌పై రీకాల్ ఆధారంగా స్కోర్ చేయబడతాయి.
ప్యాచ్: ఏజెంట్‌లు దుర్బల కాంట్రాక్ట్‌లను సవరించి, దుర్వినియోగ సామర్థ్యాన్ని తొలగిస్తూ, ఉద్దేశించిన విధులను కాపాడాలి. ఇది ఆటోమేటెడ్ పరీక్షలు మరియు ఎక్స్‌ప్లాయిట్ చెక్‌ల ద్వారా ధృవీకరిస్తారు.
ఎక్స్‌ప్లాయిట్: ఏజెంట్‌లు శాండ్‌బాక్స్ చేసిన బ్లాక్‌చైన్ వాతావరణంలో అమలు చేసిన కాంట్రాక్ట్‌లపై ఎండ్-టు-ఎండ్ నిధుల డ్రైనింగ్ దాడులను నిర్వహిస్తాయి, ట్రాన్సాక్షన్ రీప్లే మరియు ఆన్-చైన్ వెరిఫికేషన్ ద్వారా ప్రోగ్రామాటిక్‌గా గ్రేడింగ్ చేస్తుంది.

నిష్పాక్షికమైన మరియు పునరుత్పత్తి చేయదగిన అంచనాకు మద్దతుగా, మేము కాంట్రాక్టులను అమలు చేసే, ఏజెంట్ లావాదేవీలను నిర్ణయాత్మకంగా పునరావృతం చేసే మరియు అసురక్షిత RPC పద్ధతులను నియంత్రించే రస్ట్ ఆధారిత హార్నెస్‌ను అభివృద్ధి చేశాం. ఎక్స్‌ప్లాయిట్ పనులు లైవ్ నెట్‌వర్క్‌లపై కాకుండా, వేరుచేసిన లోకల్ Anvil వాతావరణంలో నడుస్తాయి, లోపాల్లో చారిత్రక మరియు ప్రజలకు అందుబాటులో ఉన్న డాక్యుమెంటేషన్ ఉంటుంది.

మేం మొత్తం మూడు మోడ్‌ల్లో అత్యాధునిక ఏజెంట్‌లను అంచనా వేస్తాం. ‘exploit’ మోడ్‌లో, GPT‑5.3‑Codex Codex CLI ద్వారా నడపడం 71.0% స్కోర్ సాధించింది. ఇది పూర్వ మోడళ్లతో పోలిస్తే గణనీయమైన పురోగతిని సూచిస్తుంది, ఉదాహరణకు, GPT‑5 33.3% స్కోర్ సాధించింది మరియు అది కేవలం ఆరు నెలల కాస్త ఎక్కువ క్రితమే విడుదలైంది. డిటెక్ట్ రీకాల్ మరియు ప్యాచ్ విజయ రేట్లు ఇంకా పూర్తి కవరేజ్ కంటే తక్కువగా ఉన్నాయి, ఎందుకంటే చాలా వల్నరబిలిటీలు ఏజెంట్లకు కనుగొనడం మరియు సరిచేయడం కష్టంగా ఉంది.

EVMbench కూడా వివిధ పనుల్లో మోడల్ ప్రవర్తనలో ఆసక్తికరమైన తేడాలు చూపిస్తుంది. ఎక్స్‌ప్లాయిట్ సెట్టింగ్‌లో ఏజెంట్లు అత్యుత్తమంగా పనిచేస్తారు, అక్కడ లక్ష్యం స్పష్టంగా ఉంటుంది: నిధులు పూర్తిగా ఖాళీ అయ్యే వరకు పునరావృతం చేయండి. దీనికి విరుద్ధంగా, గుర్తించడం మరియు ప్యాచ్ టాస్క్‌లలో పనితీరు బలహీనంగా ఉంటుంది. In ‘detect’, ఏజెంట్‌లు కొన్నిసార్లు కోడ్‌బేస్‌ను పూర్తిగా ఆడిట్ చేయకుండా, ఒక్క సమస్యను గుర్తించిన తర్వాతే ఆగిపోతారు. ‘పాచ్’లో, పూర్తి కార్యాచరణను కొనసాగిస్తూ సూక్ష్మమైన బలహీనతలను తొలగించడం సవాలుగా మిగిలింది.

పరిమితులు

EVMbench నిజమైన ప్రపంచ స్మార్ట్ కాంట్రాక్ట్ భద్రత పూర్తి కఠినత ప్రతిబింబించదు. చేర్చిన బలహీనతలు Code4rena ఆడిటింగ్ పోటీల నుంచి తీసుకున్నవి. ఇవి వాస్తవమైనవి మరియు అధిక తీవ్రత కలిగినవైనా, విస్తృతంగా అమలు చేసిన మరియు విస్తృతంగా ఉపయోగించే అనేక క్రిప్టో కాంట్రాక్టులు గణనీయంగా ఎక్కువ పరిశీలనకు లోనవుతాయి, వాటిని దుర్వినియోగం చేయడం మరింత కష్టంగా ఉండవచ్చు.

మా గ్రేడింగ్ వ్యవస్థ బలమైనది కానీ పరిపూర్ణం కాదు. ‘డిటెక్ట్’ మోడ్‌లో, మేం ఏజెంట్ మానవ ఆడిటర్లు గుర్తించిన అదే దుర్బలతలు కనుగొంటుందా అని తనిఖీ చేస్తాం. ఏజెంట్ అదనపు సమస్యలను గుర్తిస్తే, అవి మనుషులు మిస్ చేసిన నిజమైన దుర్బలతలని లేదా తప్పుడు పాజిటివ్‌లని సూచిస్తాయా అనే విషయాన్ని నిర్ధారించడానికి ప్రస్తుతం మాకు నమ్మదగిన మార్గం లేదు.

‘ఎక్స్‌ప్లాయిట్’ సెట్టింగ్‌లో కూడా నిర్మాణాత్మక పరిమితులు ఉన్నాయి. గ్రేడింగ్ కంటైనర్‌లో లావాదేవీలు వరుసగా పునరావృతం చేయబడతాయి, అందువల్ల ఖచ్చితమైన సమయ యాంత్రికతలపై ఆధారపడే ప్రవర్తనలు పరిధిలో లేవు. చైన్ స్థితి mainnet యొక్క ఫోర్క్ కాకుండా శుభ్రమైన స్థానిక Anvil ఇన్‌స్టాన్స్, మరియు మేము ప్రస్తుతం కేవలం సింగిల్-చైన్ వాతావరణాలను మాత్రమే మద్దతు ఇస్తున్నాము. కొన్ని సందర్భాల్లో ఇది మెయిన్‌నెట్ డిప్లాయ్‌మెంట్‌లకు బదులుగా మాక్ కాంట్రాక్ట్‌లను అవసరం చేస్తుంది.

ఇది ఎందుకు ముఖ్యమైనది

స్మార్ట్ కాంట్రాక్ట్‌లు బిలియన్ల డాలర్ల ఆస్తులను సురక్షితం చేస్తాయి, AI ఏజెంట్లు దాడి చేసేవారికీ రక్షించేవారికీ విప్లవాత్మక మార్పులను తీసుకువచ్చే అవకాశం ఉంది. ఈ డొమైన్‌లో మోడల్ సామర్థ్యాన్ని కొలవడం ఉద్భవిస్తున్న సైబర్ ముప్పులను ట్రాక్ చేయడంలో సహాయపడుతుంది, అమలులో ఉన్న ఒప్పందాలను ఆడిట్ చేసి బలోపేతం చేయడానికి AI వ్యవస్థలను రక్షణాత్మకంగా ఉపయోగించే ప్రాముఖ్యతను హైలైట్ చేస్తుంది.

EVMbench కొలత సాధనంగా మరియు చర్యకు పిలుపుగా ఉద్దేశించబడింది. ఏజెంట్లు మెరుగుపడుతున్న కొద్దీ, డెవలపర్లు మరియు భద్రతా పరిశోధకులు తమ పనితీరులో AI-సహాయంతో ఆడిటింగ్‌ను చేర్చడం మరింత ముఖ్యమవుతోంది.

ఇటీవల నెలలుగా, సైబర్‌సెక్యూరిటీ టాస్క్‌లపై మోడల్ పనితీరులో గణనీయమైన మెరుగుదలలను చూశాం, ఇవి డెవలపర్‌లు మరియు సెక్యూరిటీ ప్రొఫెషనల్స్ ఇద్దరికీ లాభాన్ని చేకూర్చాయి. అదే సమయంలో, రక్షణాత్మక వినియోగానికి మద్దతు ఇవ్వడానికి మరియు విస్తృత ఎకోసిస్టమ్ స్థిరత్వాన్ని పెంచడానికి మేం బలోపేతం చేసిన సైబర్ రక్షణలను సిద్ధం చేయడం పై పని చేస్తున్నాము.

సైబర్‌సెక్యూరిటీ స్వభావతా డ్యూయల్-యూజ్ కావడం వల్ల, డిఫెండర్లు వల్నరబిలిటీలను కనుగొని ఫిక్స్ చేయగల సామర్థ్యాన్ని వేగవంతం చేస్తూనే, మిస్‌యూజ్‌ను నెమ్మదింపజేసే ఎవిడెన్స్-బేస్డ్, ఇటరేటివ్ అప్రోచ్‌ను మేము తీసుకుంటున్నాము. మా నివృత్తి చర్యల్లో భద్రతా శిక్షణ, ఆటోమేటెడ్ మానిటరింగ్, అధునాతన సామర్థ్యాల కోసం నమ్మకమైన ప్రాప్యత, ముప్పు నిఖిలం కలిగిన అమలు పైప్‌లైన్లు ఉన్నాయి.

మేం Aardvark అనే మా సెక్యూరిటీ రీసెర్చ్ ఏజెంట్ ప్రైవేట్ బీటాను విస్తరించడం వంటి ఎకోసిస్టమ్ రక్షణ చర్యల్లో ఇన్వెస్ట్ చేస్తున్నాం, విస్తృతంగా ఉపయోగించే ప్రాజెక్ట్‌లకు ఉచిత కోడ్‌బేస్ స్కానింగ్ అందించేందుకు ఓపెన్-సోర్స్ మెయింటైనర్‌లతో పంచుకుంటున్నాం.

2023లో ప్రారంభించిన మా సైబర్‌సెక్యూరిటీ గ్రాంట్ ప్రోగ్రామ్‌ను ఆధారంగా చేసుకుని, ముఖ్యంగా ఓపెన్ సోర్స్ సాఫ్ట్‌వేర్ మరియు క్రిటికల్ ఇన్‌ఫ్రాస్ట్రక్చర్ సిస్టమ్‌ల కోసం మా అత్యంత సామర్థ్యవంతమైన మోడల్స్‌తో సైబర్ డిఫెన్స్‌ను వేగవంతం చేయడానికి $10 మిలియన్ API క్రెడిట్స్‌ను కేటాయించడానికి మేం కూడా కట్టుబడి ఉన్నాం. నిజాయితీతో కూడిన భద్రతా పరిశోధనలో పాల్గొంటున్న సంస్థలు మా సైబర్‌సెక్యూరిటీ గ్రాంట్ ప్రోగ్రామ్ ద్వారా API క్రెడిట్లు మరియు మద్దతు కోసం దరఖాస్తు చేసుకోవచ్చు.

ఉద్భవిస్తున్న AI సైబర్ సామర్థ్యాలను కొలవడం, నిర్వహించడం పై కొనసాగుతున్న పరిశోధనకు మద్దతు ఇవ్వడానికి మేం EVMbench’s పనులు, టూలింగ్, మరియు మూల్యాంకన ఫ్రేమ్‌వర్క్‌ను విడుదల చేస్తున్నాం.

చదవడం కొనసాగించండి

అన్నీ చూడండి

GPT-Red: దృఢత్వానికి స్వీయ-మెరుగుదల

భద్రత15 జులై, 2026

కోడింగ్ మూల్యాంకనాల్లో సంకేతాన్ని శబ్దం నుంచి వేరు చేయడం

రీసెర్చ్8 జులై, 2026

GeneBench-Proను పరిచయం చేస్తున్నాం

రీసెర్చ్30 జూన్, 2026