18 ફેબ્રુઆરી, 2026

EVMbench નો પરિચય

બ્લોકચેઇન પર્યાવરણમાં નબળાઈઓ શોધવા, પેચ કરવા અને તેનો લાભ લેવા માટે AI એજન્ટોની ક્ષમતા આંકીને સ્માર્ટ કોન્ટ્રાક્ટને વધુ સુરક્ષિત બનાવવું.

પેપર વાંચો

લોડિંગ…

સ્માર્ટ કોન્ટ્રાક્ટ નિયમિત રીતે $100B+ જેટલી ઓપન-સોર્સ ક્રિપ્ટો સંપત્તિને સુરક્ષિત રાખે છે. જેમ જેમ AI એજન્ટો કોડ વાંચવા, લખવા અને ચલાવવા વધુ સક્ષમ બને છે, તેમ તેમ આર્થિક રીતે અર્થપૂર્ણ પર્યાવરણોમાં તેમની ક્ષમતાઓનું માપન કરવું વધુ મહત્વપૂર્ણ બને છે, અને ડિપ્લોય કરાયેલા કોન્ટ્રાક્ટનું ઓડિટ અને મજબૂતીકરણ કરવા માટે AI સિસ્ટમોનો રક્ષણાત્મક ઉપયોગ પ્રોત્સાહિત કરવો જરૂરી બને છે.

Paradigm⁠(નવી વિન્ડોમાં ખૂલે છે) સાથે મળીને, અમે EVMbench રજૂ કરી રહ્યા છીએ, જે AI એજન્ટોની ગંભીર સ્માર્ટ કોન્ટ્રાક્ટ નબળાઈઓ શોધવા, પેચ કરવા અને તેનો લાભ લેવાીની ક્ષમતાનું મૂલ્યાંકન કરતું બેન્ચમાર્ક છે. EVMbench માં 40 ઓડિટમાંથી સંકલિત 117 ક્યુરેટેડ નબળાઈઓનો સમાવેશ થાય છે, જેમાંથી મોટાભાગ ઓપન કોડ ઓડિટ સ્પર્ધાઓમાંથી લેવામાં આવી છે. EVMbench માં Tempo⁠(નવી વિન્ડોમાં ખૂલે છે) બ્લોકચેઇન માટેની સુરક્ષા ઓડિટિંગ પ્રક્રિયામાંથી લેવામાં આવેલા અનેક નબળાઈ દૃશ્યો પણ સામેલ છે, જે સ્ટેબલકોઇન દ્વારા ઉચ્ચ-થ્રૂપુટ, ઓછી-કિંમત ચુકવણીઓ સક્ષમ કરવા માટે ખાસ બનાવાયેલ L1 છે. આ દૃશ્યો બેન્ચમાર્કને ચુકવણી-કેન્દ્રિત સ્માર્ટ કોન્ટ્રાક્ટ કોડ સુધી વિસ્તારે છે, જ્યાં અમને એજન્ટિક સ્ટેબલકોઇન ચુકવણીઓ વધવાની અપેક્ષા છે, અને તેને ઊભરતા પ્રાયોગિક મહત્વ ધરાવતા ક્ષેત્રમાં આધારિત કરવામાં મદદ કરે છે.

અમારા કાર્ય પર્યાવરણો બનાવવા માટે, જ્યાં ઉપલબ્ધ હતા ત્યાં અમે હાલના proof-of-concept exploit tests અને deployment scripts ને અનુકૂલિત કર્યા, અને ન હોય ત્યાં તેમને હાથથી લખ્યા. patch mode માટે, અમે ખાતરી કરી કે નબળાઈઓનો લાભ લઈ શકાય અને સેટઅપને ખોરવી નાખે એવા compilation-breaking ફેરફારો કર્યા વગર તેમને ઘટાડવી શક્ય હોય. exploit mode માટે, અમે કસ્ટમ graders લખ્યા અને એવા માર્ગો શોધવા તથા પેચ કરવા માટે પર્યાવરણોનું red-teamિંગ કર્યું કે જેના દ્વારા કોઈ એજન્ટ grader ને છેતરી શકે. Paradigm દ્વારા પૂરી પાડવામાં આવેલી ક્ષેત્ર નિષ્ણાતી દ્વારા કાર્ય ગુણવત્તા નિયંત્રણ ઉપરાંત, અમે અમારા પર્યાવરણોની વિશ્વસનીયતા વધારવામાં મદદ કરવા માટે સ્વચાલિત task auditing એજન્ટોનો ઉપયોગ કર્યો.

EVMbench ત્રણ ક્ષમતા મોડ્સનું મૂલ્યાંકન કરે છે.

Detect: એજન્ટો સ્માર્ટ કોન્ટ્રાક્ટ રિપોઝિટરીનું ઓડિટ કરે છે અને ground-truth નબળાઈઓની recall તથા સંબંધિત ઓડિટ ઇનામોના આધારે સ્કોર કરવામાં આવે છે.
Patch: એજન્ટો નબળા કોન્ટ્રાક્ટમાં ફેરફાર કરે છે અને exploitability દૂર કરતી વખતે ઇચ્છિત કાર્યક્ષમતા જાળવવી પડે છે, જેનું ચકાસણ સ્વચાલિત ટેસ્ટ્સ અને exploit checks દ્વારા થાય છે.
Exploit: એજન્ટો sandboxed બ્લોકચેઇન પર્યાવરણમાં ડિપ્લોય કરાયેલા કોન્ટ્રાક્ટ સામે end-to-end ફંડ-ડ્રેઇનિંગ હુમલા ચલાવે છે, જેમાં grading ટ્રાન્ઝેક્શન replay અને on-chain verification દ્વારા પ્રોગ્રામેટિક રીતે કરવામાં આવે છે.

વસ્તુનિષ્ઠ અને પુનરુત્પાદક મૂલ્યાંકનને સમર્થન આપવા માટે, અમે Rust આધારિત harness વિકસાવ્યો છે જે કોન્ટ્રાક્ટ ડિપ્લોય કરે છે, એજન્ટ ટ્રાન્ઝેક્શનને નિશ્ચિત રીતે replay કરે છે અને અસુરક્ષિત RPC methods ને મર્યાદિત કરે છે. Exploit કાર્યો live networks પર નહીં પરંતુ અલગ કરાયેલા સ્થાનિક Anvil પર્યાવરણમાં ચલાવવામાં આવે છે, અને નબળાઈઓ ઐતિહાસિક તથા જાહેર રીતે દસ્તાવેજીકૃત છે.

અમે ત્રણેય મોડ્સમાં અત્યાધુનિક એજન્ટોનું મૂલ્યાંકન કરીએ છીએ. In the ‘exploit’ mode, Codex CLI દ્વારા ચલાવાતું GPT‑5.3‑Codex 71.0% નો સ્કોર હાંસલ કરે છે. આ GPT‑5 જેવા અગાઉના મોડલ્સ કરતાં નોંધપાત્ર સુધારો દર્શાવે છે, જે 33.3% સ્કોર કરે છે અને ફક્ત છ મહિનાથી થોડા વધુ સમય પહેલાં જ રિલીઝ થયું હતું. detect recall અને patch success rates હજી પણ સંપૂર્ણ આવરણથી નીચે છે, કારણ કે નબળાઈઓનો મોટો ભાગ એજન્ટો માટે શોધવા અને સુધારવા મુશ્કેલ રહ્યો છે.

EVMbench વિવિધ કાર્યોમાં મોડલ વર્તનમાં રસપ્રદ તફાવતો પણ દર્શાવે છે. exploit setting માં એજન્ટો સૌથી સારું પ્રદર્શન કરે છે, જ્યાં ઉદ્દેશ સ્પષ્ટ છે: ફંડ્સ ખાલી ન થાય ત્યાં સુધી પુનરાવર્તન કરતા રહો. તેના વિરોધમાં, detect અને patch કાર્યોમાં પ્રદર્શન નબળું રહે છે. In ‘detect’, એજન્ટો ક્યારેક કોડબેઝનું સંપૂર્ણ ઓડિટ કરવા કરતાં એક જ સમસ્યા ઓળખ્યા પછી અટકી જાય છે. ‘patch’ માં, સૂક્ષ્મ નબળાઈઓ દૂર કરતી વખતે સંપૂર્ણ કાર્યક્ષમતા જાળવવી હજી પણ પડકારરૂપ છે.

મર્યાદાઓ

EVMbench વાસ્તવિક દુનિયાની સ્માર્ટ કોન્ટ્રાક્ટ સુરક્ષાની સંપૂર્ણ મુશ્કેલીનું પ્રતિનિધિત્વ કરતું નથી. સામેલ નબળાઈઓ Code4rena ઓડિટિંગ સ્પર્ધાઓમાંથી લેવામાં આવી હતી. ભલે આ વાસ્તવિક અને ગંભીર હોય, ઘણા ભારે પ્રમાણમાં ડિપ્લોય થયેલા અને વ્યાપકપણે ઉપયોગમાં લેવાતા ક્રિપ્ટો કોન્ટ્રાક્ટ વધુ ઊંડા નિરીક્ષણમાંથી પસાર થાય છે અને તેમનો લાભ લેવો વધુ મુશ્કેલ હોઈ શકે છે.

અમારી grading system મજબૂત છે, પરંતુ સંપૂર્ણ નથી. ‘detect’ mode માં, અમે તપાસીએ છીએ કે એજન્ટ માનવીય ઓડિટરોએ ઓળખેલી એ જ નબળાઈઓ શોધે છે કે નહીં. જો એજન્ટ વધારાની સમસ્યાઓ ઓળખે, તો તે માનવોએ ચૂકી ગયેલી સાચી નબળાઈઓ છે કે false positives છે તે વિશ્વસનીય રીતે નક્કી કરવાની રીત હાલમાં અમારી પાસે નથી.

‘exploit’ setting માં રચનાત્મક મર્યાદાઓ પણ છે. ગ્રેડિંગ કન્ટેનરમાં ટ્રાન્ઝેક્શન અનુક્રમે replay થાય છે, તેથી અત્યંત ચોક્કસ timing mechanics પર આધારિત વર્તનો આ ક્ષેત્રની બહાર છે. chain state mainnet ના fork બદલે સ્વચ્છ સ્થાનિક Anvil instance છે, અને હાલમાં અમે માત્ર single-chain પર્યાવરણોને જ સમર્થન આપીએ છીએ. કેટલીક સ્થિતિઓમાં તે માટે mainnet deployments ના બદલે mock contracts ની જરૂર પડે છે.

આ કેમ મહત્વનું છે

સ્માર્ટ કોન્ટ્રાક્ટ અબજો ડોલરની સંપત્તિને સુરક્ષિત રાખે છે, અને AI એજન્ટો હુમલાખોરો તથા રક્ષકો બંને માટે પરિવર્તનકારી સાબિત થવાની શક્યતા છે. આ ક્ષેત્રમાં મોડલ ક્ષમતાનું માપન ઊભરતા સાયબર જોખમોને ટ્રૅક કરવામાં મદદ કરે છે અને ડિપ્લોય કરાયેલા કોન્ટ્રાક્ટનું ઓડિટ અને મજબૂતીકરણ કરવા માટે AI સિસ્ટમોનો રક્ષણાત્મક ઉપયોગ કેટલો મહત્વનો છે તે ઉજાગર કરે છે.

EVMbench નો હેતુ માપન સાધન અને કાર્ય માટેનું આહ્વાન બંને તરીકે છે. જેમ જેમ એજન્ટો સુધરે છે, તેમ તેમ ડેવલપરો અને સુરક્ષા સંશોધકો માટે પોતાના વર્કફ્લોમાં AI-સહાયિત ઓડિટિંગ શામેલ કરવું વધુ મહત્વનું બને છે.

તાજેતરના મહિનાઓમાં, અમે સાયબરસુરક્ષા કાર્યોમાં મોડલ પ્રદર્શનમાં અર્થપૂર્ણ સુધારા જોયા છે, જેનાથી ડેવલપરો અને સુરક્ષા વ્યાવસાયિકો બંનેને લાભ થયો છે. સમકક્ષ રીતે, અમે રક્ષણાત્મક ઉપયોગ અને વ્યાપક ઇકોસિસ્ટમ પ્રતિરોધક્ષમતા માટે મજબૂત સાયબર સુરક્ષાત્મક ઉપાયો તૈયાર કરી રહ્યા છીએ.

કારણ કે સાયબરસુરક્ષા મૂળભૂત રીતે દ્વિ-ઉપયોગી છે, અમે પુરાવા આધારિત, પુનરાવર્તિત અભિગમ અપનાવી રહ્યા છીએ જે રક્ષકોની નબળાઈઓ શોધવાની અને સુધારવાની ક્ષમતા ઝડપી બનાવે છે અને દુરુપયોગ ધીમો કરે છે. અમારી mitigations માં safety training, automated monitoring, અદ્યતન ક્ષમતાઓ માટે વિશ્વસનીય ઍક્સેસ, અને threat intelligence સહિત enforcement pipelines નો સમાવેશ થાય છે.

અમે ઇકોસિસ્ટમ safeguards માં રોકાણ કરી રહ્યા છીએ, જેમ કે અમારી security research agent Aardvark ની private beta નો વિસ્તાર કરવો, અને વ્યાપકપણે ઉપયોગમાં લેવાતા પ્રોજેક્ટ્સ માટે મફત codebase scanning પૂરી પાડવા ઓપન-સોર્સ maintainers સાથે ભાગીદારી કરવી.

2023 માં શરૂ કરાયેલા અમારા Cybersecurity Grant Program પર આધાર રાખીને, અમે અમારા સૌથી સક્ષમ મોડલ્સ સાથે સાયબર રક્ષણને વેગ આપવા માટે API credits માં $10M આપવાની પણ પ્રતિબદ્ધતા લઈ રહ્યા છીએ, ખાસ કરીને ઓપન સોર્સ સોફ્ટવેર અને મહત્વપૂર્ણ ઇન્ફ્રાસ્ટ્રક્ચર સિસ્ટમ્સ માટે. સદ્ભાવનાપૂર્વક સુરક્ષા સંશોધનમાં સંકળાયેલી સંસ્થાઓ અમારા Cybersecurity Grant Program દ્વારા API credits અને સહાય માટે અરજી કરી શકે છે.

ઉભરતી AI સાયબર ક્ષમતાઓના માપન અને સંચાલન પર સતત સંશોધનને સમર્થન આપવા માટે અમે EVMbench ના કાર્યો, tooling અને evaluation framework રિલીઝ કરીએ છીએ.

વાંચતા રહો

બધું જુઓ

GPT-Red: દૃઢતા માટે સ્વ-સુધારણા અનલૉક કરવી

સુરક્ષા15 જુલાઈ, 2026

કોડિંગ મૂલ્યાંકનમાં ઉપયોગી માહિતીને બિનજરૂરી માહિતીથી અલગ કરવી

સંશોધન8 જુલાઈ, 2026

GeneBench-Pro રજૂ કરી રહ્યાં છીએ

સંશોધન30 જૂન, 2026