Aqbeż għall-kontenut prinċipali
OpenAI

18 ta’ Frar 2026

RiċerkaPubblikazzjoni

Nintroduċu EVMbench

Nagħmlu l-kuntratti intelliġenti aktar siguri billi nivvalutaw il-ħila tal-aġenti tal-IA li jindividwaw, jirranġaw u jisfruttaw vulnerabbiltajiet f’ambjenti blockchain.

Qed jillowdja…

Il-kuntratti intelliġenti regolarment jiżguraw aktar minn $100B f’assi kripto open-source. Hekk kif l-aġenti tal-IA jitjiebu fil-qari, il-kitba u l-eżekuzzjoni tal-kodiċi, isir dejjem aktar importanti li nkejlu l-kapaċitajiet tagħhom f’ambjenti ekonomikament sinifikanti, u nħeġġu l-użu ta’ sistemi tal-IA b’mod difensiv biex jiġu awditjati u msaħħa kuntratti diġà implimentati.

Flimkien ma’ Paradigm(jinfetaħ f’tieqa ġdida), qed nintroduċu EVMbench, benchmark li jevalwa l-ħila tal-aġenti tal-IA li jindividwaw, jirranġaw u jisfruttaw vulnerabbiltajiet serji f’kuntratti intelliġenti. EVMbench jibbaża fuq 117-il vulnerabbiltà kkurata minn 40 awditu, bil-biċċa l-kbira ġejjin minn kompetizzjonijiet miftuħa ta’ awditjar tal-kodiċi. EVMbench jinkludi wkoll diversi xenarji ta’ vulnerabbiltà meħuda mill-proċess ta’ awditjar tas-sigurtà għall-blockchain Tempo(jinfetaħ f’tieqa ġdida), L1 mibnija apposta biex tippermetti pagamenti bi stablecoins b’throughput għoli u spiża baxxa. Dawn ix-xenarji jestendu l-benchmark għal kodiċi ta’ kuntratti intelliġenti ffukati fuq il-pagamenti, fejn nistennew li l-pagamenti agentiċi bi stablecoin jikbru, u jgħinu jorbtuh ma’ qasam ta’ importanza prattika emerġenti.

Biex ħloqna l-ambjenti tal-kompiti tagħna, adattajna testijiet eżistenti ta’ sfruttament proof-of-concept u scripts ta’ implimentazzjoni, meta kienu jeżistu, u inkella ktibniehom manwalment. Għall-modalità patch, żgurajna li l-vulnerabbiltajiet jistgħu jiġu sfruttati u li jistgħu jittaffew mingħajr ma jiddaħħlu bidliet li jkissru l-kompilazzjoni, li kienu jikkompromettu s-setup tagħna. Għall-modalità exploit, ktibna graders apposta u għamilna red-team tal-ambjenti f’tentattiv biex insibu u nirranġaw metodi li bihom aġent jista’ jqarraq bil-grader. Minbarra l-kontroll tal-kwalità tal-kompiti permezz tal-għarfien speċjalizzat tad-dominju pprovdut minn Paradigm, użajna aġenti awtomatizzati tal-awditjar tal-kompiti biex ngħinu nżidu s-solidità tal-ambjenti tagħna.

EVMbench jevalwa tliet modalitajiet ta’ kapaċità:

  • Individwa: L-aġenti jawditjaw repożitorju ta’ kuntratti intelliġenti u jiġu vvalutati fuq ir-recall tal-vulnerabbiltajiet ground-truth u l-premjijiet tal-awditu assoċjati.
  • Patch: L-aġenti jimmodifikaw kuntratti vulnerabbli u jridu jżommu l-funzjonalità intenzjonata filwaqt li jeliminaw il-possibbiltà ta’ sfruttament, ivverifikata permezz ta’ testijiet awtomatizzati u kontrolli ta’ exploit.
  • Exploit: L-aġenti jwettqu attakki end-to-end li jbattlu l-fondi kontra kuntratti implimentati f’ambjent blockchain sandboxed, b’valutazzjoni mwettqa b’mod programmatiku permezz ta’ replay ta’ tranżazzjonijiet u verifika on-chain.

Biex nappoġġjaw valutazzjoni oġġettiva u riproduċibbli, żviluppajna harness ibbażat fuq Rust li jimplimenta kuntratti, jerġa’ jilgħab it-tranżazzjonijiet tal-aġent b’mod deterministiku, u jirrestrinġi metodi RPC mhux siguri. Il-kompiti ta’ exploit jitħaddmu f’ambjent lokali Anvil iżolat minflok fuq netwerks live, u l-vulnerabbiltajiet huma storiċi u ddokumentati pubblikament.

Aħna nevalwaw aġenti fruntiera fit-tliet modalitajiet kollha. Fil-modalità “exploit”, GPT‑5.3‑Codex li jaħdem permezz ta’ Codex CLI jikseb punteġġ ta’ 71.0%. Dan jirrappreżenta titjib sinifikanti fuq mudelli preċedenti, bħal GPT‑5, li jikseb 33.3% u nħareġ ftit aktar minn sitt xhur ilu. Ir-rati ta’ recall fid-detect u ta’ suċċess fil-patch jibqgħu taħt kopertura sħiħa, peress li frazzjoni kbira tal-vulnerabbiltajiet għadhom diffiċli għall-aġenti biex isibuhom u jirranġawhom.

EVMbench jiżvela wkoll differenzi interessanti fl-imġiba tal-mudell bejn kompitu u ieħor. L-aġenti jaħdmu l-aħjar fl-issettjar exploit, fejn l-objettiv huwa espliċitu: kompli itera sakemm il-fondi jitbattlu. B’kuntrast, il-prestazzjoni hija aktar dgħajfa fuq kompiti detect u patch. Fil “detect”, l-aġenti kultant jieqfu wara li jidentifikaw problema waħda minflok jawditjaw il-codebase kollu b’mod eżawrjenti. Fil-“patch”, iż-żamma tal-funzjonalità sħiħa filwaqt li jitneħħew vulnerabbiltajiet sottili tibqa’ sfida.

Limitazzjonijiet

EVMbench ma jirrappreżentax id-diffikultà kollha tas-sigurtà ta’ kuntratti intelliġenti fid-dinja reali. Il-vulnerabbiltajiet inklużi ttieħdu mill-kompetizzjonijiet ta’ awditjar ta’ Code4rena. Għalkemm dawn huma realistiċi u serji ħafna, ħafna kuntratti kripto implimentati ħafna u użati b’mod mifrux jgħaddu minn skrutinju ferm akbar u jistgħu jkunu aktar diffiċli biex jiġu sfruttati.

Is-sistema ta’ valutazzjoni tagħna hija robusta iżda mhux perfetta. Fil-modalità “detect”, niċċekkjaw jekk l-aġent isibx l-istess vulnerabbiltajiet identifikati minn awdituri umani. Jekk l-aġent jidentifika problemi addizzjonali, bħalissa m’għandniex mod affidabbli biex niddeterminaw jekk jirrappreżentawx vulnerabbiltajiet veri li l-bnedmin tilfu jew false positives.

Hemm ukoll limitazzjonijiet strutturali fl-issettjar “exploit”. It-tranżazzjonijiet jerġgħu jindaqqu b’mod sekwenzjali fil-container tal-valutazzjoni, għalhekk imġibiet li jiddependu fuq mekkaniżmi preċiżi ta’ timing huma barra mill-kamp ta’ applikazzjoni. L-istat tal-katina huwa istanza lokali Anvil nadifa minflok fork tal-mainnet, u bħalissa nappoġġjaw biss ambjenti b’katina waħda. F’xi każijiet dan jeħtieġ kuntratti mock minflok implimentazzjonijiet fuq il-mainnet.

Għaliex dan hu importanti

Il-kuntratti intelliġenti jiżguraw biljuni ta’ dollari f’assi, u l-aġenti tal-IA x’aktarx ikunu trasformattivi kemm għall-attakkanti kif ukoll għad-difensuri. Il-kejl tal-kapaċità tal-mudell f’dan id-dominju jgħin biex jiġu ssorveljati riskji ċibernetiċi emerġenti u jenfasizza l-importanza tal-użu ta’ sistemi tal-IA b’mod difensiv biex jiġu awditjati u msaħħa kuntratti implimentati.

EVMbench huwa maħsub kemm bħala għodda ta’ kejl kif ukoll bħala sejħa għall-azzjoni. Hekk kif l-aġenti jitjiebu, isir dejjem aktar importanti għall-iżviluppaturi u r-riċerkaturi tas-sigurtà li jinkorporaw awditjar assistit mill-IA fil-flussi tax-xogħol tagħhom.

Matul l-aħħar xhur, rajna titjib sinifikanti fil-prestazzjoni tal-mudell fuq kompiti taċ-ċibersigurtà, għall-benefiċċju kemm tal-iżviluppaturi kif ukoll tal-professjonisti tas-sigurtà. Fl-istess ħin, ilna nippreparaw salvagwardji ċibernetiċi msaħħa biex nappoġġjaw l-użu difensiv u reżiljenza usa’ tal-ekosistema.

Minħabba li ċ-ċibersigurtà hija intrinsikament ta’ użu doppju, qed nieħdu approċċ iterattiv ibbażat fuq l-evidenza li jħaffef il-ħila tad-difensuri biex isibu u jirranġaw vulnerabbiltajiet filwaqt li jnaqqas l-użu ħażin. Il-mitigazzjonijiet tagħna jinkludu taħriġ tas-sigurtà, monitoraġġ awtomatizzat, aċċess fdat għal kapaċitajiet avvanzati, u pipelines ta’ infurzar li jinkludu intelligence dwar it-theddid.

Qegħdin ninvestu f’salvagwardji tal-ekosistema bħall-espansjoni tal-beta privata ta’ Aardvark, l-aġent tagħna għar-riċerka tas-sigurtà, u sħubijiet ma’ maintainers open-source biex nipprovdu skannjar b’xejn tal-codebase għal proġetti użati b’mod mifrux.

Nibnu fuq il-Programm ta’ Għotjiet għaċ-Ċibersigurtà tagħna mniedi fl-2023, u qed nimpenjaw ukoll $10M fi krediti tal-API biex naċċelleraw id-difiża ċibernetika bl-aktar mudelli kapaċi tagħna, speċjalment għal software open source u sistemi ta’ infrastruttura kritika. Organizzazzjonijiet involuti f’riċerka tas-sigurtà in good faith jistgħu japplikaw għal krediti tal-API u appoġġ permezz tal-Programm ta’ Għotjiet għaċ-Ċibersigurtà tagħna.

Qed noħorġu l-kompiti, l-għodod u l-qafas ta’ valutazzjoni ta’ EVMbench biex nappoġġjaw riċerka kontinwa dwar il-kejl u l-ġestjoni tal-kapaċitajiet ċibernetiċi emerġenti tal-IA.