Pereiti prie pagrindinio turinio
OpenAI

2026 m. gegužės 29 d.

Sauga

Bendras patikimų trečiųjų šalių įvertinimų vadovas

Kas svarbu veiksmingiems nepriklausomiems priešakinių modelių apsaugos priemonių ir gebėjimų įvertinimams.

Įkeliama...

Nepriklausomi, patikimi trečiųjų šalių įvertinimai atlieka esminį vaidmenį stiprinant saugumo ekosistemą. Šie įvertinimai atliekami su priešakiniais modeliais, kad suteiktų papildomų įrodymų teiginiams apie kritinius gebėjimus ir saugos mažinimo priemones. Šiame įraše dalijamės iki šiol išmoktomis pamokomis ir rekomenduojame metodus, kaip kurti įvertinimus, galinčius pagrįstai įvertinti priešakinius modelius, tikėdamiesi, kad tai prisidės prie kuriamų šios srities standartų.

Anksčiau daugelyje įvertinimų modeliai buvo traktuojami kaip pokalbių robotai: įvertinime modeliui pateikdavo užklausą tarsi naudotojas užduotų klausimą, modelis atsakydavo, o įvertintojas įvertindavo išvestį. Šiandieniniai priešakiniai modeliai gali daug daugiau: jie gali naudoti įrankius, sekti informaciją per daugelį žingsnių ir veikti platesnėje darbo eigoje. Tai reiškia, kad našumas priklauso ne tik nuo modelio, bet ir nuo aplinkos, kurioje vyksta užduotis, bei nuo sąrankos, kuri palengvina jo veiksmus. Ši aplinkinė sąranka, kurią vadiname „apvalkalu“, gali pakeisti svarbius sistemos našumo aspektus, įskaitant tai, kaip ji naudoja įrankius, seka informaciją ar ištaiso padarytas klaidas.

Diagrama, lyginanti užklausos ir atsakymo darbo eigą su agentine užduoties eiga, parodanti, kaip valdymo ciklai, įrankiai, kontekstas, biudžetas ir apsaugos priemonės leidžia autonomiškai vykdyti užduotis.

Tai keičia, kaip turi būti atliekami įvertinimai ir į ką skaitytojai turėtų atkreipti dėmesį įvertinimo ataskaitose. Mūsų nuomone, naudingiausios ataskaitos aiškiai aprašo du dalykus, neapsiribojant pačiu rezultatu: pirma, jos nurodo, kokį teiginį įvertinimo sąranka buvo sukurta testuoti, ir, antra, jos pateikia turimus įrodymus, kad įvertinimo rezultatas yra pagrįstas.

Įvertinimuose tikrinami teiginiai paprastai patenka į vieną iš trijų kategorijų1:

  • Gebėjimo išgavimas: ar modelis tikėtinai gali parodyti vertinamą gebėjimą?
  • Apsaugos priemonių veiksmingumas: kiek atsparios testuojamos apsaugos priemonės vertinamai elgsenai ar atakai?
  • Palyginimas: kaip skirtingi modeliai veikia lygiavertėmis sąlygomis?

Įvertinimo ataskaitose taip pat reikia paaiškinti, kaip įvertintojai tikrino poveikius, galinčius turėti įtakos rezultato pagrįstumui. Tai apima:

  • Atlygio nulaužimas: naudojimasis trumpesniais keliais užduotyje ar vertinimo mechanizme, kad sistema gautų įvertinimą neparodžiusi elgsenos, kurią įvertinimas turėjo matuoti.
  • Atsisakymai: atsisakymas taip, kad būtų užmaskuota testuojama elgsena.
  • Kontaminacija: pernelyg gerus rezultatus lemia tai, kad įvertinimo užduotys, atsakymai ar artimi variantai buvo mokymo duomenyse arba agentas juos galėjo rasti įvertinimo metu, pavyzdžiui, naršydamas.
  • Klaidingos užduotys: prastesnius rezultatus lemia tai, kad užduotys yra netinkamos. Priežastys gali būti nesąžiningas balų skyrimas (pvz., teisingam atsakymui reikia nenurodytų įgyvendinimo detalių) ir neišsprendžiamos aplinkos (pvz., trūksta svarbių failų arba įrankiai nepatikimi).
  • Tyčinis rezultatų menkinimas: sąmoningai prastesnis pasirodymas, kai modelis rodo, kad suvokia esąs įvertinamas.

Tinkamo apvalkalo parinkimas įvertinimui yra itin svarbus optimaliems rezultatams pasiekti

Pastebėjome, kad apvalkalo vaidmuo ypač svarbus sistemoms, veikiančioms ilgesnėmis trajektorijomis. Kai modeliai gali naudoti įrankius, išlaikyti būseną ir taisytis po klaidų per daugelį žingsnių, apvalkalas gali pakeisti stebimą našumo lygį ir net nulemti, ar vertinamas gebėjimas apskritai pasirodys įvertinime. Pavyzdžiui, apvalkalas, kuris išsaugo būseną ir pakartoja nesėkmingus veiksmus, gali leisti modeliui užbaigti kelių žingsnių užduotį, kurios tas pats modelis niekada neužbaigia paprastesniame apvalkale.

Toliau pateiktoje lentelėje atskiriame tris teiginių rūšis, kurias įvertintojai gali norėti pateikti, ir apvalkalą, kurio, mūsų manymu, kiekvienai jų reikia.

Teiginys, kurį įvertinant siekiama pagrįsti

Tinkamas apvalkalo pasirinkimas

Pateiktini įrodymai

Gebėjimas esant stipriam išgavimui: sistema A gali atlikti X tipo užduotis, kai sąranka sukurta taip, kad išgautų stipriausią patikimą jos našumą.

Naudokite stipriausią patikimą sistemos išgavimo sąranką, įskaitant apvalkalą, įrankius, pagalbines struktūras ir biudžetą, kurį pagrįstai naudotų kompetentingas naudotojas.

Apvalkalo ir įrankių sąranka, išgavimo gairės, leidžiamas biudžetas / leidžiamos pastangos, žetonai / sąnaudos / laikas ir kodėl ši sąranka yra patikimas teigiamo gebėjimo rodiklis. Jei lyginate sistemas pagal skirtingas optimizuotas sąrankas, pažymėkite tai kaip sistemų tarpusavio arba stipraus išgavimo palyginimą.

Kontroliuojamas palyginimas: sistema A pranoksta sistemą B pagal bendrą įvertinimo sąranką.

Išlaikykite užduotis, balų skyrimą ir biudžetą nekintamus. Naudokite arba bendrą apvalkalo / įrankių sąranką, arba iš anksto pasirinktą fiksuotą standartizuotų apvalkalų rinkinį, kad būtų užtikrintas pagrįstas maksimalus lyginamų sistemų išgavimas.

Bendras užduočių rinkinys, įrankiai, balų skyrimo metodas, apvalkalas, biudžetas, žetonų efektyvumas / sąnaudos ir žinomi ribotumai. Programavimo agentų įvertinimuose atvirojo kodo apvalkalas, toks kaip „Codex CLI“, gali suteikti fiksuotą agento ciklą ir įrankių sąsają skirtingoms sistemoms. Idealus maksimaliojo išgavimo būdas būtų optimizuoti individualų apvalkalą kiekvienai užduočiai ir sistemai, tačiau šiuo metu tai praktiškai neįgyvendinama.

Apsaugos priemonių atsparumas išgautos atakos sąlygomis: sistemos A apsaugos priemonės yra pakankamos atitinkamai modelio elgsenai ar išgautai atakai.

Naudokite apsaugos priemonių testavimo sąranką, sukurtą tam, kad išgautų stipriausią patikimą ataką pagal atitinkamą priešininko modelį.

Kaip įvertintojai apibūdino atitinkamą modelio elgseną, kokia apsaugos priemonių konfigūracija buvo testuota, kokia išgavimo strategija taikyta, koks apvalkalas naudotas jai įgyvendinti ir koks biudžetas ar pastangos buvo leidžiami.

Teiginių apie gebėjimus pagrįstumas priklauso nuo to, kaip sėkmingai tie gebėjimai buvo išgauti: įvertintojai turi pasirinkti apvalkalą, kuris geriausiai atitinka užduotį ir gebėjimą, kurį įvertinant siekiama išmatuoti. Standartizuotas apvalkalas gali būti tinkamas lyginant sistemas vienodomis sąlygomis, tačiau jis gali nuvertinti gebėjimą, jei neapima konkrečių apvalkalo ypatybių, padedančių modeliui atlikti užduotį. Pavyzdžiui, GPT‑5.5 rezultatai „OpenAI“ kibernetiniuose poligonuose rodo, kaip apvalkalo pasirinkimas gali reikšmingai pakeisti išmatuotą gebėjimą užduotyse, kurioms reikia ilgo, kelių žingsnių įrankių naudojimo: modelis veikia geriau, kai apvalkalas naudoja kompaktinimą, kad ilgėjant sąveikai išsaugotų užduočiai svarbų kontekstą. Tai rodo, kad tam tikriems modeliams apvalkalas be kompaktinimo nepakankamai išgautų našumą.

Didesni sėkmės rodikliai – geriau

Kiti paskelbti įvertinimai2 taip pat rodo, kad apvalkalo ir biudžeto pasirinkimai keičia įvertinimo rezultatus. Didinant skaičiavimo išteklius testo metu, galima reikšmingai pakeisti, kokį gebėjimą įvertinimas išgauna, ypač srityse, kur sėkmę lengva patikrinti, pavyzdžiui, daugelyje kibernetinių užduočių. JK AISI kibernetinių poligonų įvertinime(atsidaro naujame lange) padidinus biudžetą nuo 10 mln. iki 100 mln. žetonų našumas pagerėjo iki 59 %, o esant didžiausiam testuotam biudžetui našumas vis dar augo. Tai detalizuojant įvertinimas tampa lengviau interpretuojamas: skaitytojai mato, kaip rezultatas priklauso nuo testuotos išgavimo sąrankos. Kai našumas vis dar gerėja didinant biudžetą, balas turėtų būti apibūdinamas kaip našumas esant tam apvalkalui ir biudžetui, o nėra fiksuotas dydis, kurį galima aiškiai išmatuoti kartą ir visiems laikams. Kai sėkmę galima matuoti atliekant pakartotinius bandymus, ataskaitose taip pat reikėtų vertinti tikėtinas vieno sėkmingo išsprendimo sąnaudas, o ne tik sėkmės rodiklį esant fiksuotam žetonų biudžetui. Tai gali palengvinti rimtumo interpretavimą: mažas sėkmės rodiklis vis tiek gali būti praktiškai reikšmingas, jei pakartotinių bandymų kaina telpa į atitinkamą grėsmės modelį. Teiginiams apie gebėjimus išvengiamas nepakankamas išgavimas yra matavimo nesėkmė: jei apvalkalas ar biudžetas neleidžia sistemai parodyti elgsenos, kurią ji kitu atveju galėtų parodyti, balas nematuoja teigiamo gebėjimo. Kai vertintojai maksimaliai išnaudoja išgavimo galimybes, o našumas vis dar gerėja, ataskaitose tai turėtų būti aiškiai pasakyta ir aiškiai nurodyta, kad rezultatas yra tik apatinės ribos įvertis.

Apsaugos priemonių testavimas gali nepakankamai įvertinti, ar ataka gali pavykti ir kokio masto ji galėtų būti, jei neatsižvelgiama į užpuolikams prieinamus išteklius, įskaitant individualius apvalkalus. JK AISI GPT‑5.5 kibernetiniame įvertinime(atsidaro naujame lange) jų ekspertų atliktas testavimas spragoms nustatyti atskleidė universalų apsaugų apėjimą (arba „jailbreak“), kuris išgavo taisykles pažeidžiantį kibernetinį turinį atsakant į visas „OpenAI“ pateiktas kenkėjiškas užklausas, įskaitant kelių ėjimų agentines situacijas. Jie naudojo „Codex“ kurdami individualų apvalkalą modelio atakos našumui sustiprinti: jis į sąveiką įterpdavo pakartotinai naudojamą apsaugų apėjimo šabloną, išsaugojo jį visuose ėjimuose ir blokuose ir taikė visoms „OpenAI“ pateiktoms kenkėjiškoms kibernetinėms užklausoms. Apsaugos priemonių testavimas turi atitikti priešininką. Jei teiginys susijęs su atsparumu ekspertų piktnaudžiavimui, testas turėtų vertinti stipriausią patikimą viso ciklo atakos strategiją esant apibrėžtam biudžetui, įskaitant bet kokį apvalkalą, reikalingą tai strategijai išsaugoti ir pakartotinai naudoti. Priešingu atveju rezultatai gali būti netiksliai sukalibruoti: jie gali pagrįsti tik siauresnį teiginį apie atsparumą paprastesnėms užklausoms, gali neatskleisti nei atakos rimtumo, nei jos sėkmės tikimybės, kai išgavimo metodas tampa operaciškai pritaikytas, ir taip pat gali pervertinti problemos tikimybę ar rimtumą, jei suteikiama per daug biudžeto.

Yra tam tikrų situacijų, kai standartizuotų apvalkalų palyginimai yra tinkami, tačiau įvertintojai turėtų aiškiai nurodyti, kodėl vienodo apvalkalų rinkinio naudojimas yra tinkamas ir kokį teiginį jis gali pagrįsti. METR laiko horizonto įvertinimas(atsidaro naujame lange) yra platesnės, tinkamai fiksuotos įvertinimo sąrankos pavyzdys: ji sukurta tam, kad duotų palyginamus rezultatus tarp vertinamų sistemų. METR apibrėžia bendrą rezultatą – tipinę žmogaus užduoties trukmę, kuriai esant prognozuojama, kad DI agentas sėkmingai atliks užduotį nurodytu patikimumo lygiu. Ji taiko bendrą užduočių rinkinį, balų skyrimo metodą, pritaikymo metodą ir nedidelį pakartotinai naudojamų pagalbinių struktūrų rinkinį, pavyzdžiui, „Triframe“ ir „ReAct“(atsidaro naujame lange), kiekviename kartu pateikiamų įverčių rinkinyje. Kai METR išplėtė užduočių rinkinį ir perkėlė įvertinimo infrastruktūrą iš sistemos, vadintos „Vivaria“, į sistemą, vadintą „Inspect“, ji pranešė apie šį pokytį („Time Horizon 1.1“ atnaujinimas(atsidaro naujame lange)) ir iš naujo įvertino modelius pagal naują įvertinimo sąranką. Tokia yra standartizuotos įvertinimo sąrankos, įskaitant vienodą apvalkalų rinkinį, vertė: ji gali suteikti skaitytojams pasitikėjimo, kad balų skirtumas iš tiesų atspindi lyginamų sistemų skirtumą, o ne matavimo sąrankos pokytį.

Rekomenduojame trečiųjų šalių įvertinimo ataskaitose nurodyti, kokio pobūdžio teiginį jų įvertinimo sąranka skirta pagrįsti; aprašyti, kiek tiksliai tai, kas buvo testuota, atspindi platesnį teiginį; aprašyti apvalkalo pasirinkimus, nulėmusius rezultatą; detalizuoti, kada tie pasirinkimai keičiasi tarp įvertinimų; ir pateikti papildomus įrodymus, rodančius, kaip rezultatas buvo gautas ir kaip gerai jis apibendrinamas teiginiui.

Vertinkite pagrįstumą tikrindami žinomus pavojus, galinčius iškraipyti rezultatus

Modeliams tampant pajėgesniems, įvertinimo balus tampa lengviau klaidingai interpretuoti. Palyginti su tikraisiais gebėjimais, įvertinimo balai gali būti dirbtinai sumažinti, jei modelis atpažįsta, kad yra įvertinamas, ir strategiškai pasirodo prasčiau. Jie gali būti padidinti, jei modelis pasinaudoja trumpesniu keliu užduotyje, užklausoje, vertinimo mechanizme ar apvalkale. Juos taip pat gali iškraipyti kontaminacija (kai modelis jau žino atsakymą arba gali jį rasti neišsprendęs užduoties) arba „klaidingos“ užduotys, kurios yra dviprasmiškos, neteisingai vertinamos, neišsprendžiamos arba pažeidžiamos dėl nenumatytų trumpesnių kelių. Todėl įvertinimo ataskaitose pagrindiniai balai turėtų būti pateikiami kartu su šių pavojų aptarimu, kad skaitytojai galėtų įvertinti, ar balai atspindi numatytą elgseną.

Apvalkalai, biudžetai, įrankiai, balų skyrimo taisyklės, stebėsenos priemonės ir peržiūros procedūros daro įtaką tam, ar agentas sprendžia numatytą užduotį, jos vengia, ją įsimena ar randa būdą ją apeiti. Patikima ataskaita šiuos patikrinimus padaro matomus: įvertintojai turėtų peržiūrėti pavyzdžius dėl tokios elgsenos kiekvieną kartą, kai atliekamas vertinimas.

Atlygio nulaužimas

Atlygio nulaužimas reiškia aukštų įvertinimo balų pasiekimą būdais, kurie neatspindi numatyto gebėjimo. Čia susirūpinimą kelia tai, kad sistema gauna įvertinimą išnaudodama užduotį, vertinimo mechanizmą, užklausą ar apvalkalą, o ne atlikdama darbą, kurį įvertinimas turėjo matuoti. METR GPT 5.4 įvertinimas(atsidaro naujame lange)rodo, kodėl tai svarbu: nors iš pirmo žvilgsnio modelis sėkmingai atliko užduotis tokiu dažniu, kuris būtų atitikęs maždaug 13 valandų laiko horizontą, žmonių peržiūra parodė, kad dalis šių sėkmių buvo pasiektos atlygio nulaužimu, o pakoregavus rezultatus ir palikus tik atvejus be atlygio nulaužimo, įvertis sumažėjo iki maždaug šešių valandų. Įvertintojai turėtų įvertinti tokių korekcijų poreikį ir, kai jų reikia, aiškiai apie jas pranešti: gebėjimo įvertis yra daug naudingesnis, kai skaitytojai gali matyti, kurios tariamos sėkmės buvo atmestos, kodėl jos buvo atmestos ir kiek rezultatas priklauso nuo to sprendimo.

Diagrama, rodanti DI modelio našumą laikui bėgant su tendencijos linija ir pasikliautiniais intervalais.

Atsisakymai

Modeliai taip pat gali prasčiau pasirodyti gebėjimų įvertinimuose dėl apsaugos priemonių. Modelio įvertinimo rezultatai gali būti prastesni, nei leistų jo gebėjimai, nes jis atsisako atlikti įvertinimo užduotis, užuot jas užbaigęs. Todėl ataskaitose turėtų būti paaiškinta, ar atsisakymai buvo įvertinimo rezultatų dalis, ir jei taip, kiek pavyzdžių dėl to tapo netinkami.

Kontaminacija

Kontaminacija svarbiausia viešiems ar pakartotinai naudojamiems etalonams. Jei užduotys, atsakymai ar artimi jų variantai pasirodo mokymo duomenyse arba juos gali rasti agentas naršydamas, rezultatai gali atspindėti įsiminimą ar paiešką, o ne modelio našumą. Įvertintojai, kai įmanoma, turėtų teikti pirmenybę privačioms ar naujai sukurtoms užduotims ir tikrinti, ar modeliai neatkuria užduočiai būdingų detalių dar prieš ją išspręsdami.

Klaidingos užduotys

Klaidingos užduotys apima tokias situacijas kaip problema, kurios netyčia neįmanoma išspręsti. Klaidingos užduotys yra pakankamai dažnos(atsidaro naujame lange), kad jas reikėtų laikyti standartine pagrįstumo rizika. Tai apima neteisingą etaloninę tiesą, dviprasmiškas užklausas, trūkstamus failus, nestabilias paslaugas, nesąžiningus balų skyrimo kriterijus ir aplinkas, kurios atveria trumpesnius kelius, pavyzdžiui, paslėptus atsakymų failus ar saugyklos istoriją su etaloniniu pataisymu.

Tyčinis rezultatų menkinimas

Modelio ar sistemos tyčinis rezultatų menkinimas reiškia strategiškai prastesnį pasirodymą, kai stiprus pasirodymas prieštarautų kokiam nors tikslui. Atlikdama GPT‑5.5 įvertinimą(atsidaro naujame lange), organizacija „Apollo“ tai testavo sukurdama kontekstą, kuriame modelis suprato, kad aukšti įvertinimo balai gali paskatinti atsimokymą arba blokuoti diegimą. GPT‑5.5 vis tiek atsakė teisingai, o tai rodo, kad elgsenos įrodymų dėl strateginio prastesnio pasirodymo yra nedaug3. Tačiau jų protavimo eigos peržiūra suteikė svarbų kontekstą: „Apollo“ nustatė vidutinius ar stipresnius suderinimo įvertinimo suvokimo požymius 52 % tyčinio rezultatų menkinimo sąlygos pavyzdžių, palyginti su 0 % kontrafaktiniuose atvejuose. Šie įrodymai apsunkina rezultato interpretavimą, bet galiausiai suteikia skaitytojams daugiau aiškumo: jie gali matyti ir raminantį elgsenos rezultatą, ir priežastį atsargiai jo neperinterpretuoti.

Kaip remiame stipresnius įvertinimus

Stipriems teiginiams reikia ir tinkamo apvalkalo elgsenai išgauti, ir pagrįstumo patikrų, rodančių, kad rezultatas yra patikimas. Mūsų požiūris, kad apvalkalai ir pagrįstumo patikros yra įvertinimo rezultato dalis, lemia tai, kaip praktiškai remiame trečiųjų šalių įvertinimus: 

  • Dalijamės su įvertintojais konkrečiomis maksimalaus išgavimo gairėmis.
  • Prašome gebėjimų įvertintojų naudoti „Codex“ kaip bendrą minimalų pagrindą „OpenAI“ modeliams: testai turėtų bent jau testuoti bazinį variantą naudojant tą pačią agentinę sąsają, kurią naudotojai greičiausiai naudos, o ne tik per supaprastintą modelio sąsają.
  • Taip pat suteikiame prieigą prie protavimo eigos ir kitų tarpinių artefaktų ten, kur jų reikia apgaulei, tyčiniam rezultatų menkinimui ar įvertinimo suvokimui įvertinti. METR ir „Apollo“ naudojo šią prieigą „OpenAI“ įvertinimuose nuo GPT‑5. 
  • Galiausiai prioritetą teikiame tyrimams, kurie padėtų giliau suprasti, kada ir kaip apvalkalo pasirinkimai reikšmingai keičia rezultatus – nuo konteksto valdymo ir prieigos prie įrankių iki pakartotinių bandymų elgsenos, balų skyrimo ir išteklių biudžetų.

Ką tai reiškia įvertinimo standartams ir būsimoms tyrimų kryptims 

Šios rekomendacijos skirtos ne tik pagerinti atskiras įvertinimo ataskaitas, bet ir padėti rengti naujus nacionalinius(atsidaro naujame lange) ir tarptautinius(atsidaro naujame lange) priešakinio DI įvertinimo ir ataskaitų teikimo standartus. Ateityje trečiųjų šalių įvertinimo standartai turėtų reikalauti pakankamai detalių, kad sprendimų priėmėjai suprastų, kokius teiginius konkretūs įvertinimai pagrindžia, kokia sistema buvo testuota, kaip rezultatas buvo išgautas ir kaip įvertintojai tikrino jo pagrįstumą. Vertinant priešakines sistemas užduotyse, kuriose svarbūs agentiniai gebėjimai, reikėtų nurodyti šias detales (atsižvelgiant į saugumo ar konfidencialumo aspektus):

  • Teiginys: ar įvertinant lyginamos sistemos, įvertinama gebėjimo riba, ar testuojamos apsaugos priemonės.
  • Įvertinimo turinys: pakankamai detali informacija apie užduotis ar jų pasiskirstymą, kad skaitytojai suprastų, kokius įgūdžius, elgseną ar nesėkmės režimus įvertinimas iš tikrųjų testuoja.
  • Testuota sistema: modelis, protavimo nustatymas, prieiga prie įrankių, apvalkalas ir apsaugos priemonės.
  • Biudžetas: ėjimai, žetonai, bandymai / pakartotiniai bandymai, realus laikas, inferencijos kaina ir, kur taikoma, tikėtinos vieno sėkmingo išsprendimo sąnaudos.
  • Išgavimo metodai: apvalkalo pasirinkimai, naudoti rezultatui išgauti, ir kiek tiksliai tai, kas buvo testuota, atspindi platesnį teiginį.
  • Pagrįstumo patikros: kaip įvertintojai ieškojo atlygio nulaužimo, įvertinimo suvokimo, kontaminacijos, atsisakymų, tyčinio rezultatų menkinimo ir kitos elgsenos, galinčios pakirsti rezultatą, įskaitant tai, kaip patvirtinti atvejai paveikė balų skyrimą ar interpretaciją.

Standartai, kuriuose neatsižvelgiama į apvalkalo pasirinkimus ar pagrįstumo patikras, gali nepakankamai įvertinti tai, ką sistema gali padaryti, arba pervertinti pasitikėjimą saugos teiginiu. Stiprių apvalkalų ir išgavimo metodų kūrimas išlieka atvira tyrimų sritimi ir turėtų būti tolesnio nagrinėjimo bei investicijų prioritetas.

Autorius

OpenAI

Žodynėlis

Kadangi šiame įraše vartojame nemažai specializuotų terminų, toliau pateikėme žodynėlį su paprastais paaiškinimais, ką turime omenyje:

  • Agentinė sistema: sistema, galinti atlikti užduotį per kelis žingsnius, naudodama įrankius, išlaikydama užduoties būseną ir veikdama aplinkoje, o ne tik pateikdama vieną atsakymą į užklausą.

  • Vertinimas: platesnis sprendimas, ar įrodymai pagrindžia teiginį, rizikos išvadą ar užtikrinimo poziciją; jis gali būti grindžiamas įvertinimo duomenimis, dokumentų peržiūra, interviu, proceso peržiūra ir kitais susijusiais artefaktais.

  • Kompaktinimas: metodas užduočiai svarbiam kontekstui išsaugoti per ilgus vykdymus.

  • Konfigūracija: tiksli išbandyta sistema ir įvertinimo sąlygos, neapsiribojant modelio pavadinimu.

  • Kontaminacija: kai įvertinimo užduotys, atsakymai ar artimi jų variantai pasirodo modelio mokymo duomenyse arba yra randami įvertinimo metu (pvz., naudojant tokius įrankius kaip naršymas), todėl rezultatai pervertina tikrąjį modelio gebėjimą apibendrinti.

  • Išgavimas: procesas, kai vertinimo metu bandoma iš sistemos išgauti gebėjimą ar elgseną.

  • Aplinka: užduoties aplinka, kurioje sistema testuojama. Tai apima, pavyzdžiui, išorinę būseną, su kuria agentas sąveikauja ir kurią keičia įvertinimo metu, pavyzdžiui, terminalo aplinką ar vaizdo žaidimą.

  • Įvertinimas: konkretus testas ar matavimas platesnio vertinimo viduje.

  • Įvertinimo suvokimas: įvertinimo suvokimas reiškia, kad modelis atpažįsta arba, regis, atpažįsta, jog yra įvertinamas, ir gali atitinkamai koreguoti savo elgseną. Tai gali pasireikšti tuo, kad modelis aiškiai protauja apie tai, jog yra testuojamas, numano įvertinimo tikslą arba keičia savo elgseną, nes tikisi, kad rezultatas paveiks, kaip jis bus įvertinamas ar diegiamas

  • Apvalkalas: į modelį orientuota struktūra, leidžianti modeliui atlikti užduotį: užklausos, įrankiai, sąsajos, valdymo logika, atmintis, pakartotiniai bandymai, validatoriai ir kitos modelį supančios pagalbinės struktūros.

  • Maksimalus išgavimas: testavimas, kuriuo siekiama nustatyti stipriausią patikimą našumą arba nesėkmės režimą, kurį sistema gali parodyti esant apibrėžtam biudžetui, o ne tiesiog vieną kartą testuoti sistemą naudojant standartizuotą apvalkalą.

  • Protavimo eiga: modelio tarpinių protavimo žingsnių įrašai testo metu.

  • Atlygio nulaužimas: aukšto balo pasiekimas pasinaudojant trumpesniu keliu ar elgsena, neatitinkančia įvertintojo sumanymo.

  • Apsaugos priemonės: filtrai, stebėsenos priemonės, blokavimo sistemos ir kitos apsaugos, taikomos modeliui ar produktui.

  • Tyčinis rezultatų menkinimas: strategiškai prastesnis pasirodymas įvertinime taip, kad rezultatas būtų iškraipytas.

  • Balų skyrimas: metodas, naudojamas siekiant nuspręsti, kaip matuojamas našumas arba ar užduotis buvo sėkminga.

  • Standartizuotas apvalkalas: apvalkalas, išlaikomas toks pats skirtingoms sistemoms, o ne pritaikomas konkrečiam modeliui ar užduočiai, kad rezultatų skirtumus būtų lengviau priskirti testuojamam modeliui.

  • Laiko horizontas: užduoties trukmė, kurią sistema gali įveikti nurodytu patikimumo lygiu, dažnai išreiškiama tuo, kiek laiko ta pati užduotis užtruktų žmogui.

  • Prieiga prie įrankių: išoriniai įrankiai, prieinami modeliui vertinimo metu.

  • Trajektorijos: nuoseklūs žingsniai, kuriais sistema eina atlikdama užduotį.

  • Universalus apsaugų apėjimas (arba „jailbreak“): vienas atakos šablonas, dėl kurio sistema apeina apsaugos priemones daugelyje užklausų ar užduočių.

Išnašos

  1. 1

    Šiame įraše nesiekiama nuspręsti, kaip trečiosios šalys turėtų įvertinti nesuderinamumo ar su polinkiais susijusius teiginius. Reikia daugiau darbo, kad būtų suprasta, kaip apvalkalo pasirinkimai veikia tokius įvertinimus, ypač todėl, kad apvalkalai, palaikantys ilgesnio horizonto elgseną, taip pat gali pakeisti, kokią nenumatytą elgseną įvertintojams reikia stebėti.

  2. 2

    HAL(atsidaro naujame lange) pateikia papildomą pavyzdį iš agentų įvertinimų: CORE-Bench(atsidaro naujame lange) atveju pakeitus apvalkalą į „Claude Code“ pasikeitė ir išmatuotas našumas, ir sąnaudų profilis tame pačiame etalone. Kiti vieši pavyzdžiai apima SWE-agent(atsidaro naujame lange), SeeAct(atsidaro naujame lange), ScienceAgentBench(atsidaro naujame lange), CORE-Bench(atsidaro naujame lange) ir Inspect Cyber(atsidaro naujame lange); kiekvienas nurodo skaitytojams, kokia sąsaja ar apvalkalas lėmė balą.

  3. 3

    100 % balas abiejuose „Sandbagging QA“ variantuose ir 99,6 % strateginės apgaulės tyčinio rezultatų menkinimo užduotyje.