29. maj 2026

Skupen priročnik za zaupanja vredne zunanje evalvacije

Kaj je pomembno za učinkovite neodvisne evalvacije zaščitnih ukrepov in zmožnosti prelomnih modelov.

Nalaganje …

Neodvisne, zaupanja vredne zunanje evalvacije imajo ključno vlogo⁠ pri krepitvi varnostnega ekosistema. Te evalvacije se izvajajo na prelomnih modelih, da zagotovijo dodatne dokaze za trditve o kritičnih zmožnostih in varnostnih omilitvah. V tej objavi delimo dosedanje nauke in priporočamo pristope za zasnovo evalvacij, ki lahko veljavno ocenijo prelomne modele ter, upamo, pomagajo oblikovati nastajajoče standarde na tem področju.

Prej so številne evalvacije modele obravnavale kot klepetalne robote: evalvacija je modelu podala poziv, kot da bi šlo za uporabnika, ki postavlja vprašanje, model je odgovoril, ocenjevalec pa je presodil izhod. Današnji prelomni modeli zmorejo veliko več: lahko uporabljajo orodja, sledijo informacijam skozi številne korake in delujejo znotraj širšega delovnega toka. To pomeni, da uspešnost ni odvisna le od modela, temveč tudi od okolja, v katerem poteka naloga, in od postavitve, ki omogoča njegova dejanja. Ta okoliška postavitev, ki jo imenujemo »ogrodje«, lahko spremeni ključne vidike uspešnosti sistema, vključno s tem, kako uporablja orodja, sledi informacijam ali si opomore po napakah.

Diagram, ki primerja delovni tok poziv–odgovor z agentskim potekom naloge ter prikazuje, kako krmilne zanke, orodja, kontekst, proračun in zaščitni ukrepi omogočajo avtonomno izvajanje nalog.

To spreminja način izvajanja evalvacij in to, na kaj morajo biti bralci pozorni v evalvacijskih poročilih. Po našem mnenju najbolj uporabna poročila poleg samega rezultata izrecno opišejo dve stvari: prvič, za preizkus katere trditve je bila evalvacijska postavitev zasnovana, in drugič, katere razpoložljive dokaze delijo, da je rezultat evalvacije veljaven.

Trditve, preizkušene v evalvacijah, običajno spadajo v eno od treh skupin¹:

Izvabljanje zmožnosti: Ali lahko model verjetno pokaže zmožnost, ki jo evalvacija ocenjuje?
Uspešnost zaščitnih ukrepov: Kako robustni so preizkušeni zaščitni ukrepi proti vedenju ali napadu, ki se evalvira?
Primerjava: Kako se različni modeli odrežejo v enakovrednih pogojih?

Evalvacijska poročila morajo pojasniti tudi, kako so ocenjevalci preverjali učinke, ki bi lahko vplivali na veljavnost rezultata. Ti vključujejo:

Izkoriščanje nagrajevanja: Izkoriščanje bližnjic v nalogi ali ocenjevalniku, tako da sistem dobi priznanje, ne da bi pokazal vedenje, ki naj bi ga evalvacija merila.
Zavrnitve: Zavračanje na načine, ki zakrijejo vedenje, ki se preizkuša.
Kontaminacija: Previsoka uspešnost, ker so se evalvacijske naloge, odgovori ali bližnje različice pojavili v učnih podatkih ali jih je bilo mogoče odkriti med evalvacijo, na primer z brskanjem.
Pokvarjene naloge: Preslaba uspešnost, ker naloge niso veljavne. Razlogi lahko vključujejo nepravično točkovanje (npr. pravilen odgovor zahteva neizrečene podrobnosti implementacije) in nerešljiva okolja (npr. manjkajoče ključne datoteke ali nezanesljiva orodja).
Namerno slabša uspešnost: Namerno slabše delovanje, ko model kaže zavedanje, da je evalviran.

Izbira pravega ogrodja za evalvacijo je ključna za optimalne rezultate

Opazili smo, da je vloga ogrodja še posebej pomembna za sisteme, ki delujejo skozi daljše trajektorije. Ko modeli lahko uporabljajo orodja, ohranjajo stanje in si opomorejo po napakah skozi številne korake, lahko ogrodje spremeni opaženo raven uspešnosti in celo določi, ali se zmožnost, ki se ocenjuje, v evalvaciji sploh pojavi. Na primer, ogrodje, ki ohranja stanje in ponavlja neuspešna dejanja, lahko modelu omogoči dokončanje večstopenjske naloge, ki je isti model v preprostejšem ogrodju nikoli ne dokonča.

V spodnji tabeli ločimo tri vrste trditev, ki jih ocenjevalci morda želijo podati, in ogrodje, za katero menimo, da ga posamezna vrsta trditve zahteva.

Trditev, ki jo evalvacija poskuša podpreti	Izbira ustreznega ogrodja	Dokazi za poročanje
Zmogljivost pod močnim izzivanjem: Sistem A lahko opravlja naloge tipa X, kadar je nastavitev zasnovana tako, da iz njega izvabi najmočnejšo verodostojno zmogljivost.	Za sistem uporabite najmočnejšo verodostojno nastavitev za izvabljanje informacij, vključno z varnostnim pasom, orodji, odrom in proračunom, ki bi ga sposoben uporabnik razumno uporabil.	Nastavitev ogrodja in orodja, smernice za izvabljanje potencialnih strank, dovoljeni proračun/napor, žetoni/stroški/čas in zakaj je nastavitev verodostojen približek za navedeno zmogljivost. Če primerjate sisteme z različnimi optimiziranimi nastavitvami, to označite kot primerjavo med sistemi ali primerjavo z močno izvabljanjem potencialnih strank.
Nadzorovana primerjava: Sistem A prekaša sistem B v okviru skupne nastavitve ocenjevanja.	Ohranite fiksne naloge, točkovanje in proračun. Uporabite bodisi skupno nastavitev kabelskega snopa/orodja bodisi fiksni nabor standardiziranih kabelskih snopov, izbranih vnaprej, da zagotovite razumno največjo možno izvažanje za sisteme, ki jih primerjate.	Skupni nabor nalog, orodja, metoda točkovanja, ogrodje, proračun, učinkovitost/stroški žetonov in znane omejitve. Za evalvacije kodirnih agentov lahko odprtokodno ogrodje, kot je Codex CLI, zagotovi fiksno zanko agenta in vmesnik orodij v različnih sistemih. Idealen pristop za maksimalno izvabljanje informacij bi bil optimizacija prilagojenega varnostnega pasu za vsako nalogo in sistem, vendar je to trenutno v praksi nepraktično.
Zaščitna robustnost pri izzvanem napadu: Zaščitni ukrepi sistema A so zadostni za ustrezno vedenje modela ali izzvan napad.	Uporabite nastavitev za preizkušanje varnostnih ukrepov, zasnovano tako, da izzove najmočnejši verodostojen napad v okviru ustreznega modela nasprotnika.	Kako so ocenjevalci opredelili ustrezno vedenje modela, preizkušeno konfiguracijo varoval, strategijo izzivanja, uporabljeno ogrodje za njeno izvedbo in dovoljeni proračun oziroma trud.

Trditve o zmožnostih so močne le toliko kot izvabljanje, ki stoji za njimi: ocenjevalci morajo izbrati ogrodje, ki se najbolje ujema z nalogo in zmožnostjo, ki jo evalvacija poskuša izmeriti. Standardizirano ogrodje je lahko primerno za primerjavo sistemov v enakih pogojih, vendar lahko podceni zmožnost, če izpusti posebne lastnosti ogrodja, ki modelu pomagajo opraviti nalogo. Uspešnost GPT‑5.5 na OpenAI-jevih kibernetskih razponih na primer kaže, kako lahko izbira ogrodja bistveno spremeni izmerjeno zmožnost pri nalogah, ki zahtevajo dolgo, večstopenjsko uporabo orodij: model deluje bolje, ko ogrodje uporablja kompaktiranje⁠ za ohranjanje konteksta, pomembnega za nalogo, ko interakcija postaja daljša. To kaže, da bi pri nekaterih modelih ogrodje brez kompaktiranja izvabilo prenizko uspešnost.

Višje stopnje uspešnosti so boljše

Tudi druge objavljene evalvacije² kažejo, da izbire ogrodja in proračuna spreminjajo rezultate evalvacije. Povečanje računske porabe med preizkušanjem lahko bistveno spremeni, katero zmožnost evalvacija izvabi, zlasti na področjih, kjer je uspeh enostavno preveriti, kot pri številnih kibernetskih nalogah. V evalvaciji kibernetskega razpona UK AISI⁠(odpre se v novem oknu) je povečanje proračuna z 10M na 100M žetonov izboljšalo uspešnost za do 59 %, uspešnost pa je še vedno naraščala pri najvišjem preizkušanem proračunu. Navajanje teh podrobnosti naredi evalvacijo razumljivejšo: bralcem pokaže, kako je rezultat odvisen od preizkušene postavitve izvabljanja. Ko se uspešnost z dodatnim proračunom še vedno izboljšuje, je treba rezultat opisati kot uspešnost pri tem ogrodju in proračunu, ne pa kot izmerjeno zgornjo mejo zmožnosti. Zmožnost je pogosto odvisna od virov, ne pa fiksna količina, ki bi jo bilo mogoče enkrat za vselej čisto izmeriti. Kjer je uspeh mogoče meriti skozi ponovljene poskuse, bi morala poročila upoštevati tudi pričakovani strošek na uspešno rešitev, ne le stopnje uspešnosti pri fiksnem proračunu žetonov. To lahko olajša razlago resnosti: nizka stopnja uspešnosti je lahko še vedno praktično pomembna, če je strošek ponovljenih poskusov znotraj ustreznega modela grožnje. Pri trditvah o zmožnostih je preprečljivo premalo izvabljanja napaka merjenja: če ogrodje ali proračun sistemu prepreči, da bi pokazal vedenje, ki bi ga sicer lahko, rezultat ne meri zatrjevane zmožnosti. Kjer so ocenjevalci izvabljanje potisnili tako daleč, kot je izvedljivo, uspešnost pa se še vedno izboljšuje, morajo poročila to jasno povedati in pojasniti, da je rezultat le ocena spodnje meje.

Preizkušanje zaščitnih ukrepov lahko podceni, ali napad lahko uspe in kako resen bi lahko bil, če ne upošteva virov, ki so na voljo napadalcem, vključno z ogrodji po meri. V kibernetski evalvaciji modela GPT‑5.5 organizacije UK AISI⁠(odpre se v novem oknu) je njihovo strokovno simulirano iskanje šibkih točk v nadzorovanem okolju odkrilo univerzalni »jailbreak«, ki je izvabil kršitvene kibernetske vsebine pri zlonamernih poizvedbah, ki jih je zagotovil OpenAI, tudi v agentskih okoljih z več izmenjavami. Za okrepitev napadalne uspešnosti modela so uporabili Codex za izdelavo ogrodja po meri: v interakcijo je vgradilo ponovno uporaben vzorec za zaobidenje zaščitnih ukrepov, ta vzorec ohranilo skozi izmenjave in bloke ter ga uporabilo pri zlonamernih kibernetskih poizvedbah, ki jih je zagotovil OpenAI. Preizkušanje zaščitnih ukrepov mora ustrezati napadalcu. Če trditev govori o robustnosti proti zlorabi s strani strokovnjaka, mora preizkus oceniti najmočnejšo verodostojno celovito strategijo napada v okviru določenega proračuna, vključno z vsakim ogrodjem, potrebnim za ohranitev in ponovno uporabo te strategije. Sicer rezultati tvegajo napačno umerjenost: lahko bi podpirali le ožjo trditev o odpornosti proti preprostejšemu pozivanju, lahko bi spregledali tako resnost napada kot verjetnost uspeha, ko je metoda izvabljanja operacionalizirana, in lahko bi tudi precenili verjetnost ali resnost težave, če bi ji namenili prevelik proračun.

Za primerjave s standardiziranimi ogrodji obstajata čas in prostor, vendar morajo ocenjevalci jasno povedati, zakaj je uporaba doslednega nabora ogrodij primerna in katero trditev lahko podpira. Evalvacija časovnega horizonta organizacije METR⁠(odpre se v novem oknu) je primer širše, ustrezno fiksirane evalvacijske postavitve: zasnovana je za ustvarjanje primerljivih rezultatov med sistemi, ki jih ocenjuje. METR opredeli skupen izid, tipično trajanje človeške naloge, pri katerem naj bi agent UI uspel pri dani ravni zanesljivosti. Uporablja skupen nabor nalog, metodo točkovanja, metodo prileganja in majhen nabor ponovno uporabnih podpornih struktur, kot sta Triframe in ReAct⁠(odpre se v novem oknu), znotraj vsake serije skupaj poročanih ocen. Ko je METR razširil nabor nalog in evalvacijsko infrastrukturo premaknil iz ogrodja Vivaria v ogrodje Inspect, je spremembo prijavil (posodobitev Time Horizon 1.1⁠(odpre se v novem oknu)) in modele ponovno evalviral v novi evalvacijski postavitvi. To je vrednost standardizirane evalvacijske postavitve, vključno z doslednim naborom ogrodij: bralcem lahko vlije zaupanje, da razlika v rezultatih res odraža razliko med primerjanimi sistemi, ne pa spremembe v merilni postavitvi.

Priporočamo, da poročila o zunanjih evalvacijah navedejo, kakšno vrsto trditve naj bi njihova evalvacijska postavitev podpirala; opišejo, kako tesno preizkušeno odraža to širšo trditev; opišejo izbire ogrodja, ki so oblikovale rezultat; podrobno navedejo, kdaj se te izbire med evalvacijami spremenijo; in vključijo podporne dokaze, ki pokažejo, kako je bil rezultat ustvarjen in kako dobro se posplošuje na trditev.

Veljavnost ocenjujte s preverjanjem znanih nevarnosti, ki lahko izkrivijo rezultate

Ko modeli postajajo zmogljivejši, je evalvacijske rezultate lažje napačno razlagati. V primerjavi z dejanskimi zmožnostmi so lahko evalvacijski rezultati umetno znižani, če model prepozna, da je evalviran, in strateško deluje slabše. Lahko so napihnjeni, če model izkoristi bližnjico v nalogi, pozivu, ocenjevalniku ali ogrodju. Izkrivijo jih lahko tudi kontaminacija (ko model odgovor že pozna ali ga lahko najde, ne da bi rešil nalogo) ali »pokvarjene« naloge, ki so dvoumne, napačno ocenjene, nerešljive ali ranljive za nenamerne bližnjice. Evalvacijska poročila bi zato morala naslovne rezultate združiti z razpravo o teh nevarnostih, da lahko bralci presodijo, ali rezultati odražajo nameravano vedenje.

Ogrodja, proračuni, orodja, pravila točkovanja, nadzorni mehanizmi in postopki pregleda vplivajo na to, ali agent rešuje nameravano nalogo, se ji izogiba, si jo zapomni ali najde pot okoli nje. Zaupanja vredno poročilo ta preverjanja naredi vidna: ocenjevalci bi morali ob vsakem ocenjevanju pregledati vzorce za ta vedenja.

Izkoriščanje nagrajevanja

Izkoriščanje nagrajevanja pomeni doseganje visokih evalvacijskih rezultatov na načine, ki ne odražajo nameravane zmožnosti. Tukaj je skrb ta, da sistem dobi priznanje z izkoriščanjem naloge, ocenjevalnika, poziva ali ogrodja, namesto da bi opravil delo, ki naj bi ga evalvacija merila. METR-jeva evalvacija modela GPT 5.4⁠(odpre se v novem oknu) kaže, zakaj je to pomembno: čeprav je model uspel pri nalogah s stopnjo, ki bi ob prvem pregledu ustrezala približno 13-urnemu časovnemu horizontu, je človeški pregled pokazal, da so nekateri od teh uspehov izhajali iz izkoriščanja nagrajevanja, in popravek rezultatov tako, da so upoštevali le primere brez tega, je oceno znižal na približno 6 ur. Ocenjevalci bi morali presoditi potrebo po takih prilagoditvah in jih, kadar so potrebne, jasno navesti: ocena zmožnosti je veliko uporabnejša, ko lahko bralci vidijo, kateri navidezni uspehi so bili izločeni, zakaj so bili izločeni in koliko je rezultat odvisen od te presoje.

Graf, ki prikazuje uspešnost modela UI skozi čas s trendno črto in intervali zaupanja.

Zavrnitve

Modeli lahko pri evalvacijah zmožnosti delujejo slabše tudi zaradi zaščitnih ukrepov. Model ima lahko nižjo evalvacijsko uspešnost, kot bi jo bil sposoben doseči, ker evalvacijske naloge zavrača, namesto da bi jih dokončal. Poročila bi zato morala pojasniti, ali so bile zavrnitve del evalvacijskih rezultatov, in če so bile, koliko vzorcev je bilo zaradi njih kompromitiranih.

Kontaminacija

Kontaminacija je najpomembnejša pri javnih ali ponovno uporabljenih primerjalnih preizkusih⁠. Če se naloge, odgovori ali bližnje različice pojavijo v učnih podatkih ali jih agent z brskanjem lahko najde, lahko uspešnost odraža pomnjenje ali pridobivanje, ne pa uspešnosti modela. Ocenjevalci bi morali, kjer je mogoče, dati prednost zasebnim ali na novo sestavljenim nalogam in preveriti, ali modeli reproducirajo podrobnosti, specifične za nalogo, še preden jo rešijo.

Pokvarjene naloge

Pokvarjene naloge vključujejo situacije, kot je naloga, ki je po nesreči ni mogoče rešiti. Pokvarjene naloge so dovolj pogoste⁠(odpre se v novem oknu), da jih je treba obravnavati kot standardno tveganje za veljavnost. Sem spadajo napačna osnovna resnica, dvoumni pozivi, manjkajoče datoteke, nezanesljive storitve, nepravična merila točkovanja in okolja, ki razkrivajo bližnjice, kot so skrite datoteke z odgovori ali zgodovina repozitorija, ki vsebuje popravek osnovne resnice.

Namerno slabša uspešnost

Namerno slabša uspešnost modela ali sistema pomeni strateško slabše delovanje, kadar bi bila močna uspešnost v nasprotju z nekim ciljem. Apollova evalvacija modela GPT‑5.5⁠(odpre se v novem oknu) je to preizkusila z ustvarjanjem konteksta, v katerem je model razumel, da bi lahko visoki evalvacijski rezultati sprožili odvajanje učenja ali blokirali uvedbo. GPT‑5.5 je še vedno odgovarjal pravilno, kar kaže na malo vedenjskih dokazov o strateško slabšem delovanju³. Toda njihov pregled sledi sklepanja je dodal pomemben kontekst: Apollo je v 52 % vzorcev v pogojih »sandbagginga« našel zmerne ali močnejše znake zavedanja evalvacije usklajenosti, v primerjavi z 0 % v kontrafaktualih. Ta dokaz otežuje razlago rezultata, vendar bralcem na koncu daje več signala: vidijo lahko tako pomirjujoč vedenjski rezultat kot razlog za previdnost pri pretirani razlagi.

Kako podpiramo močnejše evalvacije

Močne trditve zahtevajo tako pravo ogrodje za izvabljanje vedenja kot preverjanja veljavnosti, ki pokažejo, da je rezultat zanesljiv. Naš pogled, da so ogrodja in preverjanja veljavnosti del evalvacijskega rezultata, oblikuje, kako v praksi podpiramo zunanje evalvacije:

Z ocenjevalci delimo konkretne smernice za maksimalno izvabljanje.
Ocenjevalce zmožnosti prosimo, naj uporabljajo Codex kot skupni minimum za OpenAI modele: preizkusi bi morali vsaj izvesti osnovno različico prek istega agentskega vmesnika, na katerega se bodo uporabniki verjetno zanašali, ne pa le prek okrnjenega vmesnika modela.
Kjer so potrebne za oceno zavajanja, namerno slabše uspešnosti ali zavedanja evalvacije, omogočamo tudi dostop do sledi sklepanja in drugih vmesnih artefaktov. METR in Apollo ta dostop uporabljata v OpenAI-jevih evalvacijah že od modela GPT‑5.
Nazadnje dajemo prednost raziskavam za globlje razumevanje, kdaj in kako izbire ogrodja bistveno spremenijo rezultate, od upravljanja konteksta in dostopa do orodij do vedenja pri ponovnih poskusih, točkovanja in proračunov virov.

Kaj to pomeni za evalvacijske standarde in prihodnje raziskovalne usmeritve

Ta priporočila niso namenjena le izboljšanju posameznih evalvacijskih poročil, temveč tudi obveščanju nastajajočih nacionalnih ⁠(odpre se v novem oknu)in mednarodnih ⁠(odpre se v novem oknu)standardov za evalvacijo in poročanje o prelomni UI. V prihodnje bi morali standardi za zunanje evalvacije zahtevati dovolj podrobnosti, da odločevalci razumejo, katere trditve posamezne evalvacije podpirajo, kateri sistem je bil preizkušen, kako je bil rezultat izvabljen in kako so ocenjevalci preverili njegovo veljavnost. Pri prelomnih sistemih, preizkušenih pri nalogah, kjer so agentske zmožnosti pomembne, bi morale podrobnosti vključevati (ob upoštevanju morebitnih varnostnih ali zaupnostnih pomislekov):

Trditev: ali evalvacija primerja sisteme, ocenjuje zgornjo mejo zmožnosti ali preizkuša zaščitne ukrepe.
Vsebina evalvacije: dovolj podrobnosti o nalogah ali porazdelitvi nalog, da bralci razumejo, katere veščine, vedenja ali načine odpovedi dejansko preizkuša evalvacija.
Preizkušeni sistem: model, nastavitev sklepanja, dostop do orodij, ogrodje in zaščitni ukrepi.
Proračun: izmenjave, žetoni, poskusi/ponovni poskusi, dejanski čas, strošek inferenc in, kjer je primerno, pričakovani strošek na uspešno rešitev.
Metode izvabljanja: izbire ogrodja, uporabljene za izvabljanje rezultata, in kako tesno preizkušeno odraža širšo trditev, ki se podaja.
Preverjanja veljavnosti: kako so ocenjevalci iskali izkoriščanje nagrajevanja, zavedanje evalvacije, kontaminacijo, zavrnitve, namerno slabšo uspešnost in druga vedenja, ki bi lahko spodkopala rezultat, vključno s tem, kako so potrjeni primeri vplivali na točkovanje ali razlago.

Standardi, ki izpustijo izbire ogrodja ali preverjanja veljavnosti, lahko podcenijo, kaj sistem zmore, ali precenijo zaupanje v varnostno trditev. Gradnja močnih ogrodij in metod izvabljanja ostaja odprto raziskovalno področje in bi morala biti v središču nadaljnjih raziskav in naložb.

2026

Avtor

OpenAI

Pojmovnik

Ker v tej objavi uporabljamo več strokovnih izrazov, smo spodaj vključili pojmovnik s poljudno razlago uporabljenih izrazov:

Agentski sistem: Sistem, ki lahko nalogo opravlja skozi več korakov, pri čemer uporablja orodja, ohranja stanje naloge in deluje v okolju, namesto da bi vrnil le en sam odgovor na poziv.
Ocena: Širša presoja o tem, ali dokazi podpirajo trditev, sklep o tveganju ali stališče glede zagotovil, ki lahko temelji na podatkih evalvacije, pregledu dokumentov, intervjujih, pregledu procesov in drugih relevantnih artefaktih.
Kompaktiranje: Metoda za ohranjanje konteksta, pomembnega za nalogo, med dolgimi izvajanji.
Konfiguracija: Natančno preizkušen sistem in pogoji evalvacije, onkraj imena modela.
Kontaminacija: Ko se evalvacijske naloge, odgovori ali njihove bližnje različice pojavijo v učnih podatkih modela ali jih je mogoče odkriti med evalvacijo (npr. z orodji, kot je brskanje), zaradi česar uspešnost preceni dejansko sposobnost posploševanja modela.
Izvabljanje: Postopek poskušanja, da bi med ocenjevanjem iz sistema izvabili določeno zmožnost ali vedenje.
Okolje: Okvir naloge, v katerem se sistem preizkusi. To vključuje stvari, kot je zunanje stanje, s katerim agent med evalvacijo izvaja interakcijo in ga spreminja, na primer terminalsko okolje ali videoigro.
Evalvacija: Določen preizkus ali meritev znotraj ocenjevanja.
Zavedanje evalvacije: Zavedanje evalvacije pomeni, da model prepozna ali se zdi, da prepozna, da je evalviran, in lahko svoje vedenje prilagodi temu kontekstu. To se lahko kaže tako, da model izrecno sklepa o tem, da je preizkušan, sklepa o namenu evalvacije ali spremeni svoje vedenje, ker pričakuje, da bo rezultat vplival na to, kako bo ocenjen ali uveden.
Ogrodje: Struktura, usmerjena k modelu, ki modelu omogoča izvedbo naloge: pozivi, orodja, vmesniki, krmilna logika, pomnilnik, ponovni poskusi, validatorji in druge podporne strukture okoli modela.
Maksimalno izvabljanje: Preizkušanje, namenjeno iskanju najmočnejše verodostojne uspešnosti ali načina odpovedi, ki ga sistem lahko pokaže v okviru določenega proračuna, namesto da bi sistem preprosto enkrat pognali skozi standardizirano ogrodje.
Sledi sklepanja: Zapisi vmesnega sklepanja modela med preizkusom.
Izkoriščanje nagrajevanja: Doseganje visoke ocene s pomočjo bližnjice ali vedenja zunaj namena ocenjevalca.
Zaščitni ukrepi: Filtri, nadzorni mehanizmi, sistemi za blokiranje in druge zaščite, uporabljene okoli modela ali izdelka.
Namerno slabša uspešnost: Strateško slabše delovanje v evalvaciji na način, ki spodkopava rezultat.
Točkovanje: Metoda, uporabljena za odločanje, kako se meri uspešnost ali ali je bila naloga uspešno opravljena.
Standardizirano ogrodje: Ogrodje, ki ostaja enako med sistemi, namesto da bi bilo prilagojeno določenemu modelu ali nalogi, tako da je razlike v rezultatih lažje pripisati preizkušenemu modelu.
Časovni horizont: Dolžina naloge, ki jo sistem lahko opravi z določeno zanesljivostjo, pogosto izražena kot čas, ki bi ga za isto nalogo potreboval človek.
Dostop do orodij: Zunanja orodja, ki so modelu na voljo med ocenjevanjem.
Trajektorije: Poti po korakih, ki jim sistem sledi med reševanjem naloge.
Univerzalni jailbreak: En sam vzorec napada, ki povzroči, da sistem obide zaščitne ukrepe pri številnih pozivih ali nalogah.

Opombe

1
Ta objava ne poskuša razrešiti, kako naj zunanji ponudniki evalvirajo trditve, povezane z neusklajenostjo ali nagnjenostjo. Potrebnega je več dela, da bi razumeli, kako izbire ogrodja vplivajo na te evalvacije, zlasti ker lahko ogrodja, ki podpirajo vedenje z daljšim horizontom, spremenijo tudi vrste nenamernega vedenja, ki ga morajo ocenjevalci spremljati.
2
HAL⁠(odpre se v novem oknu) ponuja dodaten primer iz evalvacij agentov: pri CORE-Bench⁠(odpre se v novem oknu) je sprememba ogrodja na Claude Code spremenila tako izmerjeno uspešnost kot stroškovni profil na istem primerjalnem preizkusu. Drugi javni primeri vključujejo SWE-agent⁠(odpre se v novem oknu), SeeAct⁠(odpre se v novem oknu), ScienceAgentBench⁠(odpre se v novem oknu), CORE-Bench⁠(odpre se v novem oknu) in Inspect Cyber⁠(odpre se v novem oknu); vsak bralcem pove, kateri vmesnik ali ogrodje je ustvarilo rezultat.
3
Doseganje 100 % pri obeh različicah Sandbagging QA in 99,6 % pri nalogi strateške prevare s sandbaggingom.

Berite naprej

Prikaži vse

Safety and alignment in an era of long-horizon models

Varnost20. jul. 2026

Why teens deserve access to safe AI — card image

Zakaj si najstniki zaslužijo dostop do varne umetne inteligence

Varnost16. jul. 2026

GPT-Red: Odklepanje samoizboljšav za robustnost

Varnost15. jul. 2026