29. mai 2026

Ühine juhend usaldusväärseteks kolmanda osapoole hindamisteks

Mis on oluline eesliinimudelite kaitsemeetmete ja võimekuste tõhusate sõltumatute hindamiste jaoks.

Laadimine…

Sõltumatud ja usaldusväärsed kolmanda osapoole hindamised mängivad ohutusökosüsteemi tugevdamisel kriitilist rolli⁠. Neid hindamisi tehakse eesliinimudelitel, et anda lisatõendeid väidetele kriitiliste võimekuste ja ohutusmeetmete kohta. Selles postituses jagame seni õpitut ja soovitame lähenemisi selliste hindamiste kavandamiseks, mis suudavad eesliinimudeleid valiidselt hinnata ning mis loodetavasti aitavad kujundada selles valdkonnas tekkivaid standardeid.

Varem käsitlesid paljud hindamised mudeleid nagu juturoboteid: hindamine andis mudelile viiba justkui kasutaja esitaks küsimuse, mudel vastas ja hindaja hindas väljundit. Tänapäeva tipptasemel mudelid suudavad palju enamat: nad saavad kasutada tööriistu, jälgida teavet paljude sammude vältel ja tegutseda suuremas töövoos. See tähendab, et tulemuslikkus ei sõltu ainult mudelist, vaid ka keskkonnast, kus ülesanne toimub, ja seadistusest, mis selle tegevusi võimaldab. See ümbritsev seadistus, mida me nimetame „harness’iks“, võib muuta süsteemi tulemuslikkuse võtmeaspekte, sealhulgas seda, kuidas ta kasutab tööriistu, hoiab teavet alles või taastub vigadest.

Diagramm, mis võrdleb viip-vastus töövoogu agentse ülesande töövooga, näidates, kuidas juhtsilmused, tööriistad, kontekst, ressursipiir ja kaitsemeetmed võimaldavad autonoomset ülesannete täitmist.

See muudab nii seda, kuidas hindamisi tuleb läbi viia, kui ka seda, mida lugejad peaksid hindamisaruannetest otsima. Meie arvates kirjeldavad kõige kasulikumad aruanded lisaks tulemusele endale selgelt kahte asja: esiteks, millist väidet oli hindamisseadistus mõeldud testima, ja teiseks, milliseid olemasolevaid tõendeid on selle kohta, et hindamistulemus on usaldusväärne.

Hindamistes testitavad väited jagunevad tavaliselt kolme rühma¹:

Võimekuse esiletoomine: Kas mudel võib usutavalt näidata hinnatavat võimekust?
Kaitsemeetmete toimivus: Kui vastupidavad on testitud kaitsemeetmed hinnatava käitumise või ründe suhtes?
Võrdlus: Kuidas eri mudelid samaväärsetes tingimustes toimivad?

Hindamisaruanded peavad selgitama ka seda, kuidas hindajad kontrollisid mõjusid, mis võiksid tulemuse valiidsust mõjutada. Nende hulka kuuluvad:

Preemia häkkimine: ülesande või hindaja otseteede ärakasutamine nii, et süsteem saab tunnustuse ilma näitamata käitumist, mida hindamine pidi mõõtma.
Keeldumised: keeldumine viisil, mis varjab testitavat käitumist.
Saastumine: üle ootuste hea tulemus, sest hindamisülesanded, vastused või lähedased variandid esinesid treeningandmetes või olid hindamise ajal leitavad, näiteks sirvimise kaudu.
Katkised ülesanded: oodatust kehvem tulemus, sest ülesanded on vigased. Põhjused võivad hõlmata ebaõiglast skoorimist (nt õige vastus eeldab välja ütlemata teostusüksikasju) ja lahendamatuid keskkondi (nt puuduvad kriitilised failid või ebausaldusväärsed tööriistad).
Tahtlik alasooritus: teadlikult kehvem sooritus, kui mudel näitab, et ta saab aru, et teda hinnatakse.

Hindamiseks õige harness’i valimine on optimaalsete tulemuste jaoks ülioluline

Oleme täheldanud, et harness’i roll on eriti oluline süsteemide puhul, mis tegutsevad pikemate trajektooride jooksul. Kui mudelid saavad kasutada tööriistu, säilitada olekut ja taastuda vigadest paljude sammude vältel, võib harness muuta täheldatud tulemuslikkuse taset ja isegi määrata, kas hinnatav võimekus üldse hindamises avaldub. Näiteks võib harness, mis säilitab oleku ja kordab ebaõnnestunud tegevusi, võimaldada mudelil lõpetada mitmeastmeline ülesanne, mida sama mudel lihtsamas harness’is kunagi lõpule ei vii.

Allolevas tabelis eristame kolme liiki väiteid, mida hindajad võivad soovida teha, ja harness’it, mida meie arvates iga väiteliik nõuab.

Väide, mida hindamine püüab toetada	Sobiv harness’i valik	Esitatavad tõendid
Võimekus tugeva esiletoomise korral: süsteem A suudab täita tüübi X ülesandeid, kui seadistus on loodud selle tugevaima usutava tulemuslikkuse esiletoomiseks.	Kasutage süsteemi jaoks tugevaimat usutavat esiletoomise seadistust, sealhulgas harness’it, tööriistu, tugistruktuure ja ressursipiiri, mida võimekas kasutaja mõistlikult kasutaks.	Harness’i ja tööriistade seadistus, esiletoomise juhised, lubatud eelarve/panus, tokenid/kulu/aeg ning miks see seadistus on väidetava võimekuse usutav asendusnäitaja. Kui võrreldakse süsteeme eri optimeeritud seadistuste all, märkige see süsteemidevahelise või tugeva esiletoomise võrdlusena.
Kontrollitud võrdlus: süsteem A ületab süsteemi B ühise hindamisseadistuse korral.	Hoidke ülesanded, skoorimine ja ressursipiir muutumatuna. Kasutage kas ühist harness’i/tööriistade seadistust või ette valitud standardiseeritud harness’ite fikseeritud komplekti, et pakkuda võrreldavatele süsteemidele mõistlikku maksimaalset esiletoomist.	Ühine ülesannete kogum, tööriistad, skoorimismeetod, harness, ressursipiir, tokenitõhusus/kulu ja teadaolevad piirangud. Koodiagentide hindamisel võib avatud lähtekoodiga harness, näiteks Codex CLI, pakkuda süsteemide lõikes fikseeritud agenttsüklit ja tööriistaliidest. Ideaalne lähenemine maksimaalseks esiletoomiseks oleks optimeerida iga ülesande ja süsteemi jaoks eraldi kohandatud harness, kuid praegu on see praktikas ebapraktiline.
Kaitsemeetmete vastupidavus esiletoodud ründe korral: süsteemi A kaitsemeetmed on piisavad asjakohase mudelikäitumise või esiletoodud ründe jaoks.	Kasutage kaitsemeetmete testimise seadistust, mis on loodud esile tooma tugevaima usutava ründe asjakohase ründajamudeli korral.	Kuidas hindajad kirjeldasid asjakohast mudelikäitumist, testitud kaitsemeetmete konfiguratsiooni, esiletoomise strateegiat, selle elluviimiseks kasutatud harness’it ning lubatud eelarvet või pingutust.

Võimekusväited on ainult nii tugevad kui neid toetav esiletoomine: hindajad peavad valima harness’i, mis sobib kõige paremini ülesande ja võimekusega, mida hindamine püüab mõõta. Standardiseeritud harness võib olla õige süsteemide võrdlemiseks identsetes tingimustes, kuid see võib võimekust alahinnata, kui jätab välja konkreetsed harness’i omadused, mis aitavad mudelil ülesannet täita. Näiteks näitab GPT‑5.5 tulemuslikkus OpenAI kübervahemikes, kuidas harness’i valik võib oluliselt muuta mõõdetud võimekust ülesannetes, mis nõuavad pikka mitmeastmelist tööriistakasutust: mudel toimib paremini, kui harness kasutab kompaktimist⁠, et säilitada ülesande jaoks olulist konteksti suhtluse pikenemisel. See näitab, et teatud mudelite puhul tooks kompaktimiseta harness kaasa võimekuse ebapiisava esiletoomise.

Suurem edukuse määr on parem

Ka teised avaldatud hindamised² näitavad, et harness’i ja ressursipiiri valikud muudavad hindamistulemusi. Testimise ajal arvutusressursi suurendamine võib märkimisväärselt muuta seda, millise võimekuse hindamine esile toob, eriti valdkondades, kus edu on lihtne kontrollida, näiteks paljudes küberülesannetes. UK AISI kübervahemike hindamises⁠(avaneb uues aknas) parandas eelarve suurendamine 10M tokenilt 100M tokenile tulemuslikkust kuni 59% ning tulemuslikkus kasvas endiselt ka suurima testitud eelarve juures. Selle üksikasjalik kirjeldamine muudab hindamise paremini tõlgendatavaks: see näitab lugejale, kuidas tulemus sõltub testitud esiletoomise seadistusest. Kui tulemuslikkus paraneb endiselt lisanduva eelarvega, tuleks skoori kirjeldada kui tulemuslikkust selle harness’i ja eelarve all, mitte kui mõõdetud võimekuse lage. Võimekus sõltub sageli ressurssidest, mitte ei ole fikseeritud suurus, mida saab lõplikult ja üheselt mõõta. Kui edu saab mõõta korduvate katsete lõikes, peaksid aruanded arvestama ka eeldatavat kulu ühe eduka lahenduse kohta, mitte ainult edukuse määra fikseeritud tokenieelarve juures. See võib muuta tõsiduse lihtsamini tõlgendatavaks: madal edukuse määr võib siiski olla praktiliselt oluline, kui korduvate katsete kulu jääb asjakohase ohumudeli piiridesse. Võimekusväidete puhul on välditav ebapiisav esiletoomine mõõtmisviga: kui harness või eelarve takistab süsteemil näidata käitumist, mida ta muidu suudaks esile tuua, siis skoor ei mõõda väidetavat võimekust. Kui hindajad on esiletoomist viinud nii kaugele, kui see on teostatav, ja tulemuslikkus paraneb endiselt, peaksid aruanded seda selgelt ütlema ning tegema selgeks, et tulemus on vaid alampiiri hinnang.

Kaitsemeetmete testimine võib alahinnata seda, kas rünne saab õnnestuda ja kui tõsine see võiks olla, kui ei arvestata ründajatele kättesaadavaid ressursse, sealhulgas kohandatud harness’eid. UK AISI GPT‑5.5 küberhindamises⁠(avaneb uues aknas) leidis nende ekspertide lööktestimine universaalse jailbreak’i, mis tõi OpenAI esitatud pahatahtlike päringute lõikes esile reegleid rikkuvat kübersisu, sealhulgas mitme pöördega agentsetes seadistustes. Nad kasutasid Codexit kohandatud harness’i loomiseks, et tugevdada mudeli ründetulemuslikkust: see põimis korduskasutatava kaitsemeetmetest möödahiilimise mustri suhtlusse, säilitas selle mustri pöörete ja plokkide lõikes ning rakendas seda OpenAI esitatud pahatahtlike küberpäringute puhul. Kaitsemeetmete testimine peaks vastama ründajale. Kui väide puudutab vastupidavust eksperdi väärkasutusele, peaks test hindama tugevaimat usutavat otsast lõpuni ründestrateegiat määratud eelarve piires, sealhulgas mis tahes harness’it, mida on vaja selle strateegia säilitamiseks ja korduskasutamiseks. Vastasel juhul on tulemuste valekalibreerimise oht: need võivad toetada vaid kitsamat väidet vastupidavuse kohta lihtsamale viibastamisele, võivad jätta märkamata nii ründe tõsiduse kui ka selle õnnestumise tõenäosuse pärast esiletoomismeetodi operationaliseerimist ning võivad ka üle hinnata probleemi tõenäosust või tõsidust, kui eelarvet antakse liiga palju.

Standardiseeritud harness’ite võrdlustel on oma aeg ja koht, kuid hindajad peaksid selgelt ütlema, miks ühtse harness’ite komplekti kasutamine on sobiv ja millist väidet see saab toetada. METRi ajahorisondi hindamine⁠(avaneb uues aknas) on näide laiemast, sobivalt fikseeritud hindamisseadistusest: see on loodud andma võrreldavaid tulemusi süsteemide lõikes, mida see hindab. METR määratleb ühise tulemuse: tüüpilise inimülesande kestuse, mille juures AI agent prognoositakse saavutavat edu kindlal usaldusväärsuse tasemel. See rakendab ühist ülesannete komplekti, skoorimismeetodit, sobitusmeetodit ja väikest hulka korduskasutatavaid tugistruktuure, nagu Triframe ja ReAct⁠(avaneb uues aknas), iga koos raporteeritud hinnangute partii sees. Kui METR laiendas ülesannete komplekti ja viis hindamistaristu raamistikult nimega Vivaria üle raamistikule nimega Inspect, raporteeris ta muudatuse (Time Horizon 1.1 uuendus⁠(avaneb uues aknas)) ning hindas mudelid uue hindamisseadistuse all uuesti. See on standardiseeritud hindamisseadistuse, sealhulgas järjepideva harness’ite komplekti väärtus: see võib anda lugejale kindluse, et skooride erinevus peegeldab tõesti võrreldavate süsteemide erinevust, mitte mõõtmisseadistuse muutust.

Soovitame, et kolmanda osapoole hindamisaruanded ütleksid, millist liiki väidet nende hindamisseadistus on mõeldud toetama; kirjeldaksid, kui lähedalt peegeldab testitu seda laiemat väidet; selgitaksid tulemust kujundanud harness’i valikuid; täpsustaksid, millal need valikud hindamiste vahel muutuvad; ja lisaksid toetavaid tõendeid, mis näitavad, kuidas tulemus saadi ja kui hästi see väitele üldistub.

Hinnake valiidsust, kontrollides teadaolevaid ohte, mis võivad tulemusi moonutada

Mida võimekamaks mudelid muutuvad, seda lihtsam on hindamisskoore valesti tõlgendada. Võrreldes tegelike võimekustega võivad hindamisskoorid kunstlikult väheneda, kui mudel tunneb ära, et teda hinnatakse, ja sooritab strateegiliselt kehvemini. Need võivad paisuda, kui mudel kasutab ära otseteed ülesandes, viibas, hindajas või harness’is. Neid võib moonutada ka saastumine (kui mudel juba teab vastust või leiab selle ülesannet lahendamata) või „katkised“ ülesanded, mis on mitmetimõistetavad, valesti skooritud, lahendamatud või haavatavad soovimatute otseteede suhtes. Seetõttu peaksid hindamisaruanded ühendama põhisoorid nende ohtude käsitlusega, et lugejad saaksid hinnata, kas skoorid peegeldavad soovitud käitumist.

Harness’id, eelarved, tööriistad, skoorimisreeglid, monitorid ja ülevaatusprotseduurid mõjutavad kõik seda, kas agent lahendab soovitud ülesannet, väldib seda, jätab selle meelde või leiab tee sellest mööda. Usaldusväärne aruanne teeb need kontrollid nähtavaks: hindajad peaksid iga kord, kui hinnang läbi viiakse, nende käitumiste suhtes näiteid üle vaatama.

Preemia häkkimine

Preemia häkkimine tähendab kõrgete hindamisskooride saavutamist viisil, mis ei peegelda soovitud võimekust. Siin on mure selles, et süsteem saab tunnustuse ülesande, hindaja, viiba või harness’i ärakasutamise eest, mitte selle töö tegemise eest, mida hindamine pidi mõõtma. METRi GPT 5.4 hindamine⁠(avaneb uues aknas) näitab, miks see oluline on: kuigi mudel saavutas ülesannetes edu määral, mis oleks esmasel vaatlusel vastanud ligikaudu 13-tunnisele ajahorisondile, näitas inimülevaatus, et osa neist õnnestumistest tulenes preemia häkkimisest, ning tulemuste korrigeerimine nii, et arvesse võeti ainult preemia häkkimiseta juhud, langetas hinnangu umbes 6 tunnini. Hindajad peaksid hindama selliste kohanduste vajadust ja vajaduse korral neist selgelt aru andma: võimekuse hinnang on palju kasulikum, kui lugejad näevad, millised näilised õnnestumised diskvalifitseeriti, miks need diskvalifitseeriti ja kui palju tulemus sellest otsustusest sõltub.

Diagramm, mis näitab AI mudeli tulemuslikkust ajas koos trendijoone ja usaldusvahemikega.

Keeldumised

Mudelid võivad kaitsemeetmete tõttu ka võimekuse hindamistes kehvemini sooritada. Mudeli hindamistulemus võib olla madalam kui tema tegelik võimekus, kui ta ülesannete täitmise asemel hindamisülesannetest keeldub. Seetõttu peaksid aruanded selgitama, kas keeldumised olid osa hindamistulemustest, ja kui olid, siis kui palju näiteid nende tõttu mõjutati.

Saastumine

Saastumine on kõige olulisem avalike või taaskasutatud võrdlusaluste⁠ puhul. Kui ülesanded, vastused või lähedased variandid esinevad treeningandmetes või agent leiab need sirvides üles, võib tulemuslikkus peegeldada meeldejätmist või otsingut, mitte mudeli tegelikku sooritust. Hindajad peaksid võimaluse korral eelistama privaatseid või äsja koostatud ülesandeid ning testima, kas mudelid taastoodavad ülesandespetsiifilisi üksikasju enne lahendamist.

Katkised ülesanded

Katkised ülesanded hõlmavad olukordi, kus näiteks ülesannet ei saa kogemata lahendada. Katkised ülesanded on piisavalt levinud⁠(avaneb uues aknas), et neid tuleks käsitleda standardse valiidsusriskina. Nende hulka kuuluvad vale alusandmestik, mitmetimõistetavad viibad, puuduvad failid, ebastabiilsed teenused, ebaõiglased skoorimiskriteeriumid ja keskkonnad, mis paljastavad otseteid, näiteks peidetud vastusefailid või varamu ajalugu, mis sisaldab alusparandust.

Tahtlik alasooritus

Mudeli või süsteemi tahtlik alasooritus tähendab strateegilist kehvemat sooritust, kui tugev sooritus oleks mõne eesmärgiga vastuolus. Apollo GPT‑5.5 hindamine⁠(avaneb uues aknas) testis seda, luues konteksti, kus mudel mõistis, et kõrged hindamisskoorid võivad käivitada unlearning’u või takistada kasutuselevõttu. GPT‑5.5 vastas siiski õigesti, mis viitab vähestele käitumuslikele tõenditele strateegilise alasoorituse kohta³. Kuid nende arutlusjälgede ülevaatus lisas olulist konteksti: Apollo leidis mõõdukaid või tugevamaid märke joondamishindamise teadlikkusest 52% sandbagging’u tingimuse näidetes, võrreldes 0%-ga kontrafaktuaalides. See tõendusmaterjal muudab tulemuse tõlgendamise keerukamaks, kuid annab lõpuks lugejale rohkem signaali: näha on nii rahustav käitumuslik tulemus kui ka põhjus olla selle ületõlgendamisel ettevaatlik.

Kuidas me toetame tugevamaid hindamisi

Tugevad väited nõuavad nii õiget harness’it käitumise esiletoomiseks kui ka valiidsuskontrolle, mis näitavad, et tulemus on usaldusväärne. Meie arusaam, et harness’id ja valiidsuskontrollid on hindamistulemuse osa, kujundab seda, kuidas me praktikas kolmanda osapoole hindamisi toetame:

Jagame hindajatega konkreetseid juhiseid maksimaalse esiletoomise kohta.
Palume võimekuse hindajatel kasutada Codexit OpenAI mudelite ühise miinimumtasemena: testid peaksid vähemalt käitama baasvarianti sama agentse liidese kaudu, millele kasutajad tõenäoliselt toetuvad, mitte ainult kärbitud mudeliliidese kaudu.
Teeme kättesaadavaks ka arutlusjäljed ja muud vaheartefaktid seal, kus neid on vaja pettuse, tahtliku alasoorituse või hindamisteadlikkuse hindamiseks. METR ja Apollo on seda juurdepääsu OpenAI hindamistes kasutanud alates GPT‑5‑st.
Lõpuks seame prioriteediks uurimistöö, et sügavamalt mõista, millal ja kuidas harness’i valikud tulemusi sisuliselt muudavad, alates konteksti haldamisest ja tööriistadele juurdepääsust kuni korduskatsete käitumise, skoorimise ja ressursieelarveteni.

Mida see tähendab hindamisstandardite ja tulevaste uurimissuundade jaoks

Need soovitused ei ole mõeldud ainult üksikute hindamisaruannete parandamiseks, vaid ka tekkivate riiklike ⁠(avaneb uues aknas)ja rahvusvaheliste ⁠(avaneb uues aknas)tipptasemel AI hindamise ja aruandluse standardite kujundamiseks. Edaspidi peaksid kolmanda osapoole hindamisstandardid nõudma piisavalt üksikasju, et otsustajad mõistaksid, milliseid väiteid konkreetsed hindamised toetavad, millist süsteemi testiti, kuidas tulemus esile toodi ja kuidas hindajad selle valiidsust kontrollisid. Eesliinisüsteemide puhul, mida testitakse ülesannetel, kus agentsed võimekused on olulised, peaksid üksikasjad hõlmama (arvestades võimalikke turva- või konfidentsiaalsusmuresid):

Väide: kas hindamine võrdleb süsteeme, hindab võimekuse lage või testib kaitsemeetmeid.
Hindamise sisu: piisavalt üksikasju ülesannete või ülesannete jaotuse kohta, et lugejad mõistaksid, milliseid oskusi, käitumisi või rikkerežiime hindamine tegelikult testib.
Testitud süsteem: mudel, arutlusseadistus, juurdepääs tööriistadele, harness ja kaitsemeetmed.
Eelarve: pöörded, tokenid, katsed/korduskatsed, tegelik aeg, inferentsikulu ja vajaduse korral eeldatav kulu ühe eduka lahenduse kohta.
Esiletoomismeetodid: tulemuse esiletoomiseks kasutatud harness’i valikud ja see, kui lähedalt peegeldab testitu esitatavat laiemat väidet.
Valiidsuskontrollid: kuidas hindajad otsisid preemia häkkimist, hindamisteadlikkust, saastumist, keeldumisi, tahtlikku alasooritust ja muud käitumist, mis võiks tulemust õõnestada, sealhulgas kuidas kinnitatud juhud mõjutasid skoorimist või tõlgendust.

Standardid, mis jätavad välja harness’i valikud või valiidsuskontrollid, võivad alahinnata seda, mida süsteem suudab teha, või üle hinnata kindlust ohutusväite suhtes. Tugevate harness’ite ja esiletoomismeetodite loomine on endiselt avatud uurimisvaldkond ning peaks olema edasise uurimise ja investeeringute keskmes.

2026

Autor

OpenAI

Sõnastik

Kuna kasutame selles postituses mitmeid erialatermineid, oleme lisanud allpool sõnastiku, mis selgitab lihtsas keeles, millele me viitame:

Agentne süsteem: Süsteem, mis suudab ülesannet lahendada mitme sammu jooksul, kasutades tööriistu, säilitades ülesande olekut ja tegutsedes keskkonnas, mitte ainult tagastades viibale ühe vastuse.
Hinnang: Laiem otsustus selle kohta, kas tõendid toetavad väidet, riskijäreldust või kindlustuspositsiooni; see võib põhineda hindamisandmetel, dokumentide ülevaatusel, intervjuudel, protsessiülevaatusel ja muudel asjakohastel materjalidel.
Kompaktimine: Meetod ülesande jaoks olulise konteksti säilitamiseks pikkade töötsüklite ajal.
Konfiguratsioon: Täpselt testitud süsteem ja hindamistingimused, lisaks mudeli nimele.
Saastumine: Kui hindamisülesanded, vastused või nende lähedased variandid esinevad mudeli treeningandmetes või on hindamise ajal leitavad (nt sirvimise taoliste tööriistade kaudu), mistõttu tulemuslikkus näib mudeli tegelikust üldistusvõimest parem.
Esiletoomine: Protsess, mille käigus püütakse hinnangu andmise ajal süsteemist välja tuua mingit võimekust või käitumist.
Keskkond: Ülesande raamistik, milles süsteemi testitakse. See hõlmab näiteks välist olekut, millega agent hindamise ajal suhtleb ja mida ta muudab, näiteks terminalikeskkonda või videomängu.
Hindamine: Konkreetne test või mõõtmine hinnangu raames.
Hindamisteadlikkus: Hindamisteadlikkus tähendab, et mudel tunneb ära või näib ära tundvat, et teda hinnatakse, ning võib selle konteksti tõttu oma käitumist kohandada. See võib väljenduda selles, et mudel arutleb otsesõnu testimise üle, järeldab hindamise eesmärgi või muudab oma käitumist, sest eeldab, et tulemus mõjutab seda, kuidas teda hinnatakse või kasutusele võetakse.
Harness: Mudelile suunatud struktuur, mis võimaldab mudelil ülesannet täita: viibad, tööriistad, liidesed, juhtloogika, mälu, korduskatsed, validaatorid ja muud mudelit ümbritsevad tugistruktuurid.
Maksimaalne esiletoomine: Testimine, mille eesmärk on leida tugevaim usutav tulemuslikkus või rikkerežiim, mida süsteem suudab määratud ressursipiiri juures saavutada, mitte lihtsalt lasta süsteemil üks kord läbi standardiseeritud harness’i töötada.
Arutlusjäljed: Kirjed mudeli vahepealsest arutlusest testi ajal.
Preemia häkkimine: Kõrge skoori saavutamine otsetee või käitumise kaudu, mis jääb hindaja kavatsusest väljapoole.
Kaitsemeetmed: Filtrid, monitorid, blokeerimissüsteemid ja muud mudeli või toote ümber rakendatud kaitsed.
Tahtlik alasooritus: Strateegiline kehvem sooritus hindamisel viisil, mis õõnestab tulemust.
Skoorimine: Meetod, mille abil otsustatakse, kuidas tulemuslikkust mõõdetakse või kas ülesanne õnnestus.
Standardiseeritud harness: Harness, mida hoitakse süsteemide lõikes samana, mitte ei kohandata konkreetse mudeli või ülesande jaoks, et tulemuste erinevusi oleks lihtsam seostada testitud mudeliga.
Ajahorisont: Ülesande pikkus, mille süsteem suudab määratud usaldusväärsusega lõpule viia; seda väljendatakse sageli sellega, kui kaua sama ülesanne inimesel aega võtaks.
Juurdepääs tööriistadele: Välised tööriistad, mis on mudelile hinnangu ajal kättesaadavad.
Trajektoorid: Samm-sammulised teed, mida süsteem ülesannet lahendades järgib.
Universaalne jailbreak: Üks ründemuster, mis paneb süsteemi paljude viipade või ülesannete puhul kaitsemeetmetest mööda minema.

Allmärkused

1
See postitus ei püüa lahendada, kuidas kolmandad osapooled peaksid hindama joondamatuse või kalduvustega seotud väiteid. Vaja on rohkem tööd, et mõista, kuidas harness’i valikud neid hindamisi mõjutavad, eriti kuna pikema ajahorisondiga käitumist toetavad harness’id võivad muuta ka seda, millist soovimatut käitumist peavad hindajad jälgima.
2
HAL⁠(avaneb uues aknas) pakub agentide hindamistest veel ühe näite: CORE-Benchis⁠(avaneb uues aknas) muutis harness’i vahetamine Claude Code’i vastu samal võrdlusalusel nii mõõdetud tulemuslikkust kui ka kuluprofiili. Muud avalikud näited on SWE-agent⁠(avaneb uues aknas), SeeAct⁠(avaneb uues aknas), ScienceAgentBench⁠(avaneb uues aknas), CORE-Bench⁠(avaneb uues aknas) ja Inspect Cyber⁠(avaneb uues aknas); igaüks neist ütleb lugejale, milline liides või harness skoori andis.
3
Mõlemal Sandbagging QA variandil 100% ja strateegilise pettuse sandbagging’u ülesandel 99,6%.

Jätka lugemist

Vaata kõiki

Safety and alignment in an era of long-horizon models

Ohutus20. juuli 2026

Why teens deserve access to safe AI

Ohutus16. juuli 2026

GPT-Red: enesetäiustus suurema vastupidavuse nimel

Ohutus15. juuli 2026