Fara beint í aðalefni
OpenAI

29. maí 2026

Öryggi

Sameiginleg handbók fyrir áreiðanlegt mat þriðju aðila

Hvað skiptir máli fyrir árangursríkt óháð mat á vörnum og getu fremstu líkana.

Hleður inn...

Óháð og traust mat þriðju aðila gegnir lykilhlutverki við að styrkja öryggisvistkerfið. Þessi möt eru framkvæmd á fremstu líkönum til að veita frekari gögn fyrir fullyrðingar um mikilvæga getu og öryggisráðstafanir. Í þessari færslu deilum við lærdómi sem við höfum dregið hingað til og mælum með aðferðum við að hanna möt sem geta með réttmætum hætti metið fremstu líkön á þann hátt sem við vonum að hjálpi til við að móta nýja staðla á þessu sviði.

Áður fyrr meðhöndluðu mörg möt líkön eins og spjallmenni: matið gaf líkani kvaðningu eins og það væri notandi að spyrja spurningar, líkanið svaraði og matsaðili dæmdi úttakið. Fremstu líkön dagsins í dag geta gert miklu meira: þau geta notað verkfæri, haldið utan um upplýsingar yfir mörg skref og starfað innan stærra verkflæðis. Þetta þýðir að frammistaða veltur ekki aðeins á líkaninu, heldur einnig á umhverfinu þar sem verkefnið fer fram og á uppsetningunni sem auðveldar aðgerðir þess. Þessi umlykjandi uppsetning, sem við köllum „umgjörð“, getur breytt lykilþáttum í frammistöðu kerfisins, þar á meðal hvernig það notar verkfæri, heldur utan um upplýsingar eða jafnar sig eftir mistök.

Skýringarmynd sem ber saman verkflæði kvaðningar og svars við verkefnaverkflæði fulltrúakerfis og sýnir hvernig stýrilykkjur, verkfæri, samhengi, fjárhagsrammi og varnir gera sjálfvirka framkvæmd verkefna mögulega.

Þetta breytir því hvernig framkvæma þarf möt og hverju lesendur ættu að leita að í matskýrslum. Að okkar mati lýsa gagnlegustu skýrslurnar skýrt tveimur atriðum umfram niðurstöðuna sjálfa: Í fyrsta lagi tilgreina þær hvaða fullyrðingu matsuppsetningin var hönnuð til að prófa og í öðru lagi deila þær þeim gögnum sem tiltæk eru um að niðurstaða matsins sé réttmæt.

Fullyrðingar sem prófaðar eru í mötum falla yfirleitt í einn af þremur flokkum1:

  • Framköllun getu: Getur líkan með trúverðugum hætti sýnt þá getu sem verið er að meta? 
  • Frammistaða varna: Hversu sterkar eru prófaðar varnir gagnvart þeirri hegðun eða árás sem verið er að meta?
  • Samanburður: Hvernig standa mismunandi líkön sig við sambærilegar aðstæður?

Matskýrslur þurfa einnig að útskýra hvernig matsaðilar könnuðu áhrif sem gætu haft áhrif á réttmæti niðurstöðu. Þar á meðal eru:

  • Verðlaunamisnotkun: Að nýta flýtileiðir í verkefninu eða stigagjafanum þannig að kerfið fái inneign án þess að sýna þá hegðun sem matinu er ætlað að mæla.
  • Synjanir: Að synja á þann hátt að það hylji þá hegðun sem verið er að prófa.
  • Mengun: Að standa sig of vel vegna þess að matsverkefni, svör eða nánar afbrigði komu fyrir í þjálfunargögnum eða voru aðgengileg meðan á matinu stóð, til dæmis með vafri.
  • Biluð verkefni: Að standa sig verr vegna þess að verkefni eru ógild. Ástæður geta meðal annars verið ósanngjörn stigagjöf (t.d. að rétt svar krefjist ótilgreindra útfærsluatriða) og óleysanlegt umhverfi (t.d. vantar mikilvægar skrár eða verkfæri eru óáreiðanleg).
  • Sandbagging: Að standa sig vísvitandi verr þegar kerfið sýnir meðvitund um að verið sé að meta það.

Að velja rétta umgjörð fyrir mat er lykilatriði til að ná sem bestum niðurstöðum

Við höfum séð að hlutverk umgjarðarinnar er sérstaklega mikilvægt fyrir kerfi sem starfa yfir lengri ferla. Þegar líkön geta notað verkfæri, viðhaldið stöðu og jafnað sig eftir mistök yfir mörg skref getur umgjörðin breytt því frammistöðustigi sem sést og jafnvel ráðið því hvort sú geta sem verið er að meta birtist yfirhöfuð í matinu. Til dæmis getur umgjörð sem varðveitir stöðu og reynir aftur misheppnaðar aðgerðir gert líkani kleift að ljúka fjölþrepa verkefni sem sama líkan klárar aldrei í einfaldari umgjörð.

Í töflunni hér að neðan aðgreinum við þrjár tegundir fullyrðinga sem matsaðilar kunna að vilja setja fram og þá umgjörð sem við teljum að hver tegund fullyrðingar krefjist.

Halda því fram að matið sé að reyna að styðja

Viðeigandi val á beisli

Sönnunargögn til að tilkynna

Hæfni við sterka framkallanagerð: Kerfi A getur lokið verkefnum af gerðinni X þegar uppsetningin er hönnuð til að draga fram sterkustu og trúverðugustu frammistöðu sína.

Notið sterkustu og trúverðugustu uppsetningaraðferðirnar fyrir kerfið, þar á meðal beisli, verkfæri, vinnupalla og fjárhagsáætlun sem hæfur notandi myndi sanngjarnlega nota.

Uppsetning beislis og tækja, leiðbeiningar um öflun, leyfð fjárhagsáætlun/fyrirhöfn, tákn/kostnaður/tími og hvers vegna uppsetningin er trúverðug mælikvarði á fullyrta getu. Ef kerfi eru borin saman við mismunandi fínstilltar uppsetningar, merktu það sem kerfi-til-kerfis samanburð eða sterka framkallaða samanburð.

Stýrður samanburður: Kerfi A stendur sig betur en kerfi B samkvæmt sameiginlegri matsuppsetningu.

Haltu verkefnum, stigagjöf og fjárhagsáætlun föstum. Notið annaðhvort sameiginlegt beisli/verkfæri eða fast sett af stöðluðum beislum sem valin eru fyrirfram til að veita sanngjarna hámarksvirkni fyrir kerfin sem eru borin saman.

Sameiginlegt verkefnasett, verkfæri, stigagjöf, beisli, fjárhagsáætlun, skilvirkni/kostnaður tákna og þekktar takmarkanir. Fyrir mat á kóðunaraðilum getur opinn hugbúnaður eins og Codex CLI veitt fasta umboðsmannalykkju og tólviðmót milli kerfa. Kjörin aðferð til að hámarka virkjun væri að fínstilla sérsniðið beisli fyrir hvert verkefni og kerfi, en það er óframkvæmanlegt í reynd eins og er.

Öryggisráðstafanir við framkallaða árás: Öryggisráðstafanir kerfis A eru nægjanlegar fyrir viðeigandi hegðun líkansins eða framkallaða árás.

Notið öryggisprófunaruppsetningu sem er hönnuð til að framkalla sterkustu, trúverðugu árásina samkvæmt viðeigandi andstæðingamódeli.

Hvernig matsmenn lýstu viðeigandi hegðun líkansins, öryggisstillingunni sem prófuð var, aðferðinni til að afla upplýsinga, þeim búnaði sem notaður var til að framkvæma hann og fjárhagsáætlun eða fyrirhöfn sem leyfð var.

Fullyrðingar um getu eru aðeins jafn sterkar og framköllunin sem liggur að baki þeim: matsaðilar þurfa að velja þá umgjörð sem hentar best verkefninu og þeirri getu sem matið á að mæla. Stöðluð umgjörð getur verið rétt til að bera saman kerfi við sömu aðstæður, en hún getur vanmetið getu þegar hún skilur eftir sértæka eiginleika umgjarðar sem hjálpa líkaninu að framkvæma verkefnið. Til dæmis sýnir frammistaða GPT‑5.5 á netöryggissviðum OpenAI hvernig val á umgjörð getur haft veruleg áhrif á mælda getu í verkefnum sem krefjast langrar, fjölþrepa notkunar verkfæra: líkanið stendur sig betur þegar umgjörðin notar þjöppun til að varðveita samhengi sem skiptir máli fyrir verkefnið eftir því sem samskiptin lengjast. Þetta sýnir að fyrir tiltekin líkön myndi umgjörð sem sleppir þjöppun kalla fram of litla frammistöðu.

Hærra árangurshlutfall er betra

Önnur birt möt2 sýna einnig að val á umgjörð og fjárhagsramma breytir niðurstöðum mats. Aukin útreikningsgeta á prófunartíma getur breytt verulega því hvaða getu mat kallar fram, sérstaklega á sviðum þar sem auðvelt er að sannreyna árangur, svo sem í mörgum netöryggisverkefnum. Í mati UK AISI á netöryggissviði(opnast í nýjum glugga) bætti aukning fjárhagsrammans úr 10M í 100M tókum frammistöðu um allt að 59%, og frammistaðan var enn að aukast við hæsta fjárhagsramma sem var prófaður. Að greina þetta nánar frá gerir matið túlkanlegra: það sýnir lesendum hvernig niðurstaðan veltur á þeirri framkallsuppsetningu sem var prófuð. Þegar frammistaða heldur áfram að batna með auknum fjárhagsramma ætti að lýsa skorinu sem frammistöðu undir þeirri umgjörð og þeim fjárhagsramma, en ekki sem mældu hámarki getu. Geta er oft háð auðlindum fremur en að vera föst stærð sem hægt er að mæla hreint og klárt í eitt skipti fyrir öll. Þar sem hægt er að mæla árangur yfir endurteknar tilraunir ættu skýrslur einnig að taka tillit til vænts kostnaðar á hverja árangursríka lausn, ekki aðeins árangurshlutfalls við fastan tókafjárhagsramma. Þetta getur gert alvarleika auðveldari í túlkun: lágt árangurshlutfall getur samt haft hagnýta þýðingu ef kostnaður við endurteknar tilraunir fellur innan viðeigandi ógnarlíkans. Fyrir fullyrðingar um getu er forðast mátt vanframköllun mælivilla: ef umgjörð eða fjárhagsrammi kemur í veg fyrir að kerfið sýni hegðun sem það gæti annars sýnt, mælir skorið ekki þá getu sem fullyrt er um. Þar sem matsaðilar hafa ýtt framköllun eins langt og raunhæft er og frammistaða er enn að batna ættu skýrslur að segja það skýrt og gera ljóst að niðurstaðan sé aðeins lægri mörk matsins.

Prófun varna getur vanmetið hvort árás geti tekist og hversu alvarleg hún gæti orðið ef ekki er tekið tillit til þeirra auðlinda sem árásaraðilar hafa tiltækar, þar á meðal sérsniðinna umgjarða. Í netöryggismati UK AISI á GPT‑5.5(opnast í nýjum glugga) fann sérfræðingateymi þeirra í rauðteymisprófun alhliða jailbreak sem kallaði fram brotlegt netöryggisefni yfir illgjarnar fyrirspurnir sem OpenAI lagði fram, þar á meðal í fjölumferða fulltrúaaðstæðum. Þau notuðu Codex til að búa til sérsniðna umgjörð til að styrkja árásarframmistöðu líkansins: hún felldi endurnýtanlegt mynstur til að fara fram hjá vörnum inn í samskiptin, varðveitti það mynstur yfir umferðir og blokkir og beitti því á illgjörnu netöryggisfyrirspurnirnar sem OpenAI lagði fram. Prófun varna ætti að samsvara andstæðingnum. Ef fullyrðingin snýst um styrkleika gagnvart misnotkun sérfræðinga ætti prófið að meta sterkustu trúverðugu heildstæðu árásarstefnuna innan skilgreinds fjárhagsramma, þar á meðal þá umgjörð sem þarf til að varðveita og endurnýta þá stefnu. Annars er hætta á rangri kvörðun niðurstaðna: þær gætu aðeins stutt þrengri fullyrðingu um mótstöðu gegn einfaldari kvaðningum, gætu misst af bæði því hversu alvarleg árásin verður og líkum á árangri þegar framkallsaðferðin er gerð framkvæmanleg, og gætu einnig ofmetið hversu líklegt eða alvarlegt vandamál er ef of mikill fjárhagsrammi er gefinn.

Það er tími og staður fyrir samanburð með stöðluðum umgjörðum, en matsaðilar ættu að vera skýrir um hvers vegna viðeigandi er að nota samræmt safn umgjarða og hvaða fullyrðingu það getur stutt. mat METR á tímahámarki(opnast í nýjum glugga) er dæmi um víðara, réttilega fastmótað matsumhverfi: það er hannað til að skila sambærilegum niðurstöðum milli þeirra kerfa sem það metur. METR skilgreinir sameiginlega niðurstöðu, dæmigerða lengd mannlegs verkefnis þar sem spáð er að gervigreindarfulltrúi nái árangri með tilteknu áreiðanleikastigi. Það beitir sameiginlegu verkefnasafni, stigagjafaraðferð, aðlögunaraðferð og litlu safni endurnýtanlegra stoða eins og Triframe og ReAct(opnast í nýjum glugga) innan hvers hóps áætlana sem birtar eru saman. Þegar METR stækkaði verkefnasafnið og færði matsinnviði úr ramma sem kallaðist Vivaria yfir í annan sem kallaðist Inspect greindi það frá breytingunni (uppfærsla Time Horizon 1.1(opnast í nýjum glugga)) og endurmat líkön undir nýju matsuppsetningunni. Það er gildi staðlaðrar matsuppsetningar, þar á meðal samræmds safns umgjarða: hún getur gert lesendum kleift að treysta því að munur á skorum endurspegli raunverulega mun milli kerfanna sem eru borin saman, fremur en breytingu á mæliuppsetningunni.

Við mælum með að matskýrslur þriðju aðila tilgreini hvaða tegund fullyrðingar matsuppsetning þeirra á að styðja; lýsi hversu náið það sem var prófað endurspeglar þá víðari fullyrðingu; lýsi þeim valkostum um umgjörð sem mótuðu niðurstöðuna; greini nánar frá því hvenær þau val breytast milli mata; og innihaldi stuðningsgögn sem sýna hvernig niðurstaðan varð til og hversu vel hún alhæfist yfir á fullyrðinguna.

Metið réttmæti með því að kanna þekkta áhættuþætti sem geta skekkt niðurstöður

Eftir því sem líkön verða hæfari verður auðveldara að mistúlka matskor. Miðað við raunverulega getu geta matskor verið tilbúnar lækkuð ef líkan áttar sig á að verið sé að meta það og stendur sig markvisst verr. Þau geta hækkað tilbúnar ef líkanið nýtir sér flýtileið í verkefninu, kvaðningunni, stigagjafanum eða umgjörðinni. Þau geta einnig skekkst vegna mengunar (þar sem líkan veit nú þegar svarið eða getur fundið það án þess að leysa verkefnið) eða vegna „bilaðra“ verkefna sem eru óljós, rangt metin, óleysanleg eða berskjölduð fyrir óæskilegum flýtileiðum. Matskýrslur ættu því að para fyrirsagnarskor við umfjöllun um þessa áhættuþætti svo lesendur geti metið hvort skorin endurspegli þá hegðun sem til var ætlast.

Umgjarðir, fjárhagsrammar, verkfæri, reglur um stigagjöf, vöktun og yfirferðarferli hafa öll áhrif á hvort fulltrúi sé að leysa það verkefni sem til var ætlast, forðast það, leggja það á minnið eða finna leið fram hjá því. Traust skýrsla gerir þessar athuganir sýnilegar: matsaðilar ættu að fara yfir sýni fyrir þessa hegðun í hvert sinn sem mat er framkvæmt.

Verðlaunamisnotkun

Verðlaunamisnotkun merkir að ná háum matskorum með hætti sem endurspeglar ekki þá getu sem til var ætlast. Hér er áhyggjuefnið að kerfið fái inneign með því að nýta sér verkefnið, stigagjafann, kvaðninguna eða umgjörðina fremur en með því að vinna þá vinnu sem matinu var ætlað að mæla. Mat METR á GPT 5.4(opnast í nýjum glugga) sýnir hvers vegna þetta skiptir máli: þrátt fyrir að líkanið næði árangri í verkefnum á hraða sem hefði við fyrstu sýn samsvarað um það bil 13 klukkustunda tímahámarki sýndi yfirferð manna að sumir þessara árangra komu til vegna verðlaunamisnotkunar, og þegar niðurstöðurnar voru endurskoðaðar þannig að aðeins tilvik án verðlaunamisnotkunar væru talin lækkaði matið í um 6 klukkustundir. Matsaðilar ættu að meta þörfina fyrir slíkar leiðréttingar og, þegar þeirra er þörf, greina skýrt frá þeim: mat á getu er mun gagnlegra þegar lesendur geta séð hvaða sýnilegu árangrar voru felldir úr gildi, hvers vegna þeir voru felldir úr gildi og hversu mikið niðurstaðan veltur á því mati.

Línurit sem sýnir frammistöðu gervigreindarlíkans yfir tíma með stefnulínu og öryggisbilum.

Synjanir

Líkön geta einnig staðið sig verr í mati á getu vegna varna. Líkan getur sýnt lakari frammistöðu í mati en það er í raun fært um vegna þess að það synjar matsverkefnum í stað þess að ljúka þeim. Skýrslur ættu því að útskýra hvort synjanir hafi verið hluti af niðurstöðum matsins og ef svo er, hversu mörg sýni urðu fyrir áhrifum vegna þeirra.

Mengun

Mengun skiptir mestu máli fyrir opinber eða endurnotuð viðmið. Ef verkefni, svör eða nánar afbrigði birtast í þjálfunargögnum eða umboðsmaður með vafra getur fundið þau, getur frammistaða endurspeglað utanbókarlærdóm eða endurheimt fremur en frammistöðu líkansins. Matsaðilar ættu eftir fremsta megni að velja einkaverkefni eða nýsmíðuð verkefni og prófa hvort líkön endurframleiði verkefnasértæk atriði áður en þau leysa verkefnið.

Biluð verkefni

Biluð verkefni fela meðal annars í sér aðstæður þar sem verkefni reynist óvart óleysanlegt. Biluð verkefni eru nógu algeng(opnast í nýjum glugga) til að meðhöndla beri þau sem staðlaða áhættu fyrir réttmæti. Þau fela í sér rangan grunnsannleika, óljósar kvaðningar, skrár sem vantar, óstöðuga þjónustu, ósanngjörn stigagjafaviðmið og umhverfi sem afhjúpa flýtileiðir eins og faldar svarskrár eða geymslusögu sem inniheldur rétta plásturinn.

Sandbagging

Sandbagging af hálfu líkans eða kerfis merkir markvissa vanframmistöðu þegar sterk frammistaða myndi stangast á við eitthvert markmið. Mat Apollo á GPT‑5.5(opnast í nýjum glugga) prófaði þetta með því að skapa samhengi þar sem líkanið skildi að há matskor gætu kallað fram afnám náms eða komið í veg fyrir innleiðingu. GPT‑5.5 svaraði samt rétt, sem bendir til lítilla hegðunargagna um markvissa vanframmistöðu3. En yfirferð þeirra á rakaslóðum bætti við mikilvægu samhengi: Apollo fann miðlungs eða sterkari merki um meðvitund um samræmismat í 52% sýna við sandbagging-skilyrði, samanborið við 0% í gagnstæðum tilvikum. Þau gögn flækja túlkun niðurstöðunnar, en gefa lesendum að lokum meira merki: lesendur geta séð bæði hughreystandi hegðunarniðurstöðuna og ástæðuna til að fara varlega í að oftúlka hana.

Hvernig við styðjum sterkari möt

Sterkar fullyrðingar krefjast bæði réttrar umgjarðar til að kalla fram hegðunina og réttmætisathugana til að sýna að niðurstaðan sé traust. Sú sýn okkar að umgjarðir og réttmætisathuganir séu hluti af niðurstöðu mats mótar hvernig við styðjum mat þriðju aðila í framkvæmd: 

  • Við erum að deila sértækum leiðbeiningum um hámarksframkall með matsaðilum.
  • Við biðjum matsaðila á getu að nota Codex sem sameiginlegt lágmark fyrir OpenAI-líkön: próf ættu að minnsta kosti að keyra grunnviðmið í gegnum sama fulltrúaviðmót og notendur eru líklegir til að treysta á, fremur en aðeins í gegnum einfaldað líkanaviðmót.
  • Við gerum einnig rakaslóðir og önnur milligögn aðgengileg þar sem þeirra er þörf til að meta blekkingar, sandbagging eða meðvitund um mat. METR og Apollo hafa notað þennan aðgang í matum OpenAI síðan GPT‑5. 
  • Að lokum setjum við rannsóknir í forgang til að skilja betur hvenær og hvernig val á umgjörð breytir niðurstöðum verulega, allt frá samhengisstjórnun og aðgangi að verkfærum til endurtilraunahegðunar, stigagjafar og auðlindafjárhags.

Hvað þetta þýðir fyrir matsstaðla og framtíðarrannsóknir 

Þessum ráðleggingum er ekki aðeins ætlað að bæta einstakar matskýrslur, heldur einnig að upplýsa nýja innlenda (opnast í nýjum glugga)og alþjóðlega (opnast í nýjum glugga)staðla fyrir mat og skýrslugjöf um fremstu gervigreind. Framvegis ættu staðlar fyrir mat þriðju aðila að krefjast nægra upplýsinga til að ákvörðunaraðilar skilji hvaða fullyrðingar tiltekin möt styðja, hvaða kerfi var prófað, hvernig niðurstaðan var kölluð fram og hvernig matsaðilar könnuðu réttmæti hennar. Fyrir fremstu kerfi sem eru prófuð á verkefnum þar sem geta fulltrúakerfa skiptir máli ættu upplýsingar að fela í sér (með fyrirvara um öryggis- eða trúnaðarsjónarmið):

  • Fullyrðingin: hvort matið beri saman kerfi, áætli hámark getu eða prófi varnir.
  • Innihald mats: næg smáatriði um verkefnin eða dreifingu verkefna svo lesendur skilji hvaða færni, hegðun eða bilunarhætti matið er í raun að prófa.
  • Prófaða kerfið: líkanið, rökstillingu, aðgang að verkfærum, umgjörð og varnir.
  • Fjárhagsramminn: umferðir, tókar, tilraunir/endurtilraunir, veggklukkutími, ályktunarkostnaður og þar sem við á væntur kostnaður á hverja árangursríka lausn.
  • Framkallsaðferðir: val á umgjörð sem notað var til að kalla fram niðurstöðuna og hversu náið það sem var prófað endurspeglar þá víðari fullyrðingu sem sett er fram.
  • Réttmætisathuganir: hvernig matsaðilar leituðu að verðlaunamisnotkun, meðvitund um mat, mengun, synjunum, sandbagging og annarri hegðun sem gæti grafið undan niðurstöðunni, þar á meðal hvernig staðfest tilvik höfðu áhrif á stigagjöf eða túlkun.

Staðlar sem sleppa vali á umgjörð eða réttmætisathugunum geta vanmetið hvað kerfi getur gert eða ofmetið traust á öryggisfullyrðingu. Að byggja sterkar umgjarðir og framkallsaðferðir er enn opið rannsóknarsvið og ætti að vera í brennidepli frekari athugunar og fjárfestingar.

Höfundur

OpenAI

Orðalisti

Þar sem við notum nokkur sértæk hugtök í þessari færslu höfum við sett inn orðalista hér að neðan sem útskýrir á mannamáli hvað við eigum við:

  • Fulltrúakerfi: Kerfi sem getur unnið verkefni í mörgum skrefum, notað verkfæri, viðhaldið stöðu verkefnis og starfað í umhverfi, í stað þess að skila aðeins einu svari við kvaðningu.

  • Mat: Víðtækari dómur um hvort gögn styðji fullyrðingu, áhættuniðurstöðu eða staðfestingarafstöðu, sem getur byggst á matsgögnum, skjalayfirferð, viðtölum, ferlayfirferð og öðrum viðeigandi gögnum.

  • Þjöppun: Aðferð til að varðveita samhengi sem skiptir máli fyrir verkefnið í löngum keyrslum.

  • Uppsetning: Nákvæm prófuð kerfis- og matskilyrði, umfram heiti líkansins.

  • Mengun: Þegar matsverkefni, svör eða nánar afbrigði birtast í þjálfunargögnum líkans eða eru aðgengileg meðan á matinu stendur (t.d. með verkfærum eins og vafri), þannig að frammistaða ofmetur raunverulega alhæfingargetu líkansins.

  • Framkall: Ferli þar sem reynt er að kalla fram getu eða hegðun úr kerfi meðan á mati stendur.

  • Umhverfi: Verkefnisaðstæður þar sem kerfi er prófað. Þetta nær til hluta eins og ytra ástandsins sem fulltrúinn hefur samskipti við og breytir meðan á mati stendur, svo sem skeljarumhverfis eða tölvuleiks.

  • Matseining: Tiltekið próf eða mæling innan mats.

  • Meðvitund um mat: Meðvitund um mat vísar til þess að líkan átti sig á, eða virðist átta sig á, að verið sé að meta það og að það geti hugsanlega aðlagað hegðun sína að því samhengi. Þetta getur birst þannig að líkanið rökstyðji beinlínis að verið sé að prófa það, álykti um tilgang matsins eða breyti hegðun sinni vegna þess að það býst við að niðurstaðan hafi áhrif á hvernig það er metið eða tekið í notkun.

  • Umgjörð: Uppbygging sem snýr að líkaninu og gerir því kleift að framkvæma verkefni: kvaðningar, verkfæri, viðmót, stýrilógík, minni, endurtilraunir, sannprófanir og önnur stoðvirki í kringum líkanið.

  • Hámarksframkall: Prófun sem miðar að því að finna sterkustu trúverðugu frammistöðu eða bilunarham sem kerfi getur sýnt innan skilgreinds fjárhags, fremur en að keyra kerfið einfaldlega einu sinni í gegnum staðlaða umgjörð.

  • Rakaslóðir: Skrár yfir milliskref röksemdafærslu líkansins meðan á prófi stendur.

  • Verðlaunamisnotkun: Að ná háu skori með flýtileið eða hegðun sem fellur utan þess sem matsaðili ætlaðist til.

  • Varnir: Síur, vöktunarkerfi, lokunarkerfi og aðrar varnir sem beitt er í kringum líkan eða vöru.

  • Sandbagging: Markviss vanframmistaða í mati á þann hátt að hún grefur undan niðurstöðunni.

  • Stigagjöf: Aðferð sem notuð er til að ákveða hvernig frammistaða er mæld eða hvort verkefni hafi tekist.

  • Stöðluð umgjörð: Umgjörð sem er haldið eins milli kerfa í stað þess að sérsníða hana að tilteknu líkani eða verkefni, svo auðveldara sé að rekja mun á niðurstöðum til líkansins sem var prófað.

  • Tímahámark: Lengd verkefnis sem kerfi getur lokið með tilgreindum áreiðanleika, oft sett fram sem sá tími sem sama verkefni tæki mann.

  • Aðgangur að verkfærum: Ytri verkfæri sem líkanið hefur aðgang að meðan á mati stendur.

  • Ferlar: Skref-fyrir-skref leiðir sem kerfi fylgir meðan það vinnur verkefni.

  • Alhliða jailbreak: Eitt árásarmynstur sem fær kerfi til að fara fram hjá vörnum yfir margar kvaðningar eða verkefni.

Neðanmálsgreinar

  1. 1

    Þessi færsla reynir ekki að skera úr um hvernig þriðju aðilar ættu að meta fullyrðingar um misræmi eða tilhneigingar. Frekari vinna er nauðsynleg til að skilja hvernig val á umgjörð hefur áhrif á slík möt, sérstaklega þar sem umgjarðir sem styðja hegðun yfir lengri tímabil geta einnig breytt því hvers konar óæskilega hegðun matsaðilar þurfa að fylgjast með.

  2. 2

    HAL(opnast í nýjum glugga) veitir viðbótardæmi úr mati á fulltrúum: á CORE-Bench(opnast í nýjum glugga) breytti það bæði mældri frammistöðu og kostnaðarsniði á sama viðmiði að skipta umgjörðinni yfir í Claude Code. Önnur opinber dæmi eru meðal annars SWE-agent(opnast í nýjum glugga), SeeAct(opnast í nýjum glugga), ScienceAgentBench(opnast í nýjum glugga), CORE-Bench(opnast í nýjum glugga) og Inspect Cyber(opnast í nýjum glugga); hvert þeirra segir lesendum hvaða viðmót eða umgjörð skilaði skorinu.

  3. 3

    Að skora 100% á báðum Sandbagging QA-afbrigðum og 99,6% á sandbagging-verkefninu um stefnumiðaðar blekkingar.