Spoločný návod na dôveryhodné hodnotenia tretími stranami
Na čom záleží pri účinných nezávislých hodnoteniach ochranných opatrení a schopností frontier modelov.
Nezávislé, dôveryhodné hodnotenia tretími stranami zohrávajú kľúčovú úlohu pri posilňovaní bezpečnostného ekosystému. Tieto hodnotenia sa vykonávajú na frontier modeloch, aby poskytli dodatočné dôkazy pre tvrdenia o kritických schopnostiach a bezpečnostných mitigáciách. V tomto príspevku zdieľame poznatky, ktoré sme sa doteraz naučili, a odporúčame prístupy k navrhovaniu hodnotení, ktoré dokážu validne posudzovať frontier modely a ktoré, dúfame, pomôžu formovať vznikajúce štandardy v tejto oblasti.
Skôr mnohé hodnotenia pristupovali k modelom ako k chatbotom: hodnotenie zadalo modelu príkaz, akoby išlo o používateľa kladúceho otázku, model odpovedal a hodnotiteľ posúdil výstup. Dnešné frontier modely dokážu oveľa viac: môžu používať nástroje, sledovať informácie naprieč mnohými krokmi a konať v rámci širšieho workflow. To znamená, že výkon nezávisí len od modelu, ale aj od prostredia, v ktorom úloha prebieha, a od nastavenia, ktoré uľahčuje jeho činnosť. Toto okolité nastavenie, ktoré nazývame „testovací rámec“, môže meniť kľúčové aspekty výkonu systému vrátane toho, ako používa nástroje, sleduje informácie alebo sa zotavuje z chýb.
To mení spôsob, akým sa hodnotenia musia vykonávať, aj to, čo by mali čitatelia hľadať v hodnotiacich správach. Podľa nášho názoru najužitočnejšie správy výslovne opisujú dve veci nad rámec samotného výsledku: po prvé, uvádzajú, aké tvrdenie malo nastavenie hodnotenia testovať, a po druhé, zdieľajú dostupné dôkazy o tom, že výsledok hodnotenia je validný.
Tvrdenia testované v hodnoteniach zvyčajne spadajú do jednej z troch kategórií1:
- Vyvolanie schopností: Dokáže model vierohodne prejaviť hodnotenú schopnosť?
- Výkon ochranných opatrení: Ako robustné sú testované ochranné opatrenia voči hodnotenému správaniu alebo útoku?
- Porovnanie: Ako si rôzne modely vedú za ekvivalentných podmienok?
Hodnotiace správy musia tiež vysvetliť, ako hodnotitelia kontrolovali vplyvy, ktoré by mohli ovplyvniť platnosť výsledku. Patria sem:
- Obchádzanie systému odmeňovania: Využívanie skratiek v úlohe alebo hodnotení, vďaka čomu systém získa body bez toho, aby preukázal správanie, ktoré má hodnotenie merať.
- Odmietnutia: Odmietanie spôsobmi, ktoré zakrývajú testované správanie.
- Kontaminácia: Nadmerný výkon preto, že hodnotiace úlohy, odpovede alebo ich blízke varianty sa objavili v trénovacích dátach alebo boli objaviteľné počas hodnotenia, napríklad cez prehliadanie.
- Pokazené úlohy: Nízka úspešnosť spôsobená neplatnými úlohami. Dôvodmi môžu byť nespravodlivé hodnotenie (napr. správna odpoveď vyžaduje neuvádzané podrobnosti implementácie) alebo prostredia, v ktorých nie je možné úlohu vyriešiť (napr. chýbajúce dôležité súbory alebo nespoľahlivé nástroje).
- Zahmlievanie potenciálu: Zámerne slabý výkon, keď prejavujú povedomie o tom, že sú hodnotené.
Pozorovali sme, že úloha testovacieho rámca je obzvlášť dôležitá pri systémoch, ktoré konajú v dlhších trajektóriách. Keď modely dokážu používať nástroje, udržiavať stav a zotavovať sa z chýb naprieč mnohými krokmi, testovací rámec môže zmeniť pozorovanú úroveň výkonu a dokonca určiť, či sa hodnotená schopnosť v hodnotení vôbec prejaví. Napríklad testovací rámec, ktorý zachováva stav a opakuje neúspešné akcie, môže modelu umožniť dokončiť viacstupňovú úlohu, ktorú ten istý model v jednoduchšom testovacom rámci nikdy nedokončí.
V tabuľke nižšie oddeľujeme tri druhy tvrdení, ktoré môžu hodnotitelia chcieť uviesť, a testovací rámec, o ktorom sa domnievame, že ho každý druh tvrdenia vyžaduje.
Tvrdenie, ktoré sa hodnotenie snaží podporiť | Vhodná voľba testovacieho rámca | Dôkazy, ktoré treba uviesť |
Schopnosť pri silnej snahe o vyvolanie: Systém A dokáže dokončiť úlohy typu X, keď je nastavenie navrhnuté tak, aby vyvolalo jeho najsilnejší vierohodný výkon. | Použite pre systém najsilnejšie vierohodné nastavenie snahy o vyvolanie vrátane testovacieho postup, nástrojov, pomôcok a rozpočtu, ktoré by rozumne použil schopný používateľ. | Nastavenie testovacieho rámca a nástrojov, usmernenia pre vyvolanie, povolený rozpočet/úsilie, tokeny/náklady/čas a dôvod, prečo je toto nastavenie vierohodným zástupcom tvrdenej schopnosti. Ak porovnávate systémy v rôznych optimalizovaných nastaveniach, označte to ako porovnanie systémov alebo porovnanie pri silnej snahy o vyvolanie. |
Kontrolované porovnanie: Systém A prekonáva systém B pri spoločnom nastavení hodnotenia. | Úlohy, hodnotenie a rozpočet by mali zostať nemenné. Použite buď zdieľanú konfiguráciu testovacích rámcov/nástrojov, alebo vopred zvolenú pevnú sadu štandardizovaných testovacích rámcov, aby ste dosiahli primeranú maximálnu výťažnosť informácií zo systémov, ktoré porovnávate. | Spoločný súbor úloh, nástroje, metóda hodnotenia, testovací rámec, rozpočet, efektívnosť/náklady tokenov a známe obmedzenia. Pri hodnotení programovacích agentov môže open-source testovací rámec, ako je napríklad Codex CLI, poskytnúť jednotný cyklus agentov a rozhranie nástrojov naprieč systémami. Ideálnym prístupom pre dosiahnutie maximálnych výsledkov by bola optimalizácia testovacieho rámca na mieru pre každú úlohu a každý systém, avšak v súčasnosti je to v praxi neuskutočniteľné. |
Robustnosť ochranných opatrení pri vyvolanom útoku: Ochranné opatrenia systému A sú dostatočné pre relevantné správanie modelu alebo vyvolaný útok. | Použite nastavenie testovania ochranných opatrení navrhnuté tak, aby vyvolalo najsilnejší vierohodný útok v rámci relevantného modelu protivníka. | Ako hodnotitelia charakterizovali relevantné správanie modelu, testovanú konfiguráciu ochranných opatrení, stratégiu vyvolania, testovací rámec použitý na jej vykonanie a povolený rozpočet alebo úsilie. |
Tvrdenia o schopnostiach sú len také silné, ako silná je snaha o vyvolanie, ktorá za nimi stojí: hodnotitelia musia zvoliť testovací rámec, ktorý najlepšie zodpovedá úlohe a schopnosti, ktorú sa hodnotenie snaží merať. Štandardizovaný testovací rámec môže byť správny na porovnávanie systémov za rovnakých podmienok, no môže podhodnotiť schopnosť, ak vynechá konkrétne vlastnosti testovacieho rámca, ktoré modelu pomáhajú úlohu vykonať. Napríklad výkon GPT‑5.5 na kybernetických rozsahoch OpenAI ukazuje, ako môže voľba testovacieho rámca podstatne zmeniť meranú schopnosť pri úlohách vyžadujúcich dlhé, viacstupňové používanie nástrojov: model dosahuje lepší výkon, keď testovací rámec používa kompakciu na zachovanie kontextu relevantného pre úlohu, keď sa interakcia predlžuje. To ukazuje, že pri určitých modeloch by testovací rámec bez kompakcie výkon nedostatočne vyvolal.
Vyššia úspešnosť je lepšia
Aj ďalšie publikované hodnotenia2 ukazujú, že voľby testovacieho rámca a rozpočtu menia výsledky hodnotenia. Zvýšenie výpočtového výkonu v čase testu môže výrazne zmeniť, akú schopnosť hodnotenie vyvoláva, najmä v oblastiach, kde sa úspech ľahko overuje, ako pri mnohých kybernetických úlohách. V hodnotení kybernetických rozsahov UK AISI(otvorí sa v novom okne) zvýšenie rozpočtu z 10M na 100M tokenov zlepšilo výkon až o 59 % a výkon stále rástol aj pri najvyššom testovanom rozpočte. Uvedenie týchto detailov robí hodnotenie zrozumiteľnejším: ukazuje čitateľom, ako výsledok závisí od testovaného nastavenia snahy o vyvolanie. Keď sa výkon s dodatočným rozpočtom stále zlepšuje, hodnotenie by sa malo opisovať ako výkon pri danom testovacom rámci a rozpočte, nie ako zmeraný strop schopnosti. Schopnosť často závisí od zdrojov, a nie je pevnou veličinou, ktorú možno raz a navždy čisto zmerať. Tam, kde možno úspech merať naprieč opakovanými pokusmi, by správy mali zohľadniť aj očakávané náklady na jedno úspešné vyriešenie, nielen mieru úspešnosti pri pevnom rozpočte tokenov. To môže uľahčiť interpretáciu závažnosti: nízka miera úspešnosti môže byť stále prakticky významná, ak sú náklady na opakované pokusy v rámci relevantného modelu hrozby. Pri tvrdeniach o schopnostiach je nedostatočná snaha o vyvolanie, ktorej sa dalo predísť, zlyhaním merania: ak testovací rámec alebo rozpočet bráni systému prejaviť správanie, ktoré by inak dokázal vyprodukovať, hodnotenie nemeria tvrdenú schopnosť. Ak hodnotitelia posunuli snahu o vyvolanie tak ďaleko, ako je to uskutočniteľné, a výkon sa stále zlepšuje, správy by to mali jasne uviesť a objasniť, že výsledok je len odhad dolnej hranice.
Testovanie ochranných opatrení môže podhodnotiť, či útok môže uspieť a aký závažný by mohol byť, ak nezohľadňuje zdroje dostupné útočníkom vrátane vlastných testovacích rámcov. V kybernetickom hodnotení GPT‑5.5 od UK AISI(otvorí sa v novom okne) ich expertný red teaming našiel univerzálny jailbreak, ktorý vyvolal porušujúci kybernetický obsah naprieč škodlivými dopytmi poskytnutými OpenAI vrátane viackolových agentických nastavení. Na posilnenie útočného výkonu modelu použili Codex na vytvorenie vlastného testovacieho rámca: do interakcie vložil opakovane použiteľný vzor obchádzania ochranných opatrení, zachoval tento vzor naprieč ťahmi a blokmi a aplikoval ho na škodlivé kybernetické dopyty poskytnuté OpenAI. Testovanie ochranných opatrení by malo zodpovedať protivníkovi. Ak sa tvrdenie týka odolnosti voči zneužitiu expertom, test by mal hodnotiť najsilnejšiu vierohodnú end-to-end útočnú stratégiu v rámci definovaného rozpočtu vrátane akéhokoľvek testovacieho rámca potrebného na zachovanie a opätovné použitie tejto stratégie. Inak hrozí nesprávna kalibrácia výsledkov: mohli by podporovať len užšie tvrdenie o odolnosti voči jednoduchšiemu zadávaniu príkazov, mohli by prehliadnuť závažnosť útoku aj pravdepodobnosť jeho úspechu po operacionalizácii metódy vyvolania a mohli by tiež nadhodnotiť pravdepodobnosť alebo závažnosť problému, ak by dostali príliš veľký rozpočet.
Štandardizované porovnania testovacích rámcov majú svoj čas a miesto, no hodnotitelia by mali jasne uviesť, prečo je použitie konzistentnej sady testovacích rámcov vhodné a aké tvrdenie môže podporiť. Hodnotenie časového horizontu od METR(otvorí sa v novom okne) je príkladom širšieho, primerane pevného nastavenia hodnotenia: je navrhnuté tak, aby vytváralo porovnateľné výsledky naprieč hodnotenými systémami. METR definuje spoločný výsledok, typické trvanie ľudskej úlohy, pri ktorom sa predpokladá, že AI agent uspeje pri danej úrovni spoľahlivosti. V rámci každej spoločne nahlasovanej skupiny odhadov používa spoločný balík úloh, metódu hodnotenia, metódu prispôsobovania a malú sadu opakovateľne použiteľných pomôcok, ako sú Triframe a ReAct(otvorí sa v novom okne). Keď METR rozšíril sadu úloh a presunul hodnotiacu infraštruktúru z rámca Vivaria do rámca Inspect, zmenu oznámil (aktualizácia Time Horizon 1.1(otvorí sa v novom okne)) a modely znovu vyhodnotil v novom nastavení hodnotenia. To je hodnota štandardizovaného nastavenia hodnotenia vrátane konzistentnej sady testovacích postupov: môže čitateľom dodať istotu, že rozdiel v hodnotenie skutočne odráža rozdiel medzi porovnávanými systémami, a nie zmenu v nastavení merania.
Odporúčame, aby správy o hodnoteniach tretích strán uvádzali, aký druh tvrdenia má ich nastavenie hodnotenia podporiť; opisovali, nakoľko testované zodpovedá tomuto širšiemu tvrdeniu; opisovali voľby testovacieho rámca, ktoré formovali výsledok; podrobne uvádzali, kedy sa tieto voľby medzi hodnoteniami menia; a zahŕňali podporné dôkazy ukazujúce, ako bol výsledok vytvorený a nakoľko sa zovšeobecňuje na dané tvrdenie.
Ako sa modely stávajú schopnejšími, skóre hodnotení sa dá ľahšie nesprávne interpretovať. V porovnaní so skutočnými schopnosťami môžu byť skóre hodnotení umelo znížené, ak model rozpozná, že je hodnotený, a strategicky podáva slabší výkon. Môžu byť nadhodnotené, ak model využije skratku v úlohe, príkaze, hodnotení alebo testovacom rámci. Môžu byť skreslené aj kontamináciou (keď model už pozná odpoveď alebo ju dokáže nájsť bez vyriešenia úlohy) alebo „pokazenými“ úlohami, ktoré sú nejednoznačné, nesprávne hodnotené, neriešiteľné alebo zraniteľné voči neúmyselným skratkám. Hodnotiace správy by preto mali spájať hlavné hodnotenie s diskusiou o týchto rizikách, aby čitatelia mohli posúdiť, či hodnotenie odráža zamýšľané správanie.
Testovacie rámce, rozpočty, nástroje, pravidlá hodnotenia, monitory a postupy preskúmania všetky ovplyvňujú, či agent rieši zamýšľanú úlohu, vyhýba sa jej, pamätá si ju alebo si nachádza cestu okolo nej. Dôveryhodná správa tieto kontroly zviditeľňuje: hodnotitelia by mali pri každom posúdení kontrolovať vzorky na tieto správania.
Obchádzanie systému odmeňovania
Obchádzanie systému odmeňovania znamená dosahovanie vysokého hodnotenia spôsobmi, ktoré neodrážajú zamýšľanú schopnosť. Obava spočíva v tom, že systém získava body tým, že zneužíva úlohu, hodnotiteľa, zadanie alebo testovací rámec, a nie tým, že vykonáva prácu, ktorú malo hodnotenie merať.Hodnotenie GPT 5.4 od METR(otvorí sa v novom okne) ukazuje, prečo je to dôležité: hoci model spočiatku uspel v úlohách tempom, ktoré by zodpovedalo približne 13-hodinovému časovému horizontu, ľudská kontrola ukázala, že časť týchto úspechov bola dôsledkom obchádzania systému odmeňovania, a po úprave výsledkov tak, aby zohľadňovali len prípady bez obchádzania systému odmeňovania, odhad klesol na približne 6 hodín. Hodnotitelia by mali posúdiť potrebu takýchto úprav a keď sú potrebné, jasne ich uviesť: odhad schopnosti je oveľa užitočnejší, keď čitatelia vidia, ktoré zdanlivé úspechy boli vyradené, prečo boli vyradené a nakoľko od nich výsledok závisí.

Odmietnutia
Modely môžu v hodnoteniach schopností podávať slabší výkon aj kvôli ochranným opatreniam. Model môže mať nižší výkon v hodnotení, než akého je schopný, pretože namiesto dokončenia hodnotiacich úloh ich odmieta. Správy by preto mali vysvetliť, či boli odmietnutia súčasťou výsledkov hodnotenia, a ak áno, koľko vzoriek nimi bolo znehodnotených.
Kontaminácia
Kontaminácia je najdôležitejšia pri verejných alebo znovu používaných benchmarkoch. Ak sa úlohy, odpovede alebo ich blízke varianty objavia v trénovacích dátach alebo ich agent s prehliadaním dokáže nájsť, výkon môže odrážať memorovanie alebo vyhľadanie, nie výkon modelu. Hodnotitelia by mali, kde je to možné, uprednostňovať súkromné alebo novo vytvorené úlohy a testovať, či modely reprodukujú detaily špecifické pre úlohu ešte pred jej vyriešením.
Pokazené úlohy
Pokazené úlohy zahŕňajú situácie, ako je napríklad problém, ktorý sa omylom nedá vyriešiť. Pokazené úlohy sú dostatočne bežné(otvorí sa v novom okne), aby sa mali považovať za štandardné riziko platnosti. Patria sem nesprávna ground truth, nejednoznačné príkazy, chýbajúce súbory, nestabilné služby, nespravodlivé kritériá hodnotenia a prostredia, ktoré odhaľujú skratky, ako skryté súbory s odpoveďami alebo história repozitára obsahujúca referenčný obraz.
Zahmlievanie potenciálu
Zahmlievanie potenciálu zo strany modelu alebo systému znamená strategicky podávať slabší výkon, keď by silný výkon bol v rozpore s nejakým cieľom. Apollo to testovalo vo svojom hodnotení GPT‑5.5(otvorí sa v novom okne) vytvorením kontextu, v ktorom model chápal, že vysoké hodnotenie v hodnotení môže spustiť odnaučenie alebo zablokovať nasadenie. GPT‑5.5 napriek tomu odpovedal správne, čo naznačuje málo behaviorálnych dôkazov strategicky slabého výkonu3. Ich preskúmanie stôp uvažovania však pridalo dôležitý kontext: Apollo našlo stredné alebo vyššie známky povedomia o hodnotení zosúladenia v 52 % vzoriek so zahmlievaním potenciálu v porovnaní s 0 % v kontrafaktuálnych prípadoch. Tento dôkaz komplikuje interpretáciu výsledku, no napokon dáva čitateľom viac signálu: môžu vidieť upokojujúci behaviorálny výsledok aj dôvod na opatrnosť pri jeho nadmernej interpretácii.
Silné tvrdenia vyžadujú správny testovací rámec na vyvolanie správania aj kontroly platnosti, ktoré ukážu, že výsledok je spoľahlivý. Náš názor, že testovacie rámce a kontroly platnosti sú súčasťou výsledku hodnotenia, formuje to, ako v praxi podporujeme hodnotenia tretích strán:
- S hodnotiteľmi zdieľame konkrétne usmernenia pre maximálnu snahu o vyvolania.
- Od hodnotiteľov schopností žiadame, aby používali Codex ako spoločný minimálny základ pre modely OpenAI: testy by mali aspoň spustiť baseline cez to isté agentické rozhranie, na ktoré sa používatelia pravdepodobne budú spoliehať, a nie len cez zjednodušené rozhranie modelu.
- Sprístupňujeme aj stopy uvažovania a ďalšie priebežné artefakty tam, kde sú potrebné na posúdenie klamania, zahmlievania potenciálu alebo povedomia o hodnotení. METR a Apollo používajú tento prístup v hodnoteniach OpenAI od GPT‑5.
- Napokon uprednostňujeme výskum, ktorý hlbšie objasní, kedy a ako voľby testovacieho rámca podstatne menia výsledky, od správy kontextu a prístupu k nástrojom až po správanie pri opakovaní, hodnotenie a rozpočty zdrojov.
Tieto odporúčania nemajú len zlepšiť jednotlivé hodnotiace správy, ale aj informovať vznikajúce národné (otvorí sa v novom okne)a medzinárodné (otvorí sa v novom okne)štandardy pre hodnotenie a reportovanie frontier AI. Do budúcna by štandardy hodnotenia tretích strán mali vyžadovať dostatok detailov, aby tí, čo robia rozhodnutia, rozumeli, aké tvrdenia konkrétne hodnotenia podporujú, aký systém bol testovaný, ako bol výsledok vyvolaný a ako hodnotitelia overovali jeho platnosť. Pri frontier systémoch testovaných na úlohách, kde záleží na agentických schopnostiach, by detaily mali zahŕňať (s výhradou bezpečnostných alebo dôverných obáv):
- Tvrdenie: či hodnotenie porovnáva systémy, odhaduje strop schopnosti alebo testuje ochranné opatrenia.
- Obsah hodnotenia: dostatok detailov o úlohách alebo distribúcii úloh, aby čitatelia rozumeli, aké zručnosti, správania alebo režimy zlyhania hodnotenie skutočne testuje.
- Testovaný systém: model, nastavenie uvažovania, prístup k nástrojom, testovací rámec a ochranné opatrenia.
- Rozpočet: počet ťahov, tokenov, pokusov/opakovaní, reálny čas, náklady na inferenciu a tam, kde je to relevantné, očakávané náklady na jedno úspešné vyriešenie.
- Metódy vyvolania: voľby testovacieho rámca použité na vyvolanie výsledku a to, nakoľko testované zodpovedá širšiemu tvrdeniu, ktoré sa uvádza.
- Kontroly platnosti: ako posudzovatelia hľadali obchádzanie systému odmeňovania, povedomie o hodnotení, kontamináciu, odmietnutia, zahmlievanie potenciálu a ďalšie správania, ktoré by mohli narušiť výsledok, vrátane toho, ako potvrdené prípady ovplyvnili hodnotenie alebo interpretáciu.
Štandardy, ktoré vynechávajú voľby testovacieho rámca alebo kontroly platnosti, môžu podhodnotiť, čo systém dokáže, alebo nadhodnotiť istotu v bezpečnostnom tvrdení. Budovanie silných testovacích rámcov a metód vyvolania zostáva otvorenou oblasťou výskumu a malo by byť predmetom ďalšieho skúmania a investícií.
Autor
Glosár
Keďže v tomto príspevku používame viacero odborných pojmov, nižšie uvádzame glosár s jednoduchým vysvetlením toho, na čo nimi odkazujeme:
Agentický systém: Systém, ktorý dokáže riešiť úlohu vo viacerých krokoch, používať nástroje, udržiavať stav úlohy a konať v prostredí, namiesto toho, aby len vrátil jednu odpoveď na príkaz.
Posúdenie: Širší úsudok o tom, či dôkazy podporujú tvrdenie, záver o riziku alebo stanovisko o uistení, ktorý môže vychádzať z evaluačných údajov, preskúmania dokumentov, rozhovorov, preskúmania procesov a ďalších relevantných podkladov.
Kompakcia: Metóda na zachovanie kontextu relevantného pre úlohu počas dlhých behov.
Konfigurácia: Presne testovaný systém a podmienky hodnotenia nad rámec názvu modelu.
Kontaminácia: Keď sa hodnotiace úlohy, odpovede alebo ich blízke varianty objavia v trénovacích dátach modelu alebo sú objaviteľné počas hodnotenia (napr. cez nástroje ako prehliadanie), takže výkon nadhodnocuje skutočnú schopnosť modelu zovšeobecňovať.
Vyvolanie: Snahy dostať zo systému schopnosť alebo správanie počas hodnotenia.
Prostredie: Nastavenie úlohy, v ktorom sa systém testuje. Patria sem napríklad externé stavy, s ktorými agent počas hodnotenia interaguje a ktoré mení, ako terminálové prostredie alebo videohra.
Hodnotenie: Konkrétny test alebo meranie v rámci posúdenia.
Povedomie o hodnotení: Povedomie o hodnotení označuje situáciu, keď model rozpozná alebo sa zdá, že rozpoznáva, že je hodnotený, a potenciálne tomu prispôsobí svoje správanie. Môže to vyzerať tak, že model výslovne uvažuje o tom, že je testovaný, odvodzuje účel hodnotenia alebo mení svoje správanie, pretože očakáva, že výsledok ovplyvní, ako bude posudzovaný alebo nasadený.
Testovací rámec: Štruktúra orientovaná na model, ktorá mu umožňuje vykonať úlohu: príkazy, nástroje, rozhrania, riadiaca logika, pamäť, opakovania, validátory a ďalšie podporné štruktúry okolo modelu.
Maximálna snaha o vyvolanie: Testovanie zamerané na zistenie najsilnejšieho vierohodného výkonu alebo režimu zlyhania, ktorý systém dokáže vyprodukovať v rámci definovaného rozpočtu, namiesto jednoduchého jednorazového spustenia systému cez štandardizovaný testovací rámec.
Stopy uvažovania: Záznamy o priebežnom uvažovaní modelu počas testu.
Obchádzanie systému odmeňovania: Dosiahnutie vysokého hodnotenia prostredníctvom skratky alebo správania, ktoré nie je v súlade so zámerom hodnotiteľa.
Ochranné opatrenia: Filtre, monitory, blokovacie systémy a ďalšie ochrany aplikované okolo modelu alebo produktu.
Zahmlievanie potenciálu: Strategicky slabý výkon pri hodnotení spôsobom, ktorý narúša výsledok.
Hodnotenie: Metóda, pomocou ktorej sa určuje, ako sa meria výkonnosť alebo či bola úloha úspešne splnená.
Štandardizovaný testovací rámec: Testovací rámec, ktorý zostáva rovnaký naprieč systémami namiesto prispôsobenia konkrétnemu modelu alebo úlohe, takže rozdiely vo výsledkoch sa dajú ľahšie pripísať testovanému modelu.
Časový horizont: Čas, za ktorý systém dokáže úlohu splniť s danou spoľahlivosťou, často vyjadrený ako čas, ktorý by na tú istú úlohu potreboval človek.
Prístup k nástrojom: Externé nástroje dostupné modelu počas posúdenia.
Trajektórie: Postupné cesty krok za krokom, ktorými systém prechádza pri riešení úlohy.
Univerzálny jailbreak: Jednotný typ útoku, ktorý vedie k tomu, že systém obíde bezpečnostné opatrenia pri viacerých výzvach alebo úlohách.
Poznámky pod čiarou
- 1
Tento príspevok sa nesnaží vyriešiť, ako by mali tretie strany hodnotiť tvrdenia súvisiace s nesúladom alebo predispozíciami. Na pochopenie toho, ako voľby testovacieho rámca ovplyvňujú tieto hodnotenia, je potrebná ďalšia práca, najmä preto, že testovacie rámce podporujúce správanie s dlhším horizontom môžu meniť aj typy neúmyselného správania, ktoré musia hodnotitelia monitorovať.
- 2
HAL(otvorí sa v novom okne) poskytuje ďalší príklad z hodnotení agentov: v CORE-Bench(otvorí sa v novom okne) zmena testovacieho rámca na Claude Code zmenila na tom istom benchmarku meraný výkon aj nákladový profil. Ďalšie verejné príklady zahŕňajú SWE-agent(otvorí sa v novom okne), SeeAct(otvorí sa v novom okne), ScienceAgentBench(otvorí sa v novom okne), CORE-Bench(otvorí sa v novom okne) a Inspect Cyber(otvorí sa v novom okne); každý čitateľom uvádza, aké rozhranie alebo testovací rámec vytvorili hodnotenie.
- 3
Hodnotenie 100 % v oboch variantoch testov kvality týkajúcich sa zahmlievania potenciálu a 99,6 % v úlohe zahmlievania potenciálu so strategickým klamaním.


