Sdílený návod pro důvěryhodné externí evaluace
Na čem záleží účinná nezávislá evaluace ochranných opatření a schopností průkopnických modelů.
Nezávislé, důvěryhodné externí evaluace hrají zásadní roli při posilování ekosystému bezpečnosti. Tyto evaluace se provádějí na průkopnických modelech, aby poskytly další důkazy pro tvrzení o kritických schopnostech a bezpečnostních opatření ke zmírnění rizik. V tomto příspěvku sdílíme poznatky, které jsme se dosud naučili, a doporučujeme přístupy k navrhování evaluací, které mohou validně posuzovat průkopnické modely a které, jak doufáme, pomohou formovat vznikající standardy v této oblasti.
Dříve mnoho evaluací zacházelo s modely jako s chatboty: evaluace zadala modelu prompt, jako by šlo o uživatele pokládajícího otázku, model odpověděl a hodnotitel posoudil výstup. Dnešní průkopnické modely umí mnohem víc: mohou používat nástroje, sledovat informace napříč mnoha kroky a jednat v rámci širšího pracovního postupu. To znamená, že výkon nezávisí jen na modelu, ale také na prostředí, v němž úloha probíhá, a na nastavení, které jeho akce umožňuje. Toto okolní nastavení, které nazýváme „rámec“, může změnit klíčové aspekty výkonu systému, včetně toho, jak používá nástroje, sleduje informace nebo se zotavuje z chyb.
To mění způsob, jakým je třeba evaluace provádět, i to, co by měli čtenáři v evaluačních zprávách hledat. Podle našeho názoru nejužitečnější zprávy výslovně popisují dvě věci nad rámec samotného výsledku: za prvé uvádějí, jaké tvrzení bylo evaluační nastavení navrženo testovat, a za druhé sdílejí dostupné důkazy o tom, že výsledek evaluace je validní.
Tvrzení testovaná v evaluacích obvykle spadají do jedné ze tří kategorií1:
- Elicitace schopností: Může model věrohodně projevit hodnocenou schopnost?
- Výkon ochranných opatření: Jak odolná jsou testovaná ochranná opatření vůči hodnocenému chování nebo útoku?
- Porovnání: Jak si různé modely vedou za ekvivalentních podmínek?
Evaluační zprávy také musí vysvětlit, jak hodnotitelé kontrolovali vlivy, které by mohly ovlivnit validitu výsledku. Patří mezi ně:
- Reward hacking: Využívání zkratek v úloze nebo skórování, takže se systému dostane uznání, aniž by prokázal chování, které má evaluace měřit.
- Odmítnutí: Odmítání způsoby, které zakrývají testované chování.
- Kontaminace: Nadhodnocený výkon, protože se evaluační úlohy, odpovědi nebo blízké varianty objevily v trénovacích datech nebo byly během evaluace dohledatelné, například přes prohlížení webu.
- Vadné úlohy: Podhodnocený výkon, protože úlohy nejsou validní. Důvody mohou zahrnovat nespravedlivé skórování (např. správná odpověď vyžaduje neuvedené implementační detaily) a neřešitelná prostředí (např. chybějící kritické soubory nebo nespolehlivé nástroje).
- Sandbagging: Záměrně slabý výkon, když systém vykazuje povědomí o tom, že je hodnocen.
Pozorovali jsme, že role rámce je obzvlášť důležitá u systémů, které jednají v delších trajektoriích. Když modely mohou používat nástroje, udržovat stav a zotavovat se z chyb napříč mnoha kroky, může rámec změnit pozorovanou úroveň výkonu a dokonce určit, zda se hodnocená schopnost v evaluaci vůbec projeví. Například rámec, který zachovává stav a opakuje neúspěšné akce, může modelu umožnit dokončit vícekrokovou úlohu, kterou tentýž model v jednodušším rámci nikdy nedokončí.
V tabulce níže rozlišujeme tři druhy tvrzení, která mohou hodnotitelé chtít učinit, a rámec, o němž se domníváme, že jej každý typ tvrzení vyžaduje.
Tvrzení, které má evaluace podpořit | Vhodná volba rámce | Důkazy k uvedení |
Schopnost při silné elicitaci: Systém A dokáže dokončit úlohy typu X, když je nastavení navrženo tak, aby vyvolalo jeho nejsilnější věrohodný výkon. | Použijte pro systém nejsilnější věrohodné nastavení elicitace, včetně rámce, nástrojů, podpůrné struktury a rozpočtu, které by schopný uživatel rozumně použil. | Nastavení rámce a nástrojů, pokyny k elicitaci, povolený rozpočet/úsilí, tokeny/náklady/čas a proč je toto nastavení věrohodným zástupcem tvrzené schopnosti. Pokud porovnáváte systémy v různých optimalizovaných nastaveních, označte to jako porovnání systémů nebo porovnání při silné elicitaci. |
Kontrolované porovnání: Systém A překonává systém B při sdíleném evaluačním nastavení. | Zachovejte stejné úlohy, skórování a rozpočet. Použijte buď sdílené nastavení rámce/nástrojů, nebo předem zvolenou pevnou sadu standardizovaných rámců, které poskytují rozumnou maximální elicitaci pro porovnávané systémy. | Sdílená sada úloh, nástroje, metoda skórování, rámec, rozpočet, efektivita tokenů/náklady a známá omezení. Pro evaluace kódovacích agentů může open-source rámec, jako je Codex CLI, poskytnout pevnou smyčku agenta a rozhraní nástrojů napříč systémy. Ideální přístup k maximální elicitaci by spočíval v optimalizaci vlastního rámce pro každou úlohu a systém, ale to je v praxi zatím neproveditelné. |
Robustnost ochranných opatření při elicitačním útoku: Ochranná opatření systému A jsou dostatečná pro relevantní chování modelu nebo elicitační útok. | Použijte nastavení testování ochranných opatření navržené tak, aby vyvolalo nejsilnější věrohodný útok v rámci relevantního modelu protivníka. | Jak hodnotitelé charakterizovali relevantní chování modelu, testovanou konfiguraci ochranných opatření, strategii elicitace, rámec použitý k jejímu provedení a povolený rozpočet nebo úsilí. |
Tvrzení o schopnostech jsou jen tak silná jako elicitace, která za nimi stojí: hodnotitelé musí zvolit rámec, který nejlépe odpovídá úloze a schopnosti, již se evaluace snaží měřit. Standardizovaný rámec může být správnou volbou pro porovnávání systémů za totožných podmínek, ale může schopnost podhodnotit, pokud vynechá konkrétní vlastnosti rámce, které modelu pomáhají úlohu splnit. Například výkon GPT‑5.5 na kybernetických rozsazích OpenAI ukazuje, jak může volba rámce podstatně změnit naměřenou schopnost u úloh vyžadujících dlouhé, vícekrokové používání nástrojů: model si vede lépe, když rámec kompakci k zachování kontextu relevantního pro úloh s tím, jak se interakce prodlužuje. To ukazuje, že u některých modelů by rámec bez kompakce výkon nedostatečně vyvolal.
Vyšší úspěšnost je lepší
Také další publikované evaluace2 ukazují, že volby rámce a rozpočtu mění výsledky evaluace. Zvýšení výpočetního výkonu v době testu může výrazně změnit, jakou schopnost evaluace vyvolá, zejména v oblastech, kde je úspěch snadno ověřitelný, jako je mnoho kybernetických úloh. V evaluaci kybernetických rozsahů UK AISI(otevře se v novém okně) zvýšení rozpočtu z 10 milionů na 100 milionů tokenů zlepšilo výkon až o 59 % a výkon při nejvyšším testovaném rozpočtu stále rostl. Uvedení těchto detailů činí evaluaci srozumitelnější: ukazuje čtenářům, jak výsledek závisí na testovaném elicitačním nastavení. Když se výkon s dalším rozpočtem stále zlepšuje, mělo by být skóre popsáno jako výkon při daném rámci a rozpočtu, nikoli jako změřený strop schopnosti. Schopnost často závisí na zdrojích, spíše než aby šlo o pevnou veličinu, kterou lze jednou provždy čistě změřit. Tam, kde lze úspěch měřit napříč opakovanými pokusy, by zprávy měly zvažovat i očekávané náklady na jedno úspěšné vyřešení, nejen míru úspěšnosti při pevném tokenovém rozpočtu. To může usnadnit interpretaci závažnosti: nízká míra úspěšnosti může být stále prakticky významná, pokud jsou náklady opakovaných pokusů v rámci relevantního modelu hrozby. U tvrzení o schopnostech je vyhnutelné nedostatečné vyvolání výkonu selháním měření: pokud rámec nebo rozpočet brání systému projevit chování, které by jinak mohl vykázat, skóre neměří tvrzenou schopnost. Tam, kde hodnotitelé posunuli elicitaci tak daleko, jak je to proveditelné, a výkon se stále zlepšuje, měly by to zprávy jasně uvést a objasnit, že výsledek je pouze odhadem dolní meze.
Testování ochranných opatření může podhodnotit, zda útok může uspět a jak závažný by mohl být, pokud nezohlední zdroje dostupné útočníkům, včetně vlastních rámců. V kybernetické evaluaci GPT‑5.5 od UK AISI(otevře se v novém okně) jejich expertní red teaming našel univerzální jailbreak, který vyvolal závadný kybernetický obsah napříč škodlivými dotazy poskytnutými OpenAI, včetně vícetahových agentických nastavení. K vytvoření vlastního rámce pro posílení útočného výkonu modelu použili Codex: do interakce vložil znovupoužitelný vzor obcházení ochranných opatření, zachoval tento vzor napříč tahy a bloky a aplikoval jej na škodlivé kybernetické dotazy poskytnuté OpenAI. Testování ochranných opatření by mělo odpovídat protivníkovi. Pokud se tvrzení týká odolnosti vůči zneužití expertem, měl by test vyhodnotit nejsilnější věrohodnou end-to-end útočnou strategii v rámci definovaného rozpočtu, včetně jakéhokoli rámce potřebného k zachování a opětovnému použití této strategie. Jinak hrozí špatná kalibrace výsledků: mohou podpořit jen užší tvrzení o odolnosti vůči jednodušším promptům, mohou minout jak závažnost útoku, tak pravděpodobnost jeho úspěchu po operacionalizaci elicitační metody, a mohou také nadhodnotit pravděpodobnost či závažnost problému, pokud dostanou příliš velký rozpočet.
Standardizovaná porovnání rámců mají své místo, ale hodnotitelé by měli jasně uvést, proč je použití konzistentní sady rámců vhodné a jaké tvrzení může podpořit. Evaluace časového horizontu od METR(otevře se v novém okně) je příkladem širšího, vhodně fixovaného evaluačního nastavení: je navržena tak, aby vytvářela srovnatelné výsledky napříč hodnocenými systémy. METR definuje společný výstup, typickou dobu trvání lidské úlohy, při níž se předpokládá, že AI agent uspěje při dané úrovni spolehlivosti. V rámci každé společně reportované dávky odhadů používá sdílenou sadu úloh, metodu skórování, metodu fitování a malou sadu znovupoužitelných scaffoldů, jako jsou Triframe a ReAct(otevře se v novém okně). Když METR rozšířil sadu úloh a přesunul evaluační infrastrukturu z frameworku Vivaria do frameworku Inspect, tuto změnu oznámil (aktualizace Time Horizon 1.1(otevře se v novém okně)) a modely znovu vyhodnotil v novém evaluačním nastavení. To je hodnota standardizovaného evaluačního nastavení, včetně konzistentní sady rámců: může čtenářům dodat jistotu, že rozdíl ve skóre skutečně odráží rozdíl mezi porovnávanými systémy, a ne změnu v měřicím nastavení.
Doporučujeme, aby zprávy o externích evaluacích uváděly, jaký druh tvrzení má jejich evaluační nastavení podpořit; popsaly, jak těsně test odpovídá tomuto širšímu tvrzení; popsaly volby rámce, které formovaly výsledek; uvedly, kdy se tyto volby mezi evaluacemi mění; a zahrnuly podpůrné důkazy ukazující, jak byl výsledek vytvořen a jak dobře se zobecňuje na dané tvrzení.
Tím, jak se modely stávají schopnějšími, je stále snazší evaluační skóre chybně interpretovat. Ve srovnání se skutečnými schopnostmi mohou být evaluační skóre uměle snížena, pokud model rozpozná, že je hodnocen, a strategicky podá slabší výkon. Mohou být nadhodnocena, pokud model využije zkratku v úloze, promptu, skórování nebo rámci. Mohou být také zkreslena kontaminací (kdy model odpověď už zná nebo ji dokáže najít bez řešení úlohy) nebo „vadnými“ úlohami, které jsou nejednoznačné, nesprávně skórované, neřešitelné nebo zranitelné vůči nezamýšleným zkratkám. Evaluační zprávy by proto měly hlavní skóre doplnit diskusí o těchto rizicích, aby čtenáři mohli posoudit, zda skóre odrážejí zamýšlené chování.
Rámce, rozpočty, nástroje, pravidla skórování, monitory a postupy přezkumu všechny ovlivňují, zda agent řeší zamýšlenou úlohu, vyhýbá se jí, pamatuje si ji nebo se ji snaží obejít. Důvěryhodná zpráva tyto kontroly zviditelňuje: hodnotitelé by měli při každém posouzení kontrolovat vzorky na tato chování.
Reward hacking
Reward hacking znamená dosahování vysokých evaluačních hodnocení způsoby, které neodrážejí zamýšlenou schopnost. Zde jde o to, že systém získává uznání tím, že využívá úlohu, skórování, prompt nebo rámec, místo aby vykonal práci, kterou měla evaluace měřit. Evaluace GPT 5.4 od METR(otevře se v novém okně) ukazuje, proč na tom záleží: přestože model uspěl v úlohách tempem, které by při prvním průchodu odpovídalo zhruba 13hodinovému časovému horizontu, lidská kontrola ukázala, že některé z těchto úspěchů pocházely z reward hackingu, a po úpravě výsledků tak, aby zohledňovaly jen případy bez reward hackingu, odhad klesl asi na 6 hodin. Hodnotitelé by měli posoudit potřebu takových úprav a pokud jsou potřeba, jasně je uvést: odhad schopnosti je mnohem užitečnější, když čtenáři vidí, které zdánlivé úspěchy byly vyřazeny, proč byly vyřazeny a jak moc na tomto úsudku výsledek závisí.

Odmítnutí
Modely mohou v evaluacích schopností podávat slabší výkon také kvůli ochranným opatřením. Model může mít v evaluaci nižší výkon, než jakého je schopen, protože evaluační úlohy místo dokončení odmítá. Zprávy by proto měly vysvětlit, zda byla odmítnutí součástí výsledků evaluace, a pokud ano, kolik vzorků jimi bylo znehodnoceno.
Kontaminace
Kontaminace je nejdůležitější u veřejných nebo znovu používaných benchmarků. Pokud se úlohy, odpovědi nebo blízké varianty objevují v trénovacích datech nebo je agent s prohlížením webu dokáže najít, může výkon odrážet memorování nebo vyhledání spíše než výkon modelu. Hodnotitelé by měli tam, kde je to možné, upřednostňovat neveřejné nebo nově vytvořené úlohy a testovat, zda modely reprodukují detaily specifické pro úlohu ještě před jejím řešením.
Vadné úlohy
Vadné úlohy zahrnují situace, jako je například problém, který omylem nelze vyřešit. Vadné úlohy jsou dost běžné(otevře se v novém okně) na to, aby byly považovány za standardní riziko validity. Patří sem chybně uvedená správná řešení, nejednoznačná zadání, chybějící soubory, nespolehlivě fungující služby, neférová hodnoticí kritéria a prostředí, která umožňují využít zkratky — například skryté soubory s odpověďmi nebo historii repozitáře, v níž je obsažen referenční patch.
Sandbagging
Sandbagging ze strany modelu nebo systému znamená strategicky podávat slabší výkon, když by silný výkon byl v rozporu s nějakým cílem. Apollo ve své evaluaci GPT‑5.5(otevře se v novém okně) toto testovalo vytvořením kontextu, v němž model chápal, že vysoké evaluační skóre by mohlo spustit odnaučování nebo zablokovat nasazení. GPT‑5.5 přesto odpovídal správně. To naznačuje, že existuje jen málo behaviorálních důkazů pro strategické podávání horšího výkonu3. Jejich přezkum stop uvažování však přidal důležitý kontext: Apollo našlo střední nebo vyšší známky povědomí o evaluaci sladění u 52 % vzorků v podmínce sandbaggingu, ve srovnání s 0 % u kontrafaktuálních případů. Tento důkaz sice komplikuje interpretaci výsledku, ale ve výsledku čtenářům poskytuje více informací: vidí jak uklidňující behaviorální výsledek, tak důvod, proč být opatrní a nepřeceňovat jeho význam.
Silná tvrzení vyžadují jak správný rámec k vyvolání daného chování, tak kontroly validity, které ukážou, že je výsledek spolehlivý. Náš názor, že rámce a kontroly validity jsou součástí výsledku evaluace, formuje to, jak v praxi podporujeme evaluace třetích stran:
- S hodnotiteli sdílíme konkrétní doporučení pro maximální elicitaci.
- Po hodnotitelích schopností žádáme, aby používali Codex jako společný minimální základ pro modely OpenAI: testy by měly alespoň spouštět základní linku přes stejné agentické rozhraní, na které se uživatelé pravděpodobně budou spoléhat, a ne jen přes zjednodušené rozhraní modelu.
- Tam, kde je to potřeba pro posouzení klamání, sandbaggingu nebo povědomí o evaluaci, také zpřístupňujeme stopy uvažování a další mezivýstupy. METR a Apollo tento přístup v evaluacích OpenAI používají už od GPT‑5.
- Nakonec upřednostňujeme výzkum, který hlouběji objasní, kdy a jak volby rámce podstatně mění výsledky – od správy kontextu a přístupu k nástrojům po chování při opakovaných pokusech, skórování a rozpočty zdrojů.
Tato doporučení nemají jen zlepšit jednotlivé evaluační zprávy, ale také informovat vznikající národní (otevře se v novém okně)a mezinárodní (otevře se v novém okně)standardy pro evaluaci a reportování průkopnické AI. Do budoucna by standardy pro externí evaluace měly vyžadovat dostatek detailů, aby osoby s rozhodovací pravomocí rozuměly tomu, jaká tvrzení konkrétní evaluace podporují, jaký systém byl testován, jak byl výsledek vyvolán a jak hodnotitelé ověřovali jeho validitu. U průkopnických systémů testovaných na úlohách, kde záleží na agentických schopnostech, by detaily měly zahrnovat (s výhradou bezpečnostních nebo důvěrných omezení):
- Tvrzení: zda evaluace porovnává systémy, odhaduje strop schopnosti nebo testuje ochranná opatření.
- Obsah evaluace: dostatek detailů o úlohách nebo distribuci úloh, aby čtenáři rozuměli, jaké dovednosti, chování nebo režimy selhání evaluace skutečně testuje.
- Testovaný systém: model, nastavení uvažování, přístup k nástrojům, harness a ochranná opatření.
- Rozpočet: tahy, tokeny, pokusy/opakované pokusy, reálný čas, náklady na inferenci a tam, kde je to relevantní, očekávané náklady na jedno úspěšné vyřešení.
- Metody elicitace: jaké volby rámce byly použity k získání daného výsledku a nakolik to, co bylo testováno, skutečně odráží širší tvrzení, které je z výsledku vyvozováno.
- Kontroly validity: jak posuzovatelé hledali reward hacking, povědomí o evaluaci, kontaminaci, odmítnutí, sandbagging a další chování, která by mohla výsledek zpochybnit, včetně toho, jak potvrzené případy ovlivnily skórování nebo interpretaci.
Standardy, které opomíjejí volby rámce nebo kontroly validity, mohou podhodnotit, co systém dokáže, nebo nadhodnotit důvěru v bezpečnostní tvrzení. Budování silných rámců a metod elicitace zůstává otevřenou oblastí výzkumu a mělo by být předmětem dalšího zkoumání a investic.
Autor
Glosář
Protože v tomto příspěvku používáme řadu odborných termínů, níže uvádíme glosář s jejich srozumitelným vysvětlením:
Agentický systém: Systém, který dokáže řešit úlohu v několika krocích, používat nástroje, udržovat stav úlohy a jednat v prostředí, místo aby jen vracel jedinou odpověď na prompt.
Posouzení: Širší úsudek o tom, zda důkazy podporují tvrzení, závěr o riziku nebo stanovisko k zajištění, který může vycházet z evaluačních dat, kontroly dokumentů, rozhovorů, přezkumu procesů a dalších relevantních podkladů.
Kompakce: Metoda pro zachování kontextu relevantního pro úlohu během dlouhých běhů.
Konfigurace: Přesně testovaný systém a podmínky evaluace nad rámec názvu modelu.
Kontaminace: Situace, kdy se evaluační úlohy, odpovědi nebo jejich blízké varianty objeví v trénovacích datech modelu nebo jsou během evaluace dohledatelné (např. pomocí nástrojů jako prohlížení webu), takže výkon nadhodnocuje skutečnou schopnost modelu zobecňovat.
Elicitace: Proces snahy vyvolat ze systému určitou schopnost nebo chování během posouzení.
Prostředí: Nastavení úlohy, v němž je systém testován. To zahrnuje například externí stav, se kterým agent během evaluace interaguje a který mění, jako je terminálové prostředí nebo videohra.
Evaluace: Konkrétní test nebo měření v rámci posouzení.
Povědomí o evaluaci: Povědomí o evaluaci označuje situaci, kdy model rozpozná nebo zřejmě rozpozná, že je hodnocen, a může tomu kontextu přizpůsobit své chování. Může to vypadat tak, že model výslovně uvažuje o tom, že je testován, odvozuje účel evaluace nebo mění své chování, protože očekává, že výsledek ovlivní, jak bude posuzován nebo nasazen.
Rámec: Struktura orientovaná na model, která mu umožňuje provést úlohu: prompty, nástroje, rozhraní, řídicí logika, paměť, opakované pokusy, validátory a další podpůrné struktury kolem modelu.
Maximální elicitace: Testování zaměřené na nalezení nejsilnějšího věrohodného výkonu nebo režimu selhání, jakého může systém dosáhnout v rámci daného rozpočtu, namísto pouhého jednorázového spuštění systému přes standardizovaný rámec.
Stopy uvažování: Záznamy mezikroků uvažování modelu během testu.
Reward hacking: Dosažení vysokého skóre pomocí zkratky nebo chování mimo záměr hodnotitele.
Ochranná opatření: Filtry, monitory, blokovací systémy a další ochranné mechanismy použité kolem modelu nebo produktu.
Sandbagging (Předstírání nižších schopností): Strategicky slabý výkon v evaluaci způsobem, který podkopává výsledek.
Skórování: Metoda používaná k určení, jak se měří výkon nebo zda byla úloha úspěšně splněna.
Standardizovaný rámec: Rámec, který zůstává stejný napříč systémy, místo aby byl přizpůsoben konkrétnímu modelu nebo úloze, takže rozdíly ve výsledcích lze snáze připsat testovanému modelu.
Časový horizont: Délka úlohy, kterou systém dokáže dokončit se stanovenou spolehlivostí, často vyjádřená tím, jak dlouho by stejná úloha trvala člověku.
Přístup k nástrojům: Externí nástroje dostupné modelu během posouzení.
Trajektorie: Postupné cesty krok za krokem, kterými systém prochází při řešení úlohy.
Univerzální jailbreak: Jediný vzor útoku, který způsobí, že systém obejde ochranná opatření napříč mnoha prompty nebo úlohami.
Poznámky pod čarou
- 1
Tento příspěvek se nesnaží rozhodnout, jak by třetí strany měly vyhodnocovat tvrzení související s nevyrovnaností nebo sklony k určitému chování. Je potřeba více práce k pochopení toho, jak volby rámce ovlivňují tyto evaluace, zejména protože rámce podporující chování s delším časovým horizontem mohou také měnit druhy nezamýšleného chování, které musí hodnotitelé sledovat.
- 2
HAL(otevře se v novém okně) poskytuje další příklad z evaluací agentů: v CORE-Bench(otevře se v novém okně) změna rámce na Claude Code změnila jak naměřený výkon, tak nákladový profil na stejném benchmarku. Mezi další veřejné příklady patří SWE-agent(otevře se v novém okně), SeeAct(otevře se v novém okně), ScienceAgentBench(otevře se v novém okně), CORE-Bench(otevře se v novém okně) a Inspect Cyber(otevře se v novém okně); každý čtenářům sděluje, jaké rozhraní nebo rámec skóre vytvořily.
- 3
Skóre 100 % v obou variantách Sandbagging QA a 99,6 % v úloze sandbaggingu se strategickým klamáním.


