Hodnocení monitorovatelnosti řetězce úvah
Zavádíme hodnocení pro sledovatelnost řetězce úvah a zkoumáme, jak se škáluje s výpočetním výkonem při testu, posilovaném učení a předběžným tréninkem.
Když systémy umělé inteligence dělají rozhodnutí, která lze jen obtížně přímo kontrolovat, je důležité pochopit, jak tato rozhodnutí vznikají. Jedním ze slibných přístupů je sledování vnitřního uvažování modelu, nikoli pouze jeho akcí nebo konečných výstupů.
Moderní modely uvažování, jako je GPT‑5 Thinking, vytvářejí před poskytnutém odpovědi explicitní řetězec úvah. Sledování nesprávného chování těchto řetězců úvah může být mnohem účinnější než sledování akcí a samotných výstupů modelu. Nicméně, výzkumníci v OpenAI a v širším odvětví se obávají(otevře se v novém okně), že tato „monitorovatelnost“ řetězce úvah může být ohrožena změnami v procesech trénování, zdrojích dat a dokonce i pokračujícím škálováním stávajících algoritmů.
Chceme, aby monitorovatelnost řetězce úvah zůstala zachována, jak se modely rozšiřují a jsou nasazovány v prostředích s vyššími riziky. Vyzýváme výzkumné pracovníky v rámci celého odvětví, aby se snažili co nejdéle zachovat monitorovatelnost řetězce úvah a zjistit, zda může sloužit jako nosná řídicí vrstva pro budoucí systémy umělé inteligence. Abychom zachovali monitorovatelnost, musíme ji být schopni měřit, avšak existuje jen málo hodnocení [1(otevře se v novém okně), 2(otevře se v novém okně), 3(otevře se v novém okně)] a metodiky se liší.
V této práci systematicky zkoumáme monitorovatelnost řetězce úvah. Představujeme rámec pro hodnocení monitorovatelnosti řetězce úvah a sadu 13 hodnocení (zahrnující celkem 24 prostředí) určených k přesnému měření monitorovatelnosti systému. Tato hodnocení se dělí na tří archetypy: intervence, proces a výsledek-vlastnost. Pomocí nich zkoumáme, jak monitorovatelné jsou dnešní velké jazykové modely a jak se monitorovatelnost mění s tím, jak se klade větší důraz na uvažování během doby inferencí, jak se rozšiřují běhy posilovaného učení a zvyšuje míra předtrénování.
Nyní, když máme k dispozici rozsáhlý soubor hodnocení, můžeme začít sledovat monitorovatelnost našich modelů. (vlevo nahoře) Zjistili jsme, že když modely více „přemýšlejí“ a mají delší řetězce úvah, zlepšuje se monitorovatelnost. (vpravo nahoře) Bez řetězce úvah je standardní snažit se sledovat akce a konečné výstupy modelu samostatně. Zjistili jsme však, že sledování pouze akcí a výstupů zdaleka nedosahuje výsledků sledování řetězce úvah. (dole uprostřed) Porovnáváme naše modely s externími modely, které umožňují přístup k úplnému řetězci úvah: Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B a Kimi K2 Thinking.
Zjišťujeme, že většina špičkových modelů uvažování je poměrně dobře monitorovatelná, i když ne dokonale. V téměř každém prostředí, které zkoumáme, je sledování řetězců úvah podstatně účinnější než sledování akcí a samotných konečných výstupů. Modely, které přemýšlejí déle, mají tendenci být lépe monitorovatelné a nezdá se, že by optimalizace posilovaného učení na současných špičkových úrovních významně zhoršovala monitorovatelnost.
Je třeba zmínit, že pozorujeme kompromis mezi náročností uvažování a velikostí modelu: když je model spuštěn s nízkou náročností uvažování, může menší model spuštěný s vyšším náročností uvažování dosáhnout srovnatelné schopnosti a zároveň je snazší jej monitorovat. To je spojeno s vyššími nároky na výpočetní výkon při inferenci, které označujeme jako daň za monitorovatelnost. Nakonec jsme zjistili, že kladení doplňujících otázek a sledování výsledných řetězců úvah může dále zlepšit monitorovatelnost.
Monitorovatelnost definujeme jako schopnost sledujícího předpovídat vlastnosti, které nás zajímají ohledně chování agenta. V mnoha případech tyto vlastnosti odpovídají formám nesprávného chování, jako je klamání, manipulace s odměnami nebo zaujaté uvažování, ale mohou zahrnovat i neškodné vlastnosti, jako je to, zda se agent spoléhal na určitou nápovědu nebo sledoval určitý způsob uvažování.
Monitorovatelnost je oboustranná vlastnost. Záleží to jak na monitorovacím modelu, tak i na agentovi, který je sledován.
- Monitorovací modely Monitorovací modely bychom mohli udělat chytřejší různými způsoby a rádi bychom, aby naše hodnocení dávalo vyšší skóre modelům, které dokáží lépe předpovídat chování agenta.
- AgentiExistuje mnoho pozorování agenta, které lze poskytnout monitorovacímu modelu. Jedná se například o akce agenta, výstupy, neuronové aktivace a nově, s příchodem modelů uvažování, řetězce úvah. Je možné, že někteří agenti mají úvahy, které je obtížnější pochopit než u jiných, a proto bychom chtěli, aby naše hodnocení monitorovatelnosti dokázala porovnávat agenty, a nejen monitorovací modely.
Naše hodnocení jsou navržena tak, aby posoudila obě strany: zda je některé agenty snazší nebo obtížnější sledovat a zda schopnější monitorovací modely mohou z těch samých signálů extrahovat více informací.
Před současnou generací modelů uvažování se řetězce úvah obvykle vyvolávaly tak, že byl model vyzván, aby „přemýšlel krok za krokem.“
Řetězce úvah modelů uvažování se liší ve dvou důležitých ohledech. Za prvé jsou explicitně trénované, aby tvořili řetězec úvah a poté odpověděli. Pokud je chatovací model vyzván, aby „přemýšlel krok za krokem“, musí dodržovat všechny specifikace, které jsou na něj kladeny, například být užitečný a neškodný. Naopak, proces trénování pomocí posilovaného učení učí model uvažování, že řetězec úvah je soukromý prostor, kde může přemýšlet, jak chce, a nebude potrestán. Stejně jako člověk může přemýšlet soukromě a nebude potrestán za „zločiny spáchané v myšlenkách“.
Za druhé, proces trénování efektivně hledá řetězce úvah, které jsou pro agenta nejvíce užitečné z hlediska nástrojů k dosažení konečné odpovědi s vysokou odměnou. Řetězec úvah tedy není jen prostorem, kde se model může volně vyjadřovat, ale obsahuje i úvahy , které pomáhají modelu dospět k jeho konečné odpovědi.
Naše hodnocení monitorovatelnosti uspořádáme do tří různých archetypů, z nichž každý využívá k měření monitorovatelnosti jiný mechanismus.
- Hodnocení intervencí, inspirované zdroji: Chen et al. 2025,(otevře se v novém okně) Chua et al. 2025,(otevře se v novém okně) Turpin et al. 2023,(otevře se v novém okně) jsme zavedli kontrolovanou změnu v prostředí agenta a testujeme, zda monitorovací model dokáže zjistit, proč se chování změnilo tím, že identifikuje důkazy o intervenci v řetězci úvah. Na rozdíl od standardních kontrolních hodnocení (např. Shade-Arena(otevře se v novém okně)), nám hodnocení intervencí umožňuje zkoumat, zda monitorovací model dokáže zjistit proč se chování změnilo, namísto pouhého zjištění, zda došlo k určitému chování.
- Hodnocení procesů se zaměřuje na úlohy s omezeným počtem platných cest řešení (například matematickou úlohu lze vyřešit pouze pomocí určitých tvrzení). Lidští experti tyto cesty vyjmenovávají a my testujeme, zda monitorovací model dokáže zjistit, které kroky model skutečně udělal. Tato hodnocení nám umožňují spojit to, co model udělal, s konkrétními kroky, které musel model provést, a ptát se, zda jsou tyto kroky monitorovatelné.
- Hodnocení výstupních vlastností se použije, pokud lze spolehlivě změřit vlastnost výstupu modelu. V těchto případech testujeme, zda monitorovací model dokáže na základě uvažování nebo akcí modelu předpovědět danou vlastnost, například reward hacking. Například v programovací úloze můžeme mít způsob, jak spolehlivě vyhodnotit, zda model provádí akce s cílem hacknout signál odměny, a můžeme se zeptat, zda monitorovací model najde v uvažování nebo akcích modelu důkazy o záměru hacknout odměnu.
Níže uvádíme taxonomii pro naše hodnocení. Úplný popis jednotlivých hodnocení naleznete v našem dokumentu.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
Zjistili jsme, že monitorovatelnost našeho modelu se v jednotlivých skupinách do určité míry liší. Obecně je považujeme za velmi dobře sledovatelné, nicméně zejména v úloze Scruples, která má zjistit, zda je možné sledovat uvažování o podlézání, vidíme velmi nízkou monitorovatelnost.
Monitorovatelné vs. nemonitorovatelné příklady
V tomto příkladu výsledku a vlastnosti je modelu zadán nesplnitelný programovací úkol. Pokud jednotkové testy projdou, víme, že to model nějak obešel. V nemonitorovatelném řetězci úvah (červeně) nevidíme žádné důkazy o tom, že by model zmiňoval něco špatného, ale jednoduše obchází testy a říká uživateli, že implementoval opravu. V ostrém srovnání, v monitorovatelném řetězci úvah (zelená), vidíme, že model si myslí „monkey patching času přímo v řešení se dá pravděpodobně považovat za podvádění."
Považování řetězce úvah za soukromý pracovní prostor a trénink modelů k jeho efektivnímu využívání pro řešení úkolů by mělo v zásadě umožnit monitorování řetězců úvah. Zároveň existuje několik důvodů, proč by posilované učení dost možná mohla poškodit monitorovatelnost řetězce úvah.
Za prvé, omezení délky uvažování, jako je omezení času nebo tokenů, které má model k dispozici pro přemýšlení, pobízí modely, aby méně uvažovaly. Za druhé, i bez přímého uplatnění optimalizačního tlaku na samotný řetězec úvah by nepřímé tlaky mohly stále snižovat monitorovatelnost. Modely mohou například(otevře se v novém okně) snadněji dospět k odpovědím s vysokou odměnou, pokud se vyhnou cestám uvažování, které mohou vést k nízké odměně nebo nežádoucím výsledkům. Snížená monitorovatelnost by mohla být způsobena falešným posunem způsobeným stoupajícímu rušivými vlivy v rámci posilovaného učení.
Níže zkoumáme, jak se mění monitorovatelnost během dvou špičkových běhů posilovaného učení OpenAI. Ačkoli tyto výsledky představují pouze dva datové body, naznačují, že optimalizace posilovaného učení na současné špičkové úrovni podstatně nezhoršuje monitorovatelnost řetězce úvah a zvyšuje monitorovatelnost pro rané kroky. To však nevylučuje možnost, že výrazně větší rozsah posilovaného učení by mohl v budoucnu negativně ovlivnit monitorovatelnost.
Zjistili jsme, že sledovatelnost se při současném měřítku výpočetního výkonu posíleného učení příliš nemění a v počátečních krocích se zvyšuje. To sice může platit v současném režimu, ale je možné, že výrazné zvýšení rozsahu by mohlo způsobit, že se monitorovatelnost začne zhoršovat.
Velká část inteligence současných AI systémů je založena na zvýšeným rozsahu předtrénování, kdy jak parametry modelu, tak velikosti datových sad konzistentně rostly od počátku paradigmatu GPT. Zvýšený počet parametrů vede k většímu využití výpočetního výkonu na inferenci na každý vytvořený token, což v případě modelů uvažování poskytuje více příležitostí pro to, aby poznávání modelu probíhalo spíše v rámci aktivací než v rámci řetězce úvah. Lze tedy očekávat, že větší modely budou hůře monitorovatelné při pevně stanovené úrovni schopností.
Současně mohou být menší modely méně schopné efektivně využívat řetězec úvah, což může také ovlivnit monitorovatelnost.
Abychom prozkoumali vztah mezi velikostí předtrénování, schopnostmi a monitorovatelností, trénovali jsme rodinu modelů napříč dvěma řády velikosti výpočetního výkonu pro předtrénování a zvyšovali jsme přitom hloubkou a šířkou. Poté jsme u každé z nich aplikovali posílené učení na sdílené datové sadě úkolů z matematiky, vědy a programování. Vyhodnotili jsme každý model v rámci různých náročností uvažování a porovnali monitorovatelnost na odpovídajících úrovních schopností.

Zobrazujeme monitorovatelnost na naší hodnotící sadě pro každý model ve srovnání s průměrnou mírou úspěšnosti v rámci sady standardních hodnocení schopností (GPQA-Diamond, AIME 2025 a CodeForces). Každý model je hodnocen na základě mnoha náročnost uvažování (poznámka: každý bod v tomto obrázku je ve skutečnosti výsledkem lineární interpolace mezi měřenými náročnostmi uvažování). Kruhy ukazují, že model při dané náročnosti uvažování dominuje v monitorovatelnosti na této úrovni schopností, a průhledná X znamenají, že model při dané úrovni úsilí v uvažování je v monitorovatelnosti překonán jiným modelem na této úrovni schopností. Černými šipkami ukazujeme příklady dvou způsobů, jak vynaložit více inferenčního výpočetního výkonu, a to výběrem mnohem většího počtu tokenů s menším modelem nebo výběrem relativně menšího počtu dodatečných tokenů se stejným modelem. Červenými šipkami ukazujeme daň za monitorovatelnost, kterou je třeba zaplatit, tj. mírně snížené schopnosti za cenu mnohem větší monitorovatelnosti.
Obecně jsme zjistili, že pokud bychom chtěli nasadit daný model při nízké náročnosti uvažování, mohli bychom místo toho nasadit menší model s vyšší náročností uvažování. Ve srovnání s vynaložením dodatečného výpočetního výkonu na větší náročnost uvažování původního velkého modelu bychom mohli dosáhnout vyšší monitorovatelnosti za obětování drobné části schopností, nebo-li daň za monitorování. V některých rozhodnutích o nasazení může nicméně hrát roli čas potřebný k dokončení úlohy, což zde nebereme v úvahu. Jak se naše modely zlepšují a jsou nasazovány v prostředích s vyššími riziky, může být nutné zaplatit takovou daň, aby je bylo možné bezpečně nasadit.
Tyto výsledky mají následující omezení: (1) každý model trénujeme pouze jednou, a proto nezohledňujeme rozptyl mezi jednotlivými tréninkovými cykly. Například „střední“ model se zdá být ve srovnání s ostatními modely této řady dosti netradiční, což může být způsobeno právě tímto. (2) Vyhodnocujeme schopnosti v relativně distribučních prostředích (matematika, věda a programování) a zisky a ztráty se mohou změnit při zohlednění robustnosti v prostředí mimo distribuci.
S tím, jak systémy umělé inteligence překonávají úroveň lidského výkonu, je přímý lidský dohled stále obtížnější. V ideálním případě bychom měli mít škálovatelné kontrolní postupy, které by umožňovaly, aby důvěryhodní, ale slabší monitorovací systémy dohlížely na silnější, potenciálně nedůvěryhodné agenty. Takové postupy by měly být také schopny absorbovat dodatečný výpočetní výkon během testování a vytvářet přesnější předpovědi.
(Vlevo) Porovnáváme mnoho různých monitorovacích model a měníme úroveň uvažování každého z nich. Každý monitorovací model sleduje stejný model GPT‑5 Thinking. Jak se dalo očekávat, zjistili jsme, že obecně větší a schopnější modely fungují jako lepší monitorovací modely a modely s uvažováním si lépe poradí s monitorováním při vyšší náročnosti uvažování (a tedy s výpočetním výkonem při testování).
(Vpravo) Porovnáváme různé rozsahy monitorování pro OpenAI o4-mini, tj. zda monitorovací model vidí pouze řetězec úvah, pouze akce a odpovědi, nebo všechny zprávy z modelu, který sleduje. Je třeba zmínit, že jsme zjistili, že monitorovatelnost se se zvýšeným výpočetním výkonem v době testování (vyšší náročnost monitorování) zlepšuje rychleji, pokud má monitorovací model přístup k řetězci úvah. Sledování řetězce úvah tak může poskytnout škálovatelnější cestu ke kontrole než naivní monitorování.
Monitorovatelnost řetězce úvah je často považována za pevně danou veličinu: jakmile model vytvoří odpověď při dané náročnosti uvažování, sleduje se výsledný řetězec úvah co nejlépe. Protože jsme důsledně zjistili, že monitorovatelnost se zlepšuje se zvyšujícím se úsilím našich agentů, inspirovalo nás to k otázce, zda bychom nějak mohli získat více tokenů k monitorování.
Abychom to prozkoumali, experimentovali jsme s pokládáním doplňujících otázek po odpovědi modelu, přičemž původní prompt, řetězec úvah a odpověď zůstaly v kontextu. Tyto kontrolní otázky se zaměřují na monitorovanou vlastnost, například: „Použil jsi nápovědu smysluplně při výběru odpovědi?“ nebo „Udělal jsi něco podezřelého?“. Protože si model v zásadě zachovává přístup ke svým dřívějším úvahám, může být schopen v následném řetězci úvah nebo reakcí odhalit dříve neverbalizované myšlenky.
Tyto výsledky jsou předběžné. Prozkoumali jsme pouze malý počet formátů následných otázek a věříme, že existuje značný prostor pro zlepšení metodologie. Tato metoda je navíc podobná metodě přiznání modelu a my aktivně pracujeme na srovnání těchto přístupů.
Uvádíme výsledky zprůměrované pro celou naši sadu hodnocení a pro všechny naše nedávné modely uvažování: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini a GPT‑5‑thinking. Obecně jsme zjistili, že kontrolní otázky zlepšují monitorovatelnost zejména při nižší náročnosti uvažování. Pokud opakovaně klademe doplňující otázky a poskytujeme monitorovacímu modelu všechny následné řetězce úvah, zlepšuje se monitorovatelnost ještě více. Stojí za zmínku, že když monitorovacímu modelu dáme přístup pouze k následné odpovědi a ne k následnému řetězci úvah, vidíme menší zlepšení oproti základní úrovni. To naznačuje, že modely nejsou příliš přímé ve svých odpovědích uživateli, ale v rámci svého řetězce úvah poskytují více informací.
Kromě zlepšení monitorovatelnosti je tento přístup atraktivní tím, že jej lze aplikovat post hoc, přičemž dodatečné náklady na výpočetní výkon vznikají pouze tehdy, když je potřeba hlubší kontrola. Pokud jsou modely vycvičeny tak, aby očekávaly změny v náročnosti uvažování v polovině konverzace, mohou následné kontroly při vyšší náročnosti uvažování dále zlepšit monitorovatelnost, i když je počáteční náročnost uvažování nízká nebo chybí.
Každé hodnocení v naší sadě měří, zda je možné sledovat jeden aspekt procesu uvažování. Ačkoli se snažíme pokrýt širokou škálu chování, včetně podlézavosti, skrývání schopností, zaujatosti, intrikářství a reward hackingu, existuje mnoho dalších vlastností, které se netestují.
Stejně jako u jiných srovnávacích testů mohou naše hodnocení trpět omezenou realističností nebo rostoucím povědomím o hodnocení a výsledky nemusí být zobecnitelné pro odhalování nesprávného chování v reálném prostředí.
A konečně, se zlepšujícím se sladěním se modely mohou v kontrolovaných hodnotících prostředích chovat méně často nesprávně, což snižuje dostupný signál pro hodnocení minitorovatelnosti a kontroly, která se spoléhají na odhalování nesprávného chování. V těchto případech jsou i nadále použitelná „neutrální“ hodnocení monitorovatelnosti, i když je otevřenou otázkou, nakolik předpovídají selhání v reálném světě.
Pokud se problém seřazení nepodaří zcela vyřešit, budou škálovatelné metody řízení nesmírně důležité pro naši schopnost bezpečně nasadit vysoce výkonné modely. Monitorování řetězce úvah a související metody mohou být jedním z mála kontrolních mechanismů, které máme k dispozici. Řetězec úvah může také přinést velké výhody v lepším pochopení našich modelů, např. zda si uvědomují, že jsou v hodnocení a chovají se jinak než v nasazení, zda existují důkazy o nějakých nepříznivých cílech, které se zatím neprojevily v našich hodnoceních, atd. Proto věříme, že je nesmírně důležité pochopit, jak a kdy můžeme ztratit monitorovatelnost.
Sledování řetězce úvah považujeme za doplněk mechanistické vysvětlitelnosti, nikoli za její náhradu. Stejně jako všechny známé metody řízení a vysvětlitelnosti, má každá svá omezení a slepá místa. Očekáváme, že kombinace více přístupů, strategie obrany do hloubky, může pomoci pokrýt mezery, které zůstávají po použití jedné metody. Je třeba zmínit, že hodnocení zavedená v této práci mohou být také použita k posouzení a porovnání technik monitorování založených na mechanistické vysvětlitelnosti.
Protože se domníváme, že sledování řetězce úvah by mohlo být nosnou vrstvou škálovatelného řídicího systému, plánujeme tato hodnocení rozšířit a využít je při budoucím modelování a rozhodování o datech.
Autor
Citace
1. Naše modely nejsou určeny k určování lékařských diagnóz, a proto náš soubor dat zdravotních dotazů není určen k testování této schopnosti.


