Modely s uvažováním obtížně kontrolují své řetězce myšlenek, a to je dobře.
Proč je omezení průkopnických modelů uklidňující pro bezpečnost umělé inteligence.
Vzhledem k tomu, že agenti umělé inteligence jsou schopni provádět stále složitější a autonomnější úkoly, je důležitější udržovat spolehlivý dohled nad jejich chováním. V souladu s naším principem iterativního nasazení zkoumáme, jak se systémy chovají v reálných podmínkách, a s postupným rozvojem schopností průběžně zdokonalujeme bezpečnostní opatření. Abychom toho dosáhli, náš bezpečnostní přístup využívá hloubkovou obranu s několika doplňkovými vrstvami obrany, jako je bezpečnostní školení, behaviorální testování, agentní kontrola kódu(otevře se v novém okně) a monitorování myšlenkového řetězce (CoT). Monitorování myšlenkového řetězce analyzuje kroky uvažování, které agenti generují při plnění úkolů. Tyto stopy uvažování mohou poskytovat cenné signály jak během trénování, tak při nasazení a pomáhat monitorovacím systémům identifikovat, kdy může být chování agenta nebezpečné nebo v rozporu se zamýšlenými cíli uživatele.
Dnes zjišťujeme, že uvažování modelů je obecně interpretovatelné a snadno monitorovatelné. V budoucnu se nicméně může monitorovatelnost z různých důvodů rozpadnout(otevře se v novém okně). Zde se zaměřujeme na jednu takovou cestu: pokud agenti získají schopnost záměrně přetvářet nebo zastírat své uvažování ve chvíli, kdy vědí, že jsou monitorováni, mohlo by hodnocení nadhodnocovat systémové sladění nebo bezpečnost a monitorovací systémy by se mohly stát méně spolehlivými.
V této práci zkoumáme, zda jsou současné modely s uvažováním schopny řídit svůj myšlenkový řetězec způsoby, které snižují monitorovatelnost. Pochopení této schopnosti je důležité pro zajištění toho, aby monitorování myšlenkového řetězce zůstalo účinným ochranným opatřením i ve chvílích, kdy se systémy umělé inteligence stávají schopnějšími. Zjišťujeme, že současné modely s uvažováním mají potíže s kontrolou svých myšlenkových řetězců, i když jim řekneme, že jsou monitorovány. Zatímco ovladatelnost je u větších modelů vyšší, snižuje se, když jsou modely žádány, aby uvažovaly delší dobu, a když procházejí dodatečným následným trénováním. Naše výsledky naznačují, že ovladatelnost myšlenkového řetězce v současnosti pravděpodobně nepředstavuje významné riziko pro monitorovatelnost myšlenkového řetězce. S vývojem model však bude důležité pokračovat ve vyhodnocování.
Myšlenkový řetězec označuje mezikroky uvažování, které agent umělé inteligence generuje při řešení úkolu. Tyto stopy uvažování mohou poskytovat užitečné bezpečnostní signály a pomáhat monitorovacím systémům posoudit, zda je chování agenta bezpečné nebo v souladu s pokyny.
Ovládatelnost myšlenkového řetězce je schopnost modelu s uvažováním řídit vlastnosti svého řetězce způsoby, které snižují monitorovatelnost. Měření této schopnosti v rámci komplexního spektra realistických podnětů k obcházení monitorovacích modelů, které můžeme v praxi očekávat, je náročné. Místo toho používáme praktický zástupný ukazatel: měříme schopnost modelu řídit se uživatelskými instrukcemi, které se týkají jeho myšlenkového řetězce. Testujeme například, zda se model dokáže řídit pokyny, které ovlivňují jeho vnitřní uvažování (například používat pouze malá písmena, vyhýbat se určitým klíčovým slovům nebo přidávat konkrétní fráze) namísto pouhé změny jeho viditelného výstupu.
Abychom to prozkoumali, uvádíme sadu CoT-Control. Jedná se o open-source evaluační sadu pro měření ovladatelnosti myšlenkových řetězců u modelů s uvažováním. CoT-Control zahrnuje přes 13 000 úloh sestavených z osvědčených benchmarků: GPQA, MMLU-Pro, HLE, BFCL a Ověřeno v SWE-Bench. Každý úkol se vytvoří spárováním referenčního problému s jednou instrukcí pro myšlenkový řetězec. Například se jedná o instrukci vyhnout se v myšlenkovém řetězci určitým klíčovým slovům relevantním pro daný problém, používat pouze malá písmena nebo připojit dané slovo ke každé větě.
Provádíme hodnocení na 13 modelech s uvažováním a zjišťujeme, že všechny mají potíže spolehlivě ovládat své myšlenkové řetězce. Měřitelnost ovladatelnosti měříme jako podíl stop uvažování, ve kterých model úspěšně dodržuje naše pokyny pro myšlenkový řetězec. V rámci průkopnických modelů jsou hodnoty skóre ovladatelnosti myšlenkového řetězce nízké. Pohybují se od 0,1 % a u žádného současného průkopnického modelu, který jsme testovali, nepřesahují 15,4 %.
Tato neschopnost nevyplývá z nepochopení úkolu: modely ve svém myšlenkovém řetězci úvah často rozpoznají, že nedodržují instrukce, které dostaly, a i po tomto uvědomění stále dál selhávají. Tento překvapivě nízký výkon je dobrou zprávou pro monitorovatelnost myšlenkového řetězce: naznačuje, že modely by podobně mohly postrádat schopnost zastírat své uvažování, aby se vyhnuly našemu sledování.
Schopnost více průkopnických modelů ovládat své výstupy a myšlenkové řetězce. Nižší ovladatelnost myšlenkového řetězce je spojena s vyšší monitorovatelností, a tedy i vyšší bezpečností.
Příklady selhání ovladatelnosti CoT
Otázky jsou kvůli stručnosti parafrázovány.
GPT-5.2 Thinking
Model GPT‑5.2 Thinking si uvědomí, že neměl použít zakázané slovo (red), a pak ho v panice, že už ho použil, použije ještě čtyřikrát.
I když vidíme, že ovladatelnost roste s velikostí modelu, zjišťujeme také, že rychle klesá s množstvím následného trénování a výpočetního výkonu v době testování. Při pohledu na dvě rodiny modelů s otevřenými váhami byly větší modely o něco lepší v ovládání svých myšlenkových řetězců, i když se efekt s většími velikostmi zmírňoval. Ale když jsme nechali modely přemýšlet déle, byly méně schopné tyto myšlenkové řetězce ovládat. Podobný trend jsme zaznamenali i u trénování posíleným učením (RL) modelu OLMo-3-7B-RL-Zero-Math: jeho skóre ovladatelnosti kleslo během trénování o více než řád.
Kontrolovatelnost se u modelů s otevřenými váhami se škálou zvyšuje, ale s delším uvažováním a větším množstvím tréninku posilovaného učení se zhoršuje.
Abychom simulovali realistické pobídky k obcházení sledování, měříme ovladatelnost v situacích, kdy se modelům řekne, že jsou monitorovány nebo hodnoceny. To mírně (ale znatelně) zvyšuje ovladatelnost. Používáme také automatickou optimalizaci promptů k nalezení promptů, které vyvolávají vysokou míru ovladatelnosti. I když optimalizátor může zvýšit míru ovladatelnosti na trénovací sadě, tyto výhody se špatně přenášejí na nové typy instrukcí (například požadavek, aby mezi slovy nebyly žádné mezery).
Ovladatelnost myšlenkového řetězce v nepříznivých podmínkách. „Povědomí o monitorování“ označuje nastavení, ve kterých informujeme modely, že jejich myšlenkové řetězce jsou sledovány. „Povědomí o hodnocení“ označuje nastavení, ve kterých informujeme modely, že jsou vyhodnocovány z hlediska ovladatelnosti myšlenkového řetězce.
Úkoly v CoT-Control jsou praktickými zástupci: ideální hodnocení ovladatelnosti CoT by zahrnovalo testování, zda modely, které přirozeně sledují nevyrovnané cíle, dokážou ovládat svůj myšlenkový řetězec tak, aby se vyhnuly sledování. Místo toho odhadujeme schopnost agentů kontrolovat svůj myšlenkový řetězec tím, že měříme jejich schopnost řídit se pokyny týkajícími se jejich řetězce. Navíc mohou modely některé vlastnosti svého řetězce ovládat lépe než jiné a CoT-Control může kontrolovatelnost nadhodnocovat nebo podhodnocovat, protože měří pouze úzkou sadu typů kontrolovatelnosti.
Nízká ovladatelnost myšlenkového řetězce je vlastnost, ne chyba. Díky nízké kontrolovatelnosti současných modelů s uvažováním představuje monitorování myšlenkového řetězce důvěryhodnější ochranné opatření. Současně zatím nechápeme, proč je ovladatelnost současných modelů s uvažováním nízká. Také nevíme, zda tato vlastnost přetrvá s tím, jak se budou modely stávat schopnějšími. Proto lze hodnocení ovladatelnosti myšlenkového řetězce chápat jako kanárkové hodnocení: včasné varovné znamení toho, zda se modely zlepšují ve formování nebo skrývání svého uvažování.
Naše výsledky naznačují, že kontrolovatelnost myšlenkového řetězce v současnosti pravděpodobně nepředstavuje významné riziko pro jeho monitorovatelnost. Nízká kontrolovatelnost však sama o sobě nestačí k zajištění vysoké monitorovatelnosti, protože monitorovatelnost by se stále mohla zhoršovat v důsledku jiných mechanismů, jako je přímý optimalizační tlak na myšlenkové řetězce.
Pro lepší sledování této dynamiky v průběhu času, začneme v kartách systému pro budoucí průkopnické modely, počínaje GPT‑5.4, uvádět kontrolovatelnost myšlenkového řetězce spolu s jeho monitorovatelností. Myslíme na náš trvalý závazek nevyvíjet optimalizační tlak přímo na myšlenkové řetězce průkopnických modelů s uvažováním a z toho závazku vycházíme.
Autoři
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


