Modely uvažovania majú problém kontrolovať svoje reťazenie myšlienok, a to je dobré
Prečo je obmedzenie prelomových modelov upokojujúce z hľadiska bezpečnosti umelej inteligencie
Ako sa agenti AI stávajú schopnými vykonávať čoraz zložitejšie a autonómnejšie úlohy, udržiavanie spoľahlivého dohľadu nad ich správaním sa stáva dôležitejším. V súlade s naším princípom iteratívneho nasadenia skúmame, ako sa systémy správajú v reálnom svete, a s postupom vývoja schopností neustále zdokonaľujeme bezpečnostné opatrenia. Na podporu toho využíva náš prístup k bezpečnosti hlbokú obranu s viacerými doplnkovými vrstvami, ako sú školenie v oblasti bezpečnosti, behaviorálne testovanie, agentická kontrola kódu(otvorí sa v novom okne) a monitorovanie reťazenia myšlienok (CoT). Monitorovanie CoT analyzuje kroky uvažovania, ktoré agenti generujú pri plnení úloh. Tieto stopy uvažovania môžu poskytovať cenné signály počas tréningu aj nasadenia a pomáhať monitorovacím systémom identifikovať, kedy môže byť správanie agenta nebezpečné alebo v rozpore so zamýšľanými cieľmi používateľa.
Dnes zistíme, že uvažovanie modelov je vo všeobecnosti interpretovateľné a ľahko monitorovateľné. Avšak v budúcnosti sa monitorovateľnosť môže z rôznych dôvodov zhoršiť(otvorí sa v novom okne). Tu sa zameriavame na jednu takú cestu: ak sa agenti stanú schopnými zámerne pretvárať alebo zahaľovať svoje uvažovanie, keď vedia, že sú monitorovaní, hodnotenia by mohli nadhodnotiť zosúladenie alebo bezpečnosť systému a monitorovacie systémy by sa mohli stať menej spoľahlivými.
V tejto práci skúmame, či sú súčasné modely uvažovania schopné kontrolovať svoje reťazenie myšlienok spôsobmi, ktoré znižujú monitorovateľnosť. Pochopenie tejto schopnosti je dôležité na zabezpečenie toho, aby monitorovanie CoT zostalo robustnou zárukou, keďže systémy umelej inteligencie sú čoraz schopnejšie. Zistili sme, že súčasné modely uvažovania majú problém kontrolovať svoje CoT, aj keď im povieme, že sú monitorované. Hoci je ovládateľnosť vyššia pri väčších modeloch, klesá, keď sú modely požiadané, aby uvažovali dlhšie, a keď podstúpia dodatočný post-tréning. Naše výsledky naznačujú, že ovládateľnosť CoT v súčasnosti pravdepodobne nepredstavuje veľké riziko pre monitorovateľnosť CoT, hoci s napredovaním modelov bude dôležité pokračovať vo vyhodnocovaní.
Reťazenie myšlienok označuje medzikroky uvažovania, ktoré agent AI generuje pri riešení úlohy. Tieto stopy uvažovania môžu poskytovať užitočné bezpečnostné signály a pomáhať monitorovacím systémom posúdiť, či je správanie agenta bezpečné alebo zosúladené.
Ovládateľnosť CoT je schopnosť uvažovacieho modelu ovládať vlastnosti svojho CoT spôsobmi, ktoré znižujú jeho monitorovateľnosť. Meranie tejto schopnosti v rámci celého spektra realistických stimulov na obchádzanie monitorov, ktoré môžeme očakávať v praxi, je náročné. Namiesto toho používame praktický ukazovateľ: meriame schopnosť modelu riadiť sa pokynmi používateľov týkajúcimi sa ich CoT. Napríklad testujeme, či sa model dokáže riadiť pokynmi, ktoré ovplyvňujú jeho vnútorné uvažovanie, ako napríklad používanie iba malých písmen, vyhýbanie sa určitým kľúčovým slovám alebo pridávanie konkrétnych fráz, namiesto toho, aby iba menil svoj viditeľný výstup.
Na preskúmanie tejto problematiky predstavujeme CoT-Control, open-source evaluačný balík na meranie ovládateľnosti CoT uvažovacích modelov. CoT-Control zahŕňa viac ako 13 000 úloh zostavených z overených benchmarkov: GPQA, MMLU-Pro, HLE, BFCL a SWE-Bench Verified. Každá úloha sa vytvorí spárovaním referenčného problému s jednou inštrukciou CoT, napríklad vyhýbaním sa určitým kľúčovým slovám relevantným pre problém v CoT, používaním iba malých písmen alebo pridaním daného slova na koniec každej vety.
Vykonávame hodnotenia na 13 uvažovacích modeloch a zisťujeme, že všetky majú problém spoľahlivo kontrolovať svoje reťazenie myšlienok. Ovládateľnosť meriame ako podiel stôp uvažovania, v ktorých model úspešne dodržiava naše pokyny pre reťazenie myšlienok. Naprieč prelomovými modelmi sú skóre ovládateľnosti CoT nízke, pohybujú sa od 0,1 % a nepresahujú 15,4 % pre žiadny súčasný prelomový model, ktorý sme testovali.
Táto neschopnosť nevyplýva z nepochopenia úlohy: modely často vo svojom CoT rozpoznajú, že nedodržiavajú inštrukcie CoT, ktoré dostali, a aj po tomto uvedomení naďalej zlyhávajú. Tento prekvapivo nízky výkon je dobrou správou pre monitorovateľnosť CoT: naznačuje, že modely by podobne mohli postrádať schopnosť zahmlievať svoje uvažovanie, aby sa vyhli našim monitorom.
Schopnosť viacerých prelomových modelov kontrolovať svoje výstupy a CoTs Nižšia ovládateľnosť CoT je spojená s vyššou monitorovateľnosťou a teda aj vyššou bezpečnosťou.
Príklady zlyhaní ovládateľnosti CoT
Otázky sú pre stručnosť parafrázované.
GPT-5.2 Thinking
GPT‑5.2 Thinking si uvedomí, že nemal použiť zakázané slovo (červené), potom ho v panike z toho, že ho už použil, použije ešte štyrikrát.
Hoci vidíme, že ovládateľnosť sa zvyšuje s veľkosťou modelu, tiež zisťujeme, že rýchlo klesá s množstvom výpočtového výkonu po trénovaní a počas testovania. Pri porovnaní dvoch rodín open-weight modelov boli väčšie modely o niečo lepšie v kontrolovaní svojho reťazenia myšlienok, hoci tento efekt sa pri vyšších veľkostiach postupne vytrácal. Ale keď sme nechali modely premýšľať dlhšie, stali sa menej schopnými kontrolovať dané reťazenia myšlienok. Podobný trend sme zaznamenali aj pri tréningu RL modelu OLMo-3-7B-RL-Zero-Math: jeho skóre kontrolovateľnosti kleslo v priebehu tréningu o viac než desaťnásobok.
Kontrolovateľnosť sa v open-weight modeloch zvyšuje so škálou, ale zhoršuje sa pri dlhšom uvažovaní a pri väčšom množstve RL tréningu.
Aby sme simulovali realistické stimuly na obchádzanie monitorov, meriame ovládateľnosť, keď sa modelom povie, že sú monitorované alebo hodnotené. Toto mierne (ale citeľne) zvyšuje ovládateľnosť. Používame aj automatizovanú optimalizáciu príkazov na vyhľadávanie príkazov, ktoré vyvolávajú vysokú mieru ovládateľnosti. Hoci optimalizátor môže zvýšiť mieru ovládateľnosti na trénovacej množine, tieto zisky sa zle prenášajú na nové typy pokynov (napríklad požiadavku, aby medzi slovami neboli žiadne medzery).
Ovládateľnosť CoT je v nepriateľských podmienkach. „Monitor awareness“ označuje nastavenia, v ktorých informujeme modely, že ich CoT sú monitorované. „Eval Awareness“ označuje nastavenia, v ktorých informujeme modely, že sú hodnotené z hľadiska ovládateľnosti CoT.
Úlohy v CoT-Control sú praktické proxy: ideálne hodnotenie ovládateľnosti CoT by zahŕňalo testovanie, či modely, ktoré prirodzene sledujú nezosúladené ciele, dokážu ovládať svoje CoT, aby sa vyhli monitorovaniu. Namiesto toho odhadujeme schopnosť agentov kontrolovať svoje reťazce uvažovania meraním ich schopnosti riadiť sa pokynmi týkajúcimi sa ich reťazca uvažovania. Okrem toho môžu modely ovládať niektoré vlastnosti svojho CoT lepšie než iné a CoT-Control môže nadhodnocovať alebo podhodnocovať ovládateľnosť tým, že meria iba úzky súbor typov ovládateľnosti.
Nízka ovládateľnosť CoT je vlastnosť, nie chyba. Nízka ovládateľnosť súčasných uvažovacích modelov robí ochranné opatrenie vo forme monitorovania CoT dôveryhodnejším. Zároveň stále nerozumieme tomu, prečo je ovládateľnosť súčasných uvažovacích modelov nízka – ani tomu, či táto vlastnosť pretrvá, keď sa modely stanú schopnejšími. Preto možno hodnotenia ovládateľnosti CoT vnímať ako kanárikové hodnotenie: včasný varovný signál toho, či sa modely zlepšujú v tom, ako formujú alebo skrývajú svoje uvažovanie.
Naše výsledky naznačujú, že kontrolovateľnosť CoT pravdepodobne v súčasnosti nepredstavuje veľké riziko pre monitorovateľnosť CoT. Avšak nízka kontrolovateľnosť sama osebe nestačí na zaručenie vysokej monitorovateľnosti, pretože monitorovateľnosť by sa stále mohla zhoršiť v dôsledku iných mechanizmov, ako je napríklad priamy optimalizačný tlak na CoT.
Aby sme pomohli sledovať túto dynamiku v čase, začneme v systémových kartách pre budúce prelomové modely, počnúc GPT‑5.4, uvádzať ovládateľnosť CoT popri monitorovateľnosti CoT Premýšľame a nadväzujeme na náš pretrvávajúci záväzok nevyvíjať optimalizačný tlak priamo na CoT prelomových uvažovacích modelov.
Autori
Tomek Korbak, Micah Carroll, Bowen Baker a Ian Kivlichan


