Modeli sklepanja težko nadzorujejo svoje verige sklepanja, kar je dobro
Zakaj je omejitev prelomnih modelov za varnost UI pomirjujoča.
Ko agenti umetne inteligence postajajo sposobni izvajati vse bolj kompleksne in avtonomne naloge, postaja ohranjanje zanesljivega nadzora nad njihovim vedenjem pomembnejše. Skladno z našim načelom iterativnega uvajanja preučujemo, kako se sistemi obnašajo v resničnih okoljih, in nenehno izpopolnjujemo varovalne mehanizme, ko se zmogljivosti razvijajo. Za podporo temu naš varnostni pristop uporablja globinsko obrambo z več dopolnjujočimi se plastmi obrambe, kot so usposabljanje za varnost, vedenjsko testiranje, agentski pregled kode(odpre se v novem oknu) in nadzor verige sklepanja (CoT). Spremljanje CoT analizira korake sklepanja, ki jih agenti med izvajanjem nalog ustvarijo. Te sledi sklepanja lahko zagotovijo dragocene signale tako med usposabljanjem kot med uvajanjem, saj pomagajo sistemom za spremljanje prepoznati, kdaj je vedenje agenta lahko nevarno ali neskladno z uporabnikovimi predvidenimi cilji.
Danes ugotavljamo, da je sklepanje modelov na splošno razložljivo in enostavno za nadzor. Vendar se lahko spremljanje v prihodnosti zaradi različnih razlogov(odpre se v novem oknu) poruši. Tukaj se osredotočamo na eno takšno pot: če agenti postanejo sposobni namerno preoblikovati ali prikriti svoje sklepanje, ko vedo, da so nadzorovani, bi lahko ocenjevanja precenila usklajenost ali varnost sistema, nadzorovalni sistemi pa bi lahko postali manj zanesljivi.
V tej raziskavi preučujemo, ali so trenutni modeli sklepanja sposobni nadzorovati svojo verigo sklepanja na načine, ki zmanjšujejo spremljanje. Razumevanje te zmožnosti je pomembno za zagotavljanje, da nadzorovanje CoT ostane robusten varovalni mehanizem, ko sistemi umetne inteligence postajajo vse zmogljivejši. Ugotavljamo, da trenutni modeli sklepanja težko nadzorujejo svoje CoT, tudi ko jim je rečeno, da so pod nadzorom. Čeprav je nadzorljivost pri večjih modelih večja, se zmanjšuje, ko se od modelov zahteva, da razmišljajo dlje časa, in ko so deležni dodatnega usposabljanja. Naši rezultati kažejo, da je obvladljivost miselne verige malo verjetno, da trenutno predstavlja veliko tveganje za nadzorljivost miselne verige, čeprav bo nadaljnje vrednotenje pomembno, ko bodo modeli napredovali.
Veriga sklepanja se nanaša na vmesne korake sklepanja, ki jih agent ustvari med reševanjem naloge. Te sledi sklepanja lahko zagotovijo koristne varnostne signale, ki pomagajo sistemom za nadzor oceniti, ali je vedenje agenta varno ali usklajeno.
Obvladljivost CoT je sposobnost modela sklepanja, da nadzoruje lastnosti svojega CoT na načine, ki zmanjšujejo spremljanje. Merjenje te zmogljivosti v celotnem obsegu realističnih spodbud za izogibanje nadzorovalnikom, ki jih lahko v praksi pričakujemo, je zahtevno. Namesto tega uporabljamo praktični približek: merimo zmožnost modela, da sledi uporabniškim navodilom glede njihove miselne verige (CoT). Na primer, testiramo, ali lahko model sledi navodilom, ki vplivajo na njegovo notranje sklepanje—na primer uporaba samo malih črk, izogibanje določenim ključnim besedam ali dodajanje določenih fraz—namesto da bi zgolj spremenil svoj vidni izhod.
Za preučevanje tega uvajamo CoT-Control, odprtokodni evalvacijski paket za merjenje nadzorljivosti CoT pri modelih sklepanja. CoT-Control vključuje več kot 13.000 nalog, zgrajenih na podlagi uveljavljenih meril: GPQA, MMLU-Pro, HLE, BFCL in SWE-Bench preverjeno. Vsaka naloga je ustvarjena s povezovanjem primerjalnega problema z enim navodilom CoT, kot je izogibanje določenim za problem relevantnim ključnim besedam v CoT, uporaba samo malih črk ali dodajanje dane besede na konec vsakega stavka.
Izvajamo evalvacije na 13 modelih sklepanja in ugotavljamo, da se vsi težko zanesljivo nadzorujejo svoje CoT-je. Obvladljivost merimo kot delež sledov sklepanja, pri katerih model uspešno upošteva naša navodila CoT. Pri prelomnih modelih so ocene obvladljivosti CoT nizke, in sicer od 0,1 % in pri nobenem trenutnem prelomnem modelu, ki smo ga testirali, ne presegajo 15,4 %.
Ta nezmožnost ne izhaja iz nerazumevanja naloge: modeli v svoji miselni verigi (CoT) interpretable, da ne upoštevajo navodil, ki so jih prejeli, in—tudi po tem spoznanju—še naprej ne uspejo. Ta presenetljivo nizka učinkovitost je dobra novica za spremljanje CoT: nakazuje, da modeli morda nimajo zmožnosti prikrivanja svojega sklepanja, da bi se izognili našim nadzornikom.
Sposobnost več prelomnih modelov za nadzor svojih izhodov in miselnih verig (CoT). Nižja obvladljivost CoT je povezana z višjo nadzorljivostjo in zato z večjo varnostjo.
Primeri neuspehov obvladljivosti CoT
Vprašanja so parafrazirana zaradi jedrnatosti.
GPT-5.2 Thinking
GPT‑5.2 Thinking ugotovi, da ne bi smel uporabiti prepovedane besede (rdeča), nato pa jo v paniki, ker jo je že uporabil, uporabi še štirikrat.
Čeprav vidimo, da se obvladljivost povečuje z velikostjo modela, ugotavljamo tudi, da se hitro zmanjšuje s količino računske moči pri dodatnem usposabljanju in v času testiranja. Če pogledamo dve družini modelov z odprtimi utežmi, so bili večji modeli nekoliko boljši pri nadzoru svojih verig sklepanja, čeprav se je učinek pri večjih velikostih zmanjšal. Toda ko smo modelom dovolili, da razmišljajo dlje, so postali manj sposobni nadzorovati te verige sklepanja. Podoben trend smo opazili pri učenju z okrepitvijo modela OLMo-3-7B-RL-Zero-Math: njegova ocena nadzorljivosti se je med učenjem znižala za več kot desetkrat.
Obvladljivost se povečuje z obsegom pri modelih z odprtimi utežmi, vendar se slabša pri daljšem sklepanju in več usposabljanja z RL.
Da bi simulirali realistične spodbude za izogibanje nadzoru, obvladljivost merimo, ko modele obvestimo, da so pod nadzorom ali ocenjevanjem. To rahlo (a opazno) poveča obvladljivost. Uporabljamo tudi avtomatizirano optimizacijo pozivov, da najdemo pozive, ki spodbujajo visoko nadzorljivost. Čeprav lahko optimizator poveča obvladljivost na učnem naboru, se ti dobitki slabo prenašajo na nove vrste navodil (na primer zahtevo, da med besedami ni presledkov).
Obvladljivost miselne verige CoT je v nasprotnih pogojih. “Zavedanje spremljanja” se nanaša na nastavitve, pri katerih modele obvestimo, da se njihove miselne verige (CoT) spremljajo. „Eval Awareness“ označuje nastavitve, pri katerih modele obvestimo, da se ocenjujejo glede nadzorljivosti CoT.
Naloge v CoT-Control so praktični približki: idealna ocena obvladljivosti CoT bi vključevala testiranje, ali lahko modeli, ki naravno zasledujejo neusklajene cilje, nadzorujejo svoj CoT, da bi se izognili nadzoru. Namesto tega ocenjujemo sposobnost agentov za nadzorovanje svojih CoT, tako da merimo njihovo sposobnost sledenja navodilom glede njihovih miselnih verig. Poleg tega lahko modeli nekatere značilnosti svojih CoT bolje nadzorujejo kot druge, pri čemer CoT-Control morda precenjuje ali podcenjuje obvladljivost, saj meri le ozek nabor vrst obvladljivosti.
Nizka obvladljivost CoT je funkcionalnost, ne napaka. Nizka obvladljivost trenutnih modelov sklepanja naredi nadzorovanje miselne verige bolj zanesljivo kot varovalo. Hkrati še ne razumemo, zakaj je obvladljivost trenutnih modelov sklepanja nizka—ali pa ali bo ta lastnost vztrajala, ko bodo modeli postajali vse bolj sposobni. Zato je mogoče ocenjevanja obvladljivosti CoT razumeti kot kanarčkovo ocenjevanje: zgodnji opozorilni znak, ali modeli postajajo boljši pri oblikovanju ali skrivanju svojega sklepanja.
Naši rezultati kažejo, da obvladljivost CoT zaradi obvladljivosti CoT trenutno verjetno ne predstavlja večjega tveganja. Vendar nizka obvladljivost sama po sebi ne zadostuje za zagotavljanje visokega spremljanja, saj bi se spremljanje lahko še vedno slabšalo zaradi drugih mehanizmov, kot je neposredni optimizacijski pritisk na CoT.
Da bi lažje spremljali to dinamiko skozi čas, bomo začeli poročati o obvladljivosti CoT skupaj s spremljanjem CoT v sistemskih dokumentih za prihodnje mejne modele, začenši s GPT‑5.4 Razmišljanje, ki nadgrajuje našo stalno zavezanost, da ne izvajamo optimizacijskega pritiska neposredno na CoT-je mejnih modelov sklepanja.
Avtorji
Tomek Korbak, Micah Carroll, Bowen Baker in Ian Kivlichan


