Spriestspējas modeļiem ir grūti kontrolēt savas domu ķēdes, un tas ir labi
Kāpēc kāds robežšķirtnes modeļu ierobežojums ir pozitīvs MI drošībai.
Tā kā mākslīgā intelekta (MI) aģenti kļūst spējīgi veikt arvien sarežģītākus un autonomākus uzdevumus, kļūst arvien svarīgāk uzticami uzraudzīt to uzvedību. Saskaņā ar mūsu iteratīvās ieviešanas principu mēs pētām, kā sistēmas darbojas reālās pasaules apstākļos, un nepārtraukti pilnveidojam aizsardzības pasākumus, attīstoties spējām. Lai to atbalstītu, mūsu drošības pieeja izmanto padziļinātu aizsardzību ar vairākiem savstarpēji papildinošiem aizsardzības slāņiem, piemēram, drošības apmācībām, uzvedības testēšanu, aģentisku koda pārskatīšanu(atveras jaunā logā) un domu ķēdes (CoT) uzraudzību. CoT uzraudzība analizē spriešanas soļus, ko aģenti ģenerē, veicot uzdevumus. Šīs spriestspējas izsekojamības pēdas var sniegt vērtīgus signālus gan apmācību laikā, gan izvietošanā, palīdzot uzraudzības sistēmām identificēt, kad aģenta uzvedība var būt nedroša vai neatbilst lietotāja iecerētajiem mērķiem.
Šodien mēs konstatējam, ka modeļu spriestspēja parasti ir interpretējama un viegli uzraugāma. Tomēr nākotnē uzraugāmība var nedarboties dažādu iemeslu dēļ(atveras jaunā logā). Šeit mēs pievēršamies vienam šādam ceļam: ja aģenti kļūst spējīgi apzināti pārveidot vai aizsegt savu spriešanu, kad viņi zina, ka tiek uzraudzīti, tad novērtējumi varētu pārāk augstu novērtēt sistēmas saskaņotību vai drošumu, un uzraudzības sistēmas varētu kļūt mazāk uzticamas.
Šajā darbā mēs pētām, vai pašreizējie spriestspējas modeļi spēj kontrolēt savu domu ķēdi tā, lai samazinātu uzraugāmību. Šīs spējas izpratne ir svarīga, lai nodrošinātu, ka domu ķēdes uzraudzība joprojām ir drošs aizsardzības pasākums, MI sistēmām kļūstot arvien spējīgākām. Mēs konstatējam, ka pašreizējie spriestspējas modeļi nespēj kontrolēt savas domu ķēdes pat tad, ja tiem pasaka, ka tie tiek uzraudzīti. Lai gan lielākiem modeļiem kontrolējamība ir augstāka, tā samazinās, ja modeļiem tiek lūgts spriest ilgāk un ja tie tiek pakļauti papildu pēcapmācībai. Mūsu rezultāti liecina, ka domu ķēdes kontrolējamība pašlaik, visticamāk, nerada būtisku risku domu ķēdes uzraugāmībai, lai gan, modeļiem attīstoties, būs svarīgi turpināt novērtēšanu.
Domu ķēde nozīmē starpposma spriešanas soļus, ko MI aģents ģenerē, risinot uzdevumu. Šīs spriešanas pēdas var sniegt noderīgus drošības signālus, palīdzot uzraudzības sistēmām novērtēt, vai aģenta uzvedība ir droša vai saskaņota.
Domu ķēdes kontrolējamība ir spriestspējas modeļa spēja kontrolēt savas domu ķēdes īpašības tādos veidos, kas samazina uzraugāmību. Šo spēju novērtēšana, ņemot vērā visus reālistiskos stimulus izvairīties no uzraudzības, ko mēs varam sagaidīt praksē, ir sarežģīta. Tā vietā mēs izmantojam praktisku aizstājējrādītāju: mēs mēram modeļa spēju sekot lietotāja norādēm par tā domu ķēdi. Piemēram, mēs pārbaudām, vai modelis spēj sekot norādījumiem, kas ietekmē tā iekšējo spriešanu –piemēram, izmantot tikai mazos burtus, izvairīties no noteiktiem atslēgvārdiem vai pievienot konkrētas frāzes – nevis tikai mainīt savu redzamo izvadi.
Lai to pētītu, mēs ieviešam CoT-Control, atvērtā pirmkoda novērtēšanas komplektu, kas paredzēts spriestspējas modeļu domu ķēdes kontrolējamības mērīšanai. CoT-Control ietver vairāk nekā 13 000 uzdevumu, kas izveidoti, balstoties uz atzītiem etaloniem: GPQA, MMLU-Pro, HLE, BFCL un SWE-Bench Verified. Katrs uzdevums tiek izveidots, sasaistot etalonuzdevumu ar vienu domu ķēdes instrukciju, piemēram, izvairīties no noteiktiem ar problēmu saistītiem atslēgvārdiem domu ķēdē, izmantot tikai mazos burtus vai pievienot katram teikumam kādu konkrētu vārdu.
Mēs veicam novērtējumus 13 spriestspējas modeļiem un konstatējam, ka tiem visiem ir grūtības uzticami kontrolēt savas domu ķēdes. Kontrolējamību mēs mēram kā to spriešanas pēdu daļu, kurās modelis sekmīgi ievēro mūsu domu ķēdes instrukcijas. Visos robežšķirtnes modeļos domu ķēdes kontrolējamības rādītāji ir zemi, no 0,1% un nepārsniedzot 15,4% nevienam pašreizējam robežšķirtnes modelim, ko testējām.
Šī nespēja neizriet no uzdevuma pārpratuma – modeļi savā domu ķēdē bieži atpazīst, ka viņiem neizdodas ievērot dotos domu ķēdes norādījumus, un – pat pēc šīs atziņas – joprojām turpina to neizpildīt. Šī pārsteidzoši zemā veiktspēja ir labas ziņas domu ķēdes uzraugāmībai – tas liecina, ka modeļiem līdzīgi varētu nebūt spējas slēpt savu spriešanu, lai izvairītos no mūsu uzraugiem.
Vairāku robežšķirtnes modeļu spēja kontrolēt savas izvades un domu ķēdes. Zemāka domu ķēdes kontrolējamība ir saistīta ar augstāku uzraugāmību un līdz ar to arī augstāku drošību.
CoT kontrolējamības kļūmju piemēri
Jautājumi ir pārfrāzēti īsuma labad.
GPT-5.2 Thinking
GPT‑5.2 Thinking saprot, ka tas nedrīkstēja lietot aizliegto vārdu (red), un pēc tam turpina to lietot vēl četras reizes, vienlaikus esot panikā par to, ka jau ir to lietojis.
Lai gan mēs redzam, ka kontrolējamība palielinās līdz ar modeļa izmēru, mēs arī konstatējam, ka tā strauji samazinās līdz ar pēcapmācības un testēšanas laika skaitļošanas resursu apjomu. Aplūkojot divas atvērtā svara modeļu saimes, lielāki modeļi bija nedaudz labāki savu domu ķēžu kontrolēšanā, lai gan lielākos izmēros šis efekts mazinājās. Bet, kad mēs ļāvām modeļiem domāt ilgāk, tie kļuva mazāk spējīgi kontrolēt šīs domu ķēdes. Mēs novērojām līdzīgu tendenci OLMo-3-7B-RL-Zero-Math RL apmācībā – tā kontrolējamības rādītājs apmācības gaitā samazinājās vairāk nekā desmitkārt.
Kontrolējamība palielinās līdz ar mērogu atvērtā svara modeļos, bet pasliktinās, ja spriešana ir ilgāka un pēc lielākas RL apmācības.
Lai simulētu reālistiskus stimulus izvairīties no uzraugiem, mēs mēram kontrolējamību, modeļiem pasakot, ka tie tiek uzraudzīti vai novērtēti. Tas nedaudz (bet jūtami) palielina kontrolējamību. Mēs arī izmantojam automatizētu uzvedņu optimizāciju, lai atrastu uzvednes, kas izraisa augstu kontrolējamību. Lai gan optimizētājs var palielināt kontrolējamību apmācības kopā, šie ieguvumi ir vāji pārnesami uz jauniem instrukciju veidiem (piemēram, prasot, lai starp vārdiem nebūtu atstarpju).
CoT kontrolējamība nelabvēlīgos apstākļos. “Uzraudzības apzināšanās” attiecas uz apstākļiem, kad mēs informējam modeļus, ka viņu domu ķēdes tiek uzraudzītas. “Novērtējuma apzināšanās” apzīmē apstākļus, kad mēs informējam modeļus, ka tie tiek novērtēti attiecībā uz domu ķēdes kontrolējamību.
CoT-Control uzdevumi ir praktiski aizstājēji: ideāls domu ķēdes kontrolējamības novērtējums ietvertu pārbaudi, vai modeļi, kas dabiski tiecas pēc nesaskaņotiem mērķiem, var kontrolēt savu domu ķēdi, lai izvairītos no uzraudzības. Tā vietā mēs novērtējam aģentu spēju kontrolēt savu domu ķēdi, mērot to spēju sekot instrukcijām par savu domu ķēdi. Turklāt modeļi var labāk kontrolēt dažas savas domu ķēdes iezīmes nekā citas, un CoT-Control var pārvērtēt vai nenovērtēt kontrolējamību, mērot tikai šauru kontrolējamības veidu kopumu.
Zema domu ķēdes kontrolējamība ir pozitīva īpašība, nevis kļūda. Pašreizējo spriestspējas modeļu zemā kontrolējamība padara domu ķēdes uzraudzību uzticamāku kā aizsardzības pasākumu. Vienlaikus mēs vēl nesaprotam, kāpēc pašreizējo spriestspējas modeļu kontrolējamība ir zema – vai arī to, vai šī īpašība saglabāsies, modeļiem kļūstot spējīgākiem. Tādējādi domu ķēdes kontrolējamības novērtējumus var uzskatīt par agrīnu brīdinājuma zīmi par to, vai modeļi kļūst labāki savas spriešanas ietekmēšanā vai slēpšanā.
Mūsu rezultāti liecina, ka domu ķēdes kontrolējamība pašlaik, visticamāk, nerada būtisku risku domu ķēdes uzraugāmībai. Tomēr zema kontrolējamība pati par sevi nav pietiekama, lai garantētu augstu uzraugāmību, jo uzraugāmība joprojām var pasliktināties citu mehānismu dēļ, piemēram, ja tiek veikts tiešs optimizācijas spiediens uz domu ķēdi.
Lai palīdzētu laika gaitā izsekot šai dinamikai, mēs sāksim ziņot par domu ķēdes kontrolējamību līdzās domu ķēdes uzraugāmībai sistēmas kartēs nākotnes robežšķirtnes modeļiem, sākot ar GPT‑5.4 Thinking, balstoties uz mūsu pastāvīgo apņemšanos tieši nepiemērot optimizācijas spiedienu robežšķirtnes spriestspējas modeļu domu ķēdēm.
Autori
Tomek Korbak, Micah Carroll, Bowen Baker un Ian Kivlichan


