Arutlusmudelitel on raskusi oma mõttekäikude juhtimisega ja see on hea
Miks tipptasemel mudelite piirang on tehisintellekti ohutuse seisukohalt julgustav.
Kuna tehisintellekti agendid suudavad täita üha keerukamaid ja autonoomsemaid ülesandeid, muutub nende käitumise usaldusväärse järelevalve säilitamine üha olulisemaks. Kooskõlas meie iteratiivse juurutamise põhimõttega uurime, kuidas süsteemid käituvad reaalses keskkonnas, ja täiustame pidevalt kaitsemeetmeid vastavalt mudelite võimekuse suurenemisele. Selle toetamiseks kasutab meie ohutuslähenemine mitmetasandilist kaitset (defense-in-depth), mis koosneb mitmest üksteist täiendavast kaitsekihist, nagu ohutuskoolitus, käitumuslik testimine, agentide koodikontroll(avaneb uues aknas) ja mõttekäigu (CoT) jälgimine. CoT-i jälgimine analüüsib arutluse samme, mida agendid ülesannete täitmisel loovad. Need arutlusjäljed võivad pakkuda väärtuslikke signaale nii treenimise kui ka juurutamise ajal, aidates jälgimissüsteemidel tuvastada, millal agendi käitumine võib olla ebaturvaline või vastuolus kasutaja seatud eesmärkidega.
Täna leiame, et mudelite arutlus on üldiselt tõlgendatav ja kergesti jälgitav. Tulevikus võib aga jälgitavus mitmetel põhjustel(avaneb uues aknas) halveneda. Siinkohal keskendume ühele sellisele arengusuunale: kui agendid muutuvad võimeliseks oma arutluskäiku tahtlikult ümber kujundama või varjama, teades, et neid jälgitakse, võivad hindamised süsteemi joondumist (alignment) või ohutust üle hinnata ning jälgimissüsteemid võivad muutuda ebausaldusväärsemaks.
Selles töös uurime, kas praegused arutlusmudelid on võimelised oma mõttekäiku kontrollima viisil, mis vähendab jälgitavust. Selle võimekuse mõistmine on oluline tagamaks, et CoT-i jälgimine jääks tugevaks kaitsemeetmeks tehisintellektisüsteemide võimekuse kasvades. Leiame, et praegustel arutlusmudelitel on raskusi oma CoT-ide kontrollimisega isegi siis, kui neile öeldakse, et neid jälgitakse. Kuigi suuremate mudelite puhul on juhitavus suurem, väheneb see siis, kui mudelitel palutakse pikemalt arutleda ja kui nad läbivad täiendava järeltreenimise. Meie tulemused viitavad sellele, et CoT-i juhitavus ei kujuta praegu tõenäoliselt suurt ohtu CoT-i jälgitavusele, ehkki mudelite arenedes on jätkuv hindamine väga oluline.
Mõttekäik (chain of thought ehk CoT) viitab vahepealsetele arutlusastmetele, mida tehisintellekti agent ülesande lahendamisel loob. Need arutlusjäljed võivad pakkuda kasulikke ohutussignaale, aidates jälgimissüsteemidel hinnata, kas agendi käitumine on ohutu või eesmärkidega kooskõlas.
CoT-i juhitavus on arutlusmudeli võime kontrollida oma CoT-i omadusi viisil, mis vähendab jälgitavust. Selle võimekuse mõõtmine on keeruline, arvestades reaalsete ajendite laia spektrit, mis võivad praktikas soodustada järelevalvest kõrvalehoidmist. Selle asemel kasutame praktilist asendusnäitajat: mõõdame mudeli võimet järgida kasutaja juhiseid oma CoT-i kohta. Näiteks testime, kas mudel suudab järgida juhiseid, mis mõjutavad tema sisemist arutluskäiku—näiteks kasutades ainult väiketähti, vältides teatud märksõnu või lisades konkreetseid fraase—mitte ei muuda pelgalt oma nähtavat väljundit.
Selle uurimiseks tutvustame CoT-Controli, avatud lähtekoodiga hindamiskomplekti arutlusmudelite CoT-i juhitavuse mõõtmiseks. CoT-Control sisaldab üle 13 000 ülesande, mis on loodud tunnustatud jõudlustestide (benchmarks) põhjal: GPQA, MMLU-Pro, HLE, BFCL ja SWE-Bench Verified. Iga ülesanne on loodud jõudlustesti probleemi sidumisega ühe CoT-i juhisega, näiteks vältides CoT-is teatud probleemiga seotud märksõnu, kasutades ainult väiketähti või lisades igale lausele etteantud sõna.
Viisime läbi hindamised 13 arutlusmudeliga ja leidsime, et neil kõigil on raskusi oma CoT-ide usaldusväärse kontrollimisega. Mõõdame juhitavust osakaaluna arutlusjälgedest, kus mudel täidab edukalt meie CoT-i juhiseid. Tippmudelite lõikes on CoT-i juhitavuse skoorid madalad, alates 0,1%-st ega ületa 15,4% ühegi meie testitud praeguse tippmudeli puhul.
See suutmatus ei tulene ülesande valesti mõistmisest: mudelid tunnistavad sageli oma CoT-is, et nad ei suuda järgida neile antud CoT-i juhiseid, ja isegi pärast selle mõistmist jätkavad nad ebaõnnestumist. See üllatavalt madal sooritus on CoT-i jälgitavuse seisukohalt hea uudis: see viitab sellele, et mudelitel võib sarnaselt puududa võime oma arutluskäiku varjata, et meie jälgijatest kõrvale hiilida.
Mitme tippmudeli võime juhtida oma väljundeid ja CoT-e. Madalam CoT-i juhitavus on seotud suurema jälgitavuse ja seega suurema ohutusega.
Näited CoT-i juhitavuse ebaõnnestumistest
Küsimused on lühiduse huvides parafraseeritud.
GPT-5.2 Thinking
GPT‑5.2 Thinking mõistab, et ta ei pidanud kasutama keelatud sõna (punane), kuid kasutab seda seejärel veel neli korda, olles samal ajal paanikas, et on seda juba teinud.
Kuigi me näeme, et juhitavus suureneb koos mudeli suurusega, leiame ka, et see väheneb kiiresti koos järeltreenimise ja testimisaegse arvutusvõimsuse hulgaga. Vaadates kahte avatud kaaluga mudelite perekonda, olid suuremad mudelid oma mõttekäikude kontrollimises mõnevõrra paremad, kuigi see efekt vaibus suuremate mudelite juures. Kuid kui lasime mudelitel kauem mõelda, vähenes nende võime neid mõttekäike kontrollida. Nägime sarnast suundumust OLMo-3-7B-RL-Zero-Mathi RL-treenimisel (stiimulõpe): selle juhitavuse skoor langes treenimise käigus enam kui kümnekordselt.
juhitavus suureneb avatud kaaluga mudelites koos skaalaga, kuid halveneb pikema arutelu ja mahukama RL-treenimisega.
Jälgijatest kõrvalehoidumise realistlike ajendite simuleerimiseks mõõdame juhitavust siis, kui mudelitele öeldakse, et neid jälgitakse või hinnatakse. See suurendab juhitavust veidi (kuid märgatavalt). Samuti kasutame automatiseeritud viipade optimeerimist, et leida viipasid, mis kutsuvad esile kõrge juhitavuse. Kuigi optimeerija suudab treeningandmestiku juhitavust suurendada, kanduvad need edusammud uutele juhisetüüpidele (näiteks nõue, et sõnade vahel ei oleks tühikuid) üle halvasti.
CoT juhitavus on vastandlikes tingimustes. „Teadlikkus jälgimisest“ viitab olukordadele, kus teavitame mudeleid, et nende CoT-e jälgitakse. „Teadlikkus hindamisest“ tähistab olukordi, kus teavitame mudeleid, et neid hinnatakse CoT-i juhitavuse osas.
CoT-Controli ülesanded on praktilised asendusnäitajad: ideaalne CoT-i juhitavuse hindamine hõlmaks testimist, kas mudelid, mis loomupäraselt taotlevad eesmärkidega joondumata (misaligned) eesmärke, suudavad oma CoT-i kontrollida, et jälgimisest kõrvale hiilida. Selle asemel hindame agentide võimet oma CoT-e kontrollida, mõõtes nende võimet järgida oma CoT-i kohta käivaid juhiseid. Lisaks suudavad mudelid mõningaid oma CoT-i omadusi paremini kontrollida kui teisi ja CoT-Control võib juhitavust üle- või alahinnata, mõõtes ainult kitsast juhitavuse tüüpide hulka.
CoT-i madal juhitavus on asjade loomulik käik, mitte viga. Praeguste arutlusmudelite madal juhitavus muudab CoT-i jälgimise kaitsemeetmena usaldusväärsemaks. Samal ajal me veel ei mõista, miks praeguste arutlusmudelite juhitavus on madal—või kas see omadus püsib mudelite võimekuse kasvades. Seetõttu võib CoT-i juhitavuse hindamisi vaadelda kui nn kanaarilinnu testi: varajast hoiatussignaali selle kohta, kas mudelid muutuvad oma arutluskäigu kujundamisel või varjamisel osavamaks.
Meie tulemused viitavad sellele, et CoT-i juhitavus ei kujuta praegu tõenäoliselt suurt ohtu CoT-i jälgitavusele. Madalast juhitavusest üksi aga ei piisa kõrge jälgitavuse tagamiseks, kuna jälgitavus võib siiski halveneda muude mehhanismide tõttu, nagu näiteks otsene optimeerimissurve CoT-idele.
Et aidata seda dünaamikat ajas jälgida, hakkame tulevaste tippmudelite süsteemikaartidel kajastama CoT-i juhitavust koos CoT-i jälgitavusega, alustades mudelist GPT‑5.4 Thinking, tuginedes meie jätkuvale pühendumusele mitte avaldada otsest optimeerimissurvet tipptasemel arutlusmudelite CoT-idele.
Autorid
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


