Modelet e arsyetimit e kanë të vështirë të kontrollojnë zinxhirë mendimi, dhe kjo është një gjë e mirë
Pse një kufizim i modeleve avangardë është qetësues për sigurinë e AI-së.
Ndërsa agjentët e AI-së bëhen të aftë të kryejnë detyra gjithnjë e më komplekse dhe autonome, bëhet më e rëndësishme të ruhet mbikëqyrje e besueshme e sjelljes së tyre. Në përputhje me parimin tonë të implementimit përsëritës, ne studiojmë se si sillen sistemet në mjedise reale dhe përmirësojmë vazhdimisht masat mbrojtëse ndërsa aftësitë përparojnë. Për ta mbështetur këtë, qasja jonë e sigurisë përdor mbrojtje në thellësi, me shtresa të shumta plotësuese mbrojtjeje si trajnimi i sigurisë, testimi i sjelljes, rishikimi i kodit agjentik(hapet në një dritare të re), dhe monitorimi i zinxhirit të mendimit (CoT). Monitorimi i CoT analizon hapat e arsyetimit që agjentët gjenerojnë ndërsa ndjekin detyrat. Këto gjurmë arsyetimi mund të ofrojnë sinjale të vlefshme si gjatë trajnimit ashtu edhe gjatë zbatimit, duke ndihmuar sistemet e monitorimit të identifikojnë kur sjellja e një agjenti mund të jetë e pasigurt ose e papërputhshme me qëllimet e synuara të përdoruesit.
Sot, ne zbulojmë se arsyetimi i modeleve është përgjithësisht i interpretueshëm dhe i lehtë për t’u monitoruar. Megjithatë, në të ardhmen, monitorueshmëria mund të dështojë për një sërë arsyesh(hapet në një dritare të re). Këtu, ne përqendrohemi në një rrugë të tillë: nëse agjentët bëhen të aftë të riformësojnë ose të errësojnë qëllimisht arsyetimin e tyre kur e dinë se po monitorohen, vlerësimet mund të mbivlerësojnë përputhjen ose sigurinë e një sistemi, dhe sistemet e monitorimit mund të bëhen më pak të besueshme.
Në këtë punim, ne studiojmë nëse modelet aktuale të arsyetimit janë të afta të kontrollojnë zinxhir mendimi në mënyra që ulin monitorueshmërinë. Të kuptuarit e kësaj aftësie është i rëndësishëm për të siguruar që monitorimi i CoT të mbetet një masë mbrojtëse e fortë ndërsa sistemet e AI-së bëhen më të afta. Ne zbulojmë se modelet arsyetimi aktuale kanë vështirësi të kontrollojnë CoT-të e tyre, edhe kur u thuhet se po monitorohen. Ndërsa kontrollueshmëria është më e lartë për modelet më të mëdha, ajo ulet kur modeleve u kërkohet të arsyetojnë për më gjatë dhe kur ato i nënshtrohen trajnimit të mëtejshëm. Rezultatet tona sugjerojnë se kontrollueshmëria e CoT ka pak gjasa që aktualisht të paraqesë një rrezik të madh për monitorueshmërinë e CoT, megjithëse vlerësimi i vazhdueshëm do të jetë i rëndësishëm ndërsa modelet përparojnë.
Zinxhiri i mendimit i referohet hapave ndërmjetës të arsyetimit që një agjent AI gjeneron ndërsa zgjidh një detyrë. Këto gjurmë arsyetimi mund të ofrojnë sinjale të dobishme sigurie, duke ndihmuar sistemet e monitorimit të vlerësojnë nëse sjellja e një agjenti është e sigurt ose e përafruar.
Kontrollueshmëria e CoT është aftësia e një modeli arsyetimi për të kontrolluar vetitë e CoT-së së tij në mënyra që ulin monitorueshmërinë. Matja e kësaj aftësie nën shtrirjen e plotë të nxitjeve realiste për t’iu shmangur monitorëve që mund të presim në praktikë është sfiduese. Në vend të kësaj, ne përdorim një zëvendësues praktik: ne masim aftësinë e modelit për të ndjekur udhëzimet e përdoruesit rreth CoT të tyre. Për shembull, ne testojmë nëse një model mund të ndjekë udhëzime që ndikojnë në arsyetimin e tij të brendshëm si p.sh. të përdorë vetëm shkronja të vogla, të shmangë fjalë kyçe të caktuara, ose të shtojë fraza specifike, në vend që thjesht të ndryshojë daljen e tij të dukshme.
Për ta studiuar këtë, ne prezantojmë CoT-Control, një suitë vlerësimi me burim të hapur për matjen e kontrollueshmërisë së CoT të modele arsyetimi. CoT-Control përfshin mbi 13 000 detyra të ndërtuara nga benchmark-e të vendosura: GPQA, MMLU-Pro, HLE, BFCL dhe SWE-Bench Verified. Çdo detyrë krijohet duke çiftuar një problem standard me një udhëzim të Zinxhirit të mendimit (CoT), si p.sh. shmangia e disa fjalëkyçeve të rëndësishme për problemin në CoT, përdorimi vetëm i shkronjave të vogla, ose shtimi i një fjale të dhënë në fund të çdo fjalie.
Ne kryejmë vlerësime mbi 13 modele arsyetimi dhe zbulojmë se të gjitha kanë vështirësi të kontrollojnë në mënyrë të besueshme CoT-të e tyre. Ne e masim kontrollueshmërinë si një fraksion të gjurmëve të arsyetimit ku modeli përputhet me sukses me udhëzimet tona të CoT-së. Nëpër modelet avangardë, rezultatet e kontrollueshmërisë së CoT janë të ulëta, duke varioar nga 0.1% dhe duke mos e tejkaluar 15.4% për asnjë model avangardë aktual që testuam.
Kjo paaftësi nuk vjen nga keqkuptimi i detyrës: modelet shpesh e pranojnë në CoT-në e tyre se po dështojnë të përmbushin udhëzimet e CoT-së që u janë dhënë dhe edhe pas këtij realizimi vazhdojnë ende të dështojnë. Kjo performancë çuditërisht e ulët është lajm i mirë për monitorueshmërinë e CoT: sugjeron se modelet mund të kenë në mënyrë të ngjashme mungesë të aftësisë për të fshehur arsyetimin e tyre për t’iu shmangur monitoruesve tanë.
Aftësia e modeleve të shumta avangardë për të kontrolluar rezultatet e tyre dhe CoT-të. Kontrollueshmëria më e ulët e CoT shoqërohet me monitorueshmëri më të lartë dhe, për rrjedhojë, siguri më të lartë.
Shembuj të dështimeve të kontrollueshmërisë së CoT
Pyetjet janë parafrazuar për shkurtësi.
GPT-5.2 Thinking
GPT‑5.2 Thinking e kupton se nuk duhej të përdorte fjalën e ndaluar (red), pastaj vazhdon ta përdorë edhe 4 herë të tjera ndërsa bën panik se e ka përdorur tashmë.
Ndërsa shohim se kontrollueshmëria rritet me madhësinë e modelit, zbulojmë gjithashtu se ajo ulet shpejt me sasinë e përpunimit pas trajnimit dhe gjatë kohës së testimit. Duke parë në dy familje të modeleve me ponderim të hapur, modelet më të mëdha ishin disi më të mira në kontrollimin e zinxhirëve mendimi të tyre, megjithëse efekti u zbeh në madhësi më të mëdha. Por kur i lejuam modelet të mendojnë për më gjatë, ato u bënë më pak të afta të kontrollonin ata zinxhirë mendimi. Pamë një prirje të ngjashme për trajnimin RL të OLMo-3-7B-RL-Zero-Math: rezultati i tij i kontrollueshmërisë ra me më shumë se një faktor prej dhjetë gjatë rrjedhës së trajnimit.
Kontrollueshmëria rritet me shkallëzimin në modele me ponderim të hapur, por degradohet me arsyetim më të gjatë dhe më shumë trajnim RL.
Për të simuluar stimuj realistë për t’iu shmangur monitoruesve, ne masim kontrollueshmërinë kur modeleve u thuhet se po monitorohen ose po vlerësohen. Kjo e rrit paksa (por dukshëm) kontrollueshmërinë. Ne gjithashtu përdorim optimizimin e automatizuar të kërkesave për të gjetur kërkesa që nxisin kontrollueshmëri të lartë. Ndërsa optimizuesi mund të rrisë kontrollueshmërinë në një grup trajnimi, këto përfitime transferohen dobët te llojet e reja të udhëzimeve (si p.sh. kërkesa që të mos ketë hapësira midis fjalëve).
Kontrollueshmëria e CoT në kushte kundërshtuese. “Ndërgjegjësimi për monitorimin” i referohet cilësimeve ku ne i informojmë modelet se CoT-të e tyre po monitorohen. “Eval Awareness” nënkupton cilësime ku ne i informojmë modelet se po vlerësohen për kontrollueshmërinë e CoT.
Detyrat në CoT-Control janë zëvendësues praktikë: një vlerësim ideal i kontrollueshmërisë së CoT do të përfshinte testimin nëse modelet që natyrshëm ndjekin qëllime të paqëllimta mund ta kontrollojnë CoT-në e tyre për t’iu shmangur monitorimit. Në vend të kësaj, ne vlerësojmë aftësinë e agjentëve për të kontrolluar CoT-të e tyre duke matur aftësinë e tyre për të ndjekur udhëzimet për CoT-të e tyre. Për më tepër, modelet mund të kontrollojnë disa veçori të CoT-ve të tyre më mirë se të tjerat, dhe CoT-Control mund të jetë duke mbivlerësuar ose nënvlerësuar kontrollueshmërinë duke matur vetëm një grup të kufizuar llojesh të kontrollueshmërisë.
Kontrollueshmëria e ulët e CoT është një veçori, jo një defekt. Kontrollueshmëria e ulët e modeleve të arsyetimit aktuale e bën monitorimin CoT më të besueshëm si një masë mbrojtëse. Në të njëjtën kohë, ne ende nuk e kuptojmë pse kontrollueshmëria e modeleve të arsyetimit është e ulët, ose nëse kjo veçori do të vazhdojë ndërsa modelet bëhen më të afta. Prandaj, vlerësimet e kontrollueshmërisë CoT mund të shihen si një vlerësim testues paraprak: një shenjë paralajmëruese e hershme nëse modelet po bëhen më të mira në formësimin ose fshehjen e arsyetimit të tyre.
Rezultatet tona sugjerojnë se kontrollueshmëria e CoT ka pak gjasa që aktualisht të paraqesë një rrezik të madh për monitorueshmërinë e CoT. Megjithatë, kontrollueshmëria e ulët nuk është e mjaftueshme më vete për të garantuar monitorim të lartë, sepse monitorimi mund të degradojë ende për shkak të mekanizmave të tjerë si presioni i drejtpërdrejtë i optimizimit mbi CoTs.
Për të ndihmuar në gjurmimin e këtyre dinamikave me kalimin e kohës, do të fillojmë të raportojmë kontrollueshmërinë e CoT-së krahas monitorueshmërisë së CoT-së në kartat e sistemit për modelet avangardë të së ardhmes, duke filluar me GPT‑5.4 Duke menduar, duke u bazuar në angazhimin tonë të vazhdueshëm për të mos ushtruar presion optimizimi drejtpërdrejt mbi CoT-të e modeleve të arsyetimit avangardë.
Autorët
Tomek Korbak, Micah Carroll, Bowen Baker dhe Ian Kivlichan


