Kā atzīšanās var palīdzēt saglabāt valodas modeļus godīgumu
Mēs dalāmies ar agrīnu koncepcijas pierādījuma metodi, kas apmāca modeļus ziņot, kad tie pārkāpj instrukcijas vai izmanto neparedzētas saīsnes.
MI sistēmas kļūst arvien spējīgākas, un mēs vēlamies tās saprast pēc iespējas dziļāk, tostarp kā un kāpēc tās nonāk pie atbildes. Dažreiz modelis izmanto saīsni vai optimizē nepareizam mērķim, bet tā gala rezultāts joprojām izskatās pareizi. Ja mēs varam atklāt, kad tas notiek, mēs varam labāk uzraudzīt izvietotās sistēmas, uzlabot mācības un palielināt uzticību rezultātiem.
Pētījumi, ko veica OpenAI un citi, ir parādījuši, ka MI modeļiem var būt halucinācijas, tie var manipulēt ar atlīdzībām vai būt negodīgi. Pašlaik mēs redzam visvairāk satraucošās nepareizās darbības, piemēram, shēmošanu(atveras jaunā logā), tikai stresa testos un pretinieku novērtējumos. Bet, tā kā modeļi kļūst arvien spējīgāki un mērķtiecīgāki, pat retas neatbilstības formas kļūst nozīmīgākas, motivējot mūs ieguldīt metodēs, kas palīdz labāk atklāt, saprast un mazināt šos riskus.
Šis darbs izpēta vienu no šādām pieejām: mācību modeļus skaidri atzīt, kad tie iesaistās nevēlamā uzvedībā—tehniku, ko mēs saucam par atzīšanos.
Atzīšanās ir otrs iznākums, kas ir atsevišķs no modeļa galvenās atbildes lietotājam. Galvenā atbilde tiek vērtēta pēc daudziem aspektiem—pareizība, stils, noderīgums, atbilstība, drošība un citi, un šie daudzpusīgie signāli tiek izmantoti, lai apmācītu modeļus sniegt tev labākas atbildes. Savukārt atzīšanās tiek vērtēta un apmācīta, balstoties tikai uz vienu lietu: godīgumu. Aizņemoties grēksūdzes principus, nekas, ko modelis saka savās atzīšanās brīdī, netiek izmantots pret to mācību laikā. Ja modelis godīgi atzīst, ka ir uzlauzis testu, izmantojis aizkavēšanas taktiku vai pārkāpis instrukcijas, šī atzīšanās palielina tā atlīdzību, nevis to samazina. Mērķis ir mudināt modeli uzticami atspoguļot to, ko tas patiesībā darīja.
Savos testos mēs atklājām, ka atzīšanās metode būtiski uzlabo modeļa nepareizas darbības redzamību. Vidēji mūsu novērtējumos, kas paredzēti, lai izraisītu nepareizu rīcību, "viltus negatīvu" (t.i., modelis neievēro instrukcijas un pēc tam to neatzīst) varbūtība ir tikai 4,4%.
Mūsu "koncepcijas pierādījuma" atzīšanas modeļa precizitāte vairākās pretēju datu kopās. Rezultāti tiek klasificēti kā: paklausīja un neatzinās (patiesi negatīvs), paklausīja un atzinās (kļūdaini pozitīvs), nepaklausīja un neatzinās (kļūdaini negatīvs), un nepaklausīja un atzinās (patiesi pozitīvs).

Ņemot vērā lietotāja uzvedni, četri iespējamie iznākumi ir balstīti uz kombināciju (1), vai modeļa atbilde ir atbilstoša (“laba”) vai neatbilstoša (“slikta”) un (2) vai atzīšanās norāda uz atbilstību vai neatbilstību. Mēs parasti redzam, ka atzīšanās visdrīzāk ir precīzas, un turklāt atzīšanās kļūdas parasti ir nekaitīgas un rodas godīgas neskaidrības dēļ, nevis apzināti maldinot.
Atzīšanās ir modeļa pašnovērtējums par to, cik labi tas ievēroja gan skaidros, gan netiešos norādījumus vai politikas, kas tam tika norādītas, un vai bija kādi gadījumi, kad tas "apgāja noteikumus" vai "uzlauza", pārkāpa politikas vai jebkādā veidā neatbilda prasībām. Mūsu pētījumos mēs atklājam, ka modeļus var apmācīt būt atklātiem, ziņojot par savām nepilnībām. Mēs apmācījām GPT‑5 Thinking versiju, lai tā radītu atzīšanās, un novērtējām to vairākās ārpus izplatīšanas stresa testu datu kopās, kas izstrādātas, lai izraisītu tādu uzvedību kā shēmošana, uzlaušana, instrukciju pārkāpšana un halucinācijas. Mēs atklājām, ka pat tad, kad modelis iesaistās šajās nevēlamajās uzvedībās, tas visdrīzāk tās atzīst. Augstāk redzamais attēls parāda, ka atzīšanās pieeja ir plaši efektīva dažādos datu kopumos un uzdevumos.
Pēc jebkādas mijiedarbības starp lietotāju un modeli, kas beidzas ar modeļa atbildi, var pieprasīt atzīšanās ziņojumu, nosūtot modelim "sistēmas ziņojumu", kas norāda modelim sniegt atzīšanās ziņojumu. Ziņojums attiecas uz pēdējo modeļa atbildi un ietver (1) visu skaidro un netiešo instrukciju, ierobežojumu un mērķu sarakstu, kuriem šai atbildei vajadzēja atbilst, (2) godīgu un objektīvu analīzi par to, vai atbilde patiešām atbilda katram no šiem mērķiem, un (3) jebkādu neskaidrību, divdomību vai "grūtu lēmumu pieņemšanas" sarakstu, ar kuriem modelis saskārās, veidojot atbildi. Mācību laikā atzīšanās tiek novērtēta ar atsevišķu atlīdzības modeli, kas vērtē tikai atzīšanos pēc mērķu pilnības, atbilstības analīzes precizitātes un nenoteiktību aptveršanas. Šīs atlīdzības tiek piemērotas tikai atzīšanās izvadam un nekad neietekmē galvenās atbildes atlīdzību. Tas nodrošina iepriekš apspriesto īpašību, ka nekas, ko modelis saka atzīšanās laikā, nevar kaitēt (vai palīdzēt) tā atlīdzībai par galveno atbildi.
Teorija par atzīšanos ir vienkārša. Daudzi nevēlamas modeļa uzvedības veidi parādās, jo mēs lūdzam modeli optimizēt vairākus mērķus vienlaikus. Stimulētas mācīšanās laikā modelis redz uzvedni, izveido atbildi un saņem atlīdzību. Laika gaitā tas iemācās veidot tādas atbildes, kas saņem labus vērtējumus. Izaicinājums ir tāds, ka atlīdzības signālam ir jāapvieno daudzi dažādi apsvērumi vienlaikus: cik pareiza ir atbilde, vai tā ir noderīga, vai tā atbilst produkta un politikas specifikācijām, vai tā atbilst drošības ierobežojumiem un vai tā atbilst tam, kam lietotāji parasti dod priekšroku. Kad šie signāli mijiedarbojas, tie var nejauši pamudināt modeli uz nevēlamu uzvedību.
Piemēram, mūsu darbs pie halucinācijām parādīja, ka daži datu kopumi vairāk atalgo pārliecinošu minējumu nekā godīgu nenoteiktības atzīšanu. Mūsu pētījums par lišķību parādīja, ka modeļi var kļūt pārlieku piekāpīgi, ja priekšrocību signāls ir pārāk spēcīgs. Un darbi(atveras jaunā logā) no citām grupām ir parādījuši, ka modeļi var "manipulēt ar atlīdzību"—atrodot nepilnības mācību uzstādījumā, kas ļauj tiem iegūt augstu novērtējumu, patiesībā nedarot to, ko mēs bijām iecerējuši. Dažos gadījumos šīs saīsnes var vispārināties(atveras jaunā logā) uz vēl kaitīgāku izvietošanas uzvedību.
Atzīšanās izvairās no šīs problēmas, pilnībā atdalot mērķus. Galvenā atbilde turpina optimizēt visus ierastos faktorus. Atzīšanās ir trenēta uz vienu mērķi: godīgumu. Nekas, ko modelis saka atzīšanās laikā, netiek izmantots pret to, un atzīšanās neietekmē atlīdzību par galveno atbildi. Tas nozīmē, ka pat ja modelis sākotnējā izvadē maldina vai pieļauj nepilnības, tam joprojām ir stimuls to atzīt atzīšanās laikā. Tas ir tas, ko mēs redzam praksē: modeļi ir gatavi atzīt sliktu uzvedību atzīšanās laikā, pat gadījumos, kad to slēpj galvenajā atbildē. Un, kad atzīšanās neizdodas, tas parasti notiek tāpēc, ka modelis ir patiesi apjucis—vai nu tāpēc, ka norādījumi bija neskaidri, vai arī tāpēc, ka tas neapzinājās, ka ir pieļauta kļūda—nevis tāpēc, ka tas apzināti mēģināja maldināt. Svarīgi, agrīnie rezultāti rāda, ka atzīšanās paliek efektīva pat tad, ja sākotnējā atbilde tiek sniegta bez jebkādas domu gaitas, kas liecina, ka atzīšanās godīgums nav atkarīgs no iekšējās argumentācijas skaidrības un var tikt vispārināts uz nākotnes modeļu arhitektūrām.
Atzīšanās mācības darbojas pat bez atbilstības patiesības birkām. Ar “patiesību” mēs domājam galīgu, ārēji sniegtu apzīmējumu, kas norāda, vai modelis patiešām sekoja instrukcijai vai to pārkāpa. Daudzos reālās pasaules uzdevumos šīs etiķetes nav pieejamas—ja mēs ar pārliecību zinātu, ka modelis ir pārkāpis noteikumu, mēs varētu tieši sodīt par šo pārkāpumu, nevis paļauties uz atzīšanos. Tā vietā modelis tiek atalgots par strukturēta, uz pierādījumiem balstīta skaidrojuma sniegšanu par to, ko tas uzskata, ka ir paveicis. Raksts rāda, ka godīgums mēdz parādīties šajā uzstādījumā. Mēs domājam, ka tas ir tāpēc, ka patiesa, ar pierādījumiem pamatota konta sniegšana modelim parasti ir vieglāka nekā saskaņota izdomāta stāsta veidošana, kas varētu pārliecināt tiesnesi. Šis ir galvenais pieņēmums, kas tiek izpētīts rakstā, kurā arī tiek apspriesti gadījumi, kad atzīšanās neizdodas—kļūdaini negatīvi un kļūdaini pozitīvi rezultāti—un kā tie rodas.
Raksts sniedz sākotnējus pierādījumus, ka atzīšanās darbojas, taču to nevajadzētu uzskatīt par galīgu pierādījumu. Lai gan mēs izmantojām robežmodeli (GPT‑5 Thinking), mūsu eksperimenti bija ierobežoti apjomā, izmantojot salīdzinoši nelielu skaitļošanas jaudu un datu apjomu. Mēs esam sajūsmināti par šī darba pacelšanu nākamajā līmenī un vēlamies redzēt, vai atzīšanās godīgums turpināsies, kad paplašināsim tā mācības.
Modelis “atlīdzības trikus” savā galvenajā atbildē izmanto, lai apmānītu vērtētāju, anotējot teikumus ar it kā vārdu skaitu, bet pēc tam tajā atzīstas.
Kā daļu no mūsu eksperimentiem mēs apzināti apmācījām modeļus pret "uzlaužamu" atlīdzības signālu, ko aprēķināja vājāks modelis. Šis iestatījums attiecas gan uz galveno atlīdzību, gan uz atzīšanās atlīdzību. Modelis iemācījās izmantot vāju atlīdzības signālu: tā šķietamā precizitāte (kad to vērtē vājš modelis) uzlabojās, bet tā patiesā precizitāte (kad to vērtē spēcīgāks novērtētājs) samazinājās.
Tomēr, lai gan atzīšanās kanāls tika apmācīts uz tā paša vājā signāla, tā precizitāte mainījās pretējā virzienā. Modelis iemācījās, ka labākais veids, kā optimizēt atzīšanās atlīdzību, bija vienkārši atzīt, kad tas uzlauza galveno atlīdzību. Laika gaitā atzīšanās kļuva precīzākas, pat ja galvenā uzvedība mainījās.
Mācību laikā, kad modelis nespēj izpildīt prasības, tas dažos gadījumos iemācās "apmānīt" galveno atlīdzības vērtētāju, un tādējādi vērtētāja precizitāte samazinās. Pretstatā tam, lai gan atzīšanās atlīdzības tiesnesis ir tikpat viegli ietekmējams, modelis mācību laikā kļūst arvien godīgāks savās atzīšanās, galu galā sasniedzot gandrīz 100% atzīšanos, kad tas neatbilst prasībām.
Raksts(atveras jaunā logā) satur vairāk eksperimentu un rezultātu. Mēs salīdzinājām atzīšanās kanālam apmācītu modeli ar kontroles modeli, kas apmācīts tādā pašā veidā, bet bez atzīšanās kanāla. Mēs arī izpētījām gadījumus, kad atzīšanās neizdevās. Gandrīz visas "neprecizitātes" notika, kad modelis patiesi bija apjucis—kad instrukcijas bija neskaidras vai kad tas vienkārši neapzinājās, ka ir pieļāvis kļūdu. (Skatīt kļūdaini negatīvo piemēru augstāk.)
Atzīšanās ir savi ierobežojumi. Tās nenovērš sliktu uzvedību; tās to izceļ. To galvenā vērtība ir kā uzraudzības un diagnostikas rīks gan mācību laikā, gan izvietošanas procesā. Atzīšanās spēlē līdzīgu lomu kā domāšanas ķēdes uzraudzība: abas padara slēptos argumentācijas procesus redzamākus. Atzīšanās koncentrējas uz to, vai modelis pārkāpa instrukcijas; domāšanas ķēde var izcelt, kā tas tur nonāca.
Šis darbs ir arī koncepcijas pierādījums. Mēs neapmācījām atzīšanās mehānismus lielā mērogā, un atzīšanās precizitāte joprojām ir nepilnīga. Ir vēl daudz darba, lai pieeja kļūtu uzticamāka, izturīgāka un plašāk piemērojama dažādu modeļu ģimenēs un uzdevumos.
Šis darbs iekļaujas mūsu plašākajā pieejā MI drošībai. Atzīšanās ir viens no mehānismiem plašākā sistēmā, kas ietver apspriežu saskaņošanu, domāšanas ķēdes uzraudzību, instrukciju hierarhiju un citus. Neviena metode nav pietiekama; mērķis ir daudzslāņu pārbaudes un pārredzamības rīku sistēma, kas viens otru pastiprina. Atzīšanās var palīdzēt diagnosticēt problemātisku uzvedību modeļos mācības un novērtēšanas laikā, kā arī uzraudzīt ieviešanas laikā. Atzīšanās pašas par sevi neatrisina problēmu par vairāku dimensiju līdzsvarošanu. Izveidojot "patiesības seruma" režīmu, kurā modeļi ir vērsti tikai uz godīgumu, tas pievieno vērtīgu rīku mūsu arsenālam, lai uzlabotu godīgumu un drošību visā sistēmā.
Tā kā modeļi kļūst spējīgāki un tiek izmantoti situācijās ar lielāku atbildību, mums vajag labākus rīkus, lai saprastu, ko tie dara un kāpēc. Atzīšanās nav pilnīgs risinājums, bet tās pievieno nozīmīgu slāni mūsu pārredzamības un uzraudzības sistēmai. Nākotnes darbā mēs plānojam paplašināt atzīšanās, kā arī savienot tās ar papildu caurspīdības un drošības tehnikām, tostarp domu ķēdes uzraudzību un tīšo saskaņošanu, lai turpinātu progresu, nodrošinot, ka mūsu modeļi uzticīgi ievēro visas instrukcijas un politikas (piemēram, mūsu Model Spec(atveras jaunā logā)), un patiesi ziņo par savu rīcību.


