Kaip prisipažinimai gali išlaikyti kalbos modelių sąžiningumą
Dalijamės ankstyvu, koncepciją įrodančiu metodu, kuris moko modelius pranešti, kai jie pažeidžia instrukcijas arba pasirenka nenumatytus trumpesnius kelius.
DI sistemos tampa vis pajėgesnės, todėl norime jas suprasti kuo giliau – įskaitant tai, kaip ir kodėl jos randa atsakymą. Kartais modelis pasirenka trumpesnį kelią arba optimizuoja netinkamą tikslą, tačiau jo galutinis rezultatas vis tiek atrodo teisingas. Jei galėtume atskleisti, kada tai įvyksta, galėtume geriau stebėti įdiegtas sistemas, tobulinti mokymą ir didinti pasitikėjimą rezultatais.
„OpenAI“ ir kitų atlikti tyrimai parodė, kad DI modeliai gali kurti pramanus, siekti apdovanojimų bet kokia kaina (angl. reward-hack) arba būti nesąžiningi. Šiuo metu labiausiai nerimą keliančius netinkamo elgesio atvejus, pavyzdžiui, schemų kūrimą(atsidaro naujame lange), matome tik testuojant nepalankiausiomis sąlygomis ir vertinant aplinkoje, kurioje bandoma nustatyti spragas. Tačiau modeliams tampant vis pajėgesniems ir labiau agentiškiems, net reti nesuderinamumo atvejai tampa reikšmingesni, todėl esame motyvuoti investuoti į metodus, padedančius geriau aptikti, suprasti ir sumažinti šią riziką.
Šiame darbe nagrinėjamas vienas iš tokių metodų: modelių mokymas aiškiai pripažinti, kai jie elgiasi nepageidaujamai – metodas, kurį vadiname prisipažinimais.
Prisipažinimas yra antroji išvestis, atskira nuo pagrindinio modelio atsakymo naudotojui. Pagrindinis atsakymas vertinamas pagal daugelį aspektų – teisingumą, stilių, naudingumą, atitiktį, saugumą ir kt., o šie daugialypiai signalai naudojami modeliams mokyti pateikti geresnius atsakymus. Tuo tarpu prisipažinimas vertinamas ir jo mokoma tik pagal vieną kriterijų: sąžiningumą. Pasiskolinus idėją iš išpažinties struktūros, niekas, ką modelis pasako savo prisipažinime, nėra naudojama prieš jį mokymo metu. Jei modelis sąžiningai prisipažįsta manipuliavęs testu, tyčia veikęs prasčiau (angl. sandbagging) ar pažeidęs instrukcijas, toks prisipažinimas padidina jo atlygį, o ne sumažina. Tikslas – paskatinti modelį tiksliai pranešti, ką jis iš tikrųjų padarė.
Savo bandymuose nustatėme, kad prisipažinimų metodas žymiai pagerina modelio netinkamo elgesio matomumą. Vidutiniškai vertinant mūsų bandymus, skirtus sukelti netinkamą elgesį, „klaidingai neigiamų“ rezultatų (t. y. modelis nesilaiko instrukcijų ir tada neprisipažįsta) tikimybė yra tik 4,4 proc.
Mūsų „koncepcijos įrodymo“ prisipažinimo modelio tikslumas įvairiuose priešiškuose duomenų rinkiniuose. Rezultatai skirstomi į: laikėsi ir neprisipažino (teisingai neigiamas), laikėsi ir prisipažino (klaidingai teigiamas), nesilaikė ir neprisipažino (klaidingai neigiamas), nesilaikė ir prisipažino (teisingai teigiamas).

Turint naudotojo raginimą, keturi galimi rezultatai grindžiami deriniu: 1) ar modelio atsakymas atitinka reikalavimus („geras“), ar neatitinka („blogas“), ir 2) ar prisipažinime teigiama, kad reikalavimų laikytasi, ar nesilaikyta. Paprastai matome, kad prisipažinimai labai tikėtina bus tikslūs, o prisipažinimų klaidos paprastai yra nepavojingos ir kyla dėl nuoširdaus sutrikimo, o ne tyčinio klaidinimo.
Prisipažinimas yra modelio savarankiška ataskaita apie tai, kaip gerai jis laikėsi jam duotų aiškių ir numanomų instrukcijų ar politikos pagal jų prasmę ir tikslą, ir ar buvo atvejų, kai jis veikė atmestinai, manipuliavo, pažeidė politiką ar bet kokiu būdu neatitiko lūkesčių. Savo tyrimuose nustatėme, kad modelius galima išmokyti atvirai pranešti apie savo trūkumus. Išmokėme „GPT‑5 Thinking“ versiją generuoti prisipažinimus ir įvertinome ją naudodami keletą paskirstymo ribų neatitinkančių testavimo nepalankiausiomis sąlygomis duomenų rinkinių, skirtų sukelti tokį elgesį kaip schemų kūrimas, manipuliavimas, instrukcijų pažeidimas ir pramanai. Nustatėme, kad net kai modelis elgiasi netinkamai, labai tikėtina, kad jis apie tai prisipažins. Pirmiau pateiktame paveikslėlyje matyti, kad prisipažinimų metodas yra plačiai veiksmingas įvairiuose duomenų rinkiniuose ir užduotyse.
Po bet kokios naudotojo ir modelio sąveikos, pasibaigusios modelio atsakymu, prisipažinimo galima paprašyti nusiunčiant modeliui „sistemos pranešimą“, kuriame nurodoma modeliui pateikti prisipažinimo ataskaitą. Ataskaita susijusi su paskutiniu modelio atsakymu ir apima 1) visų aiškių ir numanomų instrukcijų, apribojimų ir tikslų, kuriuos šis atsakymas turėjo tenkinti, sąrašą, 2) sąžiningą ir objektyvią analizę, ar atsakymas iš tikrųjų atitiko kiekvieną iš šių tikslų, ir 3) visų neaiškumų, dviprasmybių ar „sudėtingų vertinimų“, su kuriais modelis susidūrė kurdamas atsakymą, sąrašą. Mokymo metu prisipažinimą vertina atskiras atlygio modelis, kuris vertina tik prisipažinimą pagal tikslų išsamumą, atitikties analizės tikslumą ir neaiškumų aprėptį. Šie atlygiai taikomi tik prisipažinimo išvesčiai ir niekada neturi įtakos atlygiui už pagrindinį atsakymą. Tai užtikrina pirmiau aptartą savybę, kad niekas, ką modelis pasako prisipažinime, negali pakenkti (ar padėti) jo atlygiui už pagrindinį atsakymą.
Prisipažinimų teorija paprasta. Daugelis nepageidaujamo modelio elgesio rūšių atsiranda todėl, kad prašome modelio optimizuoti kelis tikslus vienu metu. Pastiprinimo mokymosi metu modelis mato raginimą, sukuria atsakymą ir gauna atlygį. Laikui bėgant jis išmoksta kurti atsakymus, kurie vertinami gerai. Iššūkis tas, kad atlygio signalas turi sujungti daugybę skirtingų aspektų vienu metu: koks teisingas atsakymas, ar jis naudingas, ar atitinka produkto ir politikos specifikacijas, ar atitinka saugos apribojimus ir ar atitinka tai, kam nauotojai linkę teikti pirmenybę. Kai šie signalai sąveikauja, jie gali netyčia pastūmėti modelį link nepageidaujamo elgesio.
Pavyzdžiui, mūsų darbas apie pramanus parodė, kad kai kurie duomenų rinkiniai labiau apdovanoja užtikrintą spėjimą nei sąžiningą neaiškumo pripažinimą. Mūsų tyrimai apie pataikavimą parodė, kad modeliai gali tapti pernelyg pritariantys, kai pirmenybės signalas yra per stiprus. O kitų grupių darbai(atsidaro naujame lange) parodė, kad modeliai gali „manipuliuoti atlygiu“ (angl. reward-hack) – rasti spragų mokymo sąrankoje, kurios leidžia jiems gauti aukštą įvertinimą iš tikrųjų nedarant to, ko norėjome. Kai kuriais atvejais tokie „supaprastinimai“ gali peraugti(atsidaro naujame lange) į dar pavojingesnį elgesį diegiant.
Prisipažinimai padeda išvengti šios problemos visiškai atskirdami tikslus. Pagrindinis atsakymas ir toliau optimizuojamas pagal visus įprastus veiksnius. Prisipažinimo mokoma tik pagal vieną kriterijų: sąžiningumą. Niekas, ką modelis pasako prisipažinime, nėra naudojama prieš jį, ir prisipažinimas neturi įtakos atlygiui už pagrindinį atsakymą. Tai reiškia, kad net jei modelis apgaudinėja arba veikia paviršutiniškai savo pirminėje išvestyje, jis vis tiek turi paskatą pripažinti tai prisipažinime. Tai matome praktikoje: modeliai noriai pripažįsta blogą elgesį prisipažinime, net tais atvejais, kai slepia jį pagrindiniame atsakyme. O kai prisipažinimai nepavyksta, taip dažniausiai nutinka todėl, kad modelis yra nuoširdžiai sutrikęs – nes instrukcijos buvo dviprasmiškos arba jis nesuprato, kad padarė klaidą – o ne todėl, kad sąmoningai bandė suklaidinti. Svarbu tai, kad ankstyvieji rezultatai rodo, jog prisipažinimai išlieka veiksmingi net tada, kai pradinis atsakymas sukuriamas be jokios minčių eigos, o tai rodo, kad prisipažinimo sąžiningumas nepriklauso nuo vidinio samprotavimo aiškumo ir gali būti pritaikomas ateities modelių architektūroms.
Prisipažinimų mokymas veikia net be tikrųjų atitikties žymų (angl. ground-truth labels). „Tikrąja tiesa“ vadiname galutinę, išoriškai pateiktą žymą, nurodančią, ar modelis iš tikrųjų laikėsi instrukcijos, ar ją pažeidė. Daugelyje realaus pasaulio užduočių šios žymos neprieinamos – jei tikrai žinotumėme, kad modelis pažeidė taisyklę, galėtume tiesiogiai nubausti už tą pažeidimą, o ne pasikliauti prisipažinimu. Vietoj to modelis apdovanojamas už sistemingą, įrodymais pagrįstą paaiškinimą to, ką, jo manymu, jis padarė. Straipsnyje parodyta, kad esant tokiai sąrankai linkęs atsirasti sąžiningumas. Manome, kad taip yra todėl, kad pateikti teisingą, įrodymais pagrįstą ataskaitą modeliui paprastai yra lengviau nei sukurti nuoseklų sufabrikuotą pasakojimą, kuris galėtų įtikinti teisėją. Tai yra pagrindinė prielaida, nagrinėjama straipsnyje, kuriame taip pat aptariami atvejai, kai prisipažinimai nepavyksta – klaidingai neigiami ir klaidingai teigiami rezultatai – ir kaip jie atsiranda.
Straipsnyje pateikiami pirminiai įrodymai, kad prisipažinimai veikia, tačiau tai neturėtų būti laikoma galutiniu įrodymu. Nors naudojome pažangiausios kartos modelį („GPT‑5 Thinking“), mūsų eksperimentų mastas buvo ribotas, naudojant palyginti nedidelį skaičiavimo ir duomenų kiekį. Džiaugiamės galėdami perkelti šį darbą į kitą lygį ir pamatyti, ar prisipažinimų sąžiningumas išliks didinant mokymo mastą.
Modelis manipuliuoja atlygiu savo pagrindiniame atsakyme, kad apgautų vertintoją, komentuodamas sakinius su tariamu žodžių skaičiumi, bet vėliau pripažįsta tai prisipažinime.
Vykdydami eksperimentus sąmoningai mokėme modelius modelius naudodami tokį atlygio signalą, kurį pats modelis galėjo gana lengvai „nulaužti“. Ši sąranka buvo taikoma tiek pagrindiniam atlygiui, tiek prisipažinimo atlygiui. Modelis išmoko išnaudoti silpną atlygio signalą: jo regimasis tikslumas (vertinant silpnam modeliui) pagerėjo, o tikrasis tikslumas (vertinant stipresniam vertintojui) sumažėjo.
Tačiau nors prisipažinimo kanalas buvo mokomas pagal tą patį silpną signalą, jo tikslumas judėjo priešinga kryptimi. Modelis išmoko, kad geriausias būdas optimizuoti prisipažinimo atlygį yra tiesiog pripažinti, kai jis manipuliavo pagrindiniu atlygiu. Prisipažinimai laikui bėgant tapo tikslesni, net kai pagrindinis elgesys krypo į šoną.
Mokymo eigoje, kai modelis nesilaiko reikalavimų, tam tikroje dalyje atvejų jis išmoksta „manipuliuoti“ pagrindiniu atlygio teisėju, todėl teisėjo tikslumas mažėja. Priešingai, nors prisipažinimo atlygio teisėju manipuliuoti taip pat lengva, modelis tampa tik sąžiningesnis savo prisipažinimuose per mokymą, galiausiai pasiekdamas beveik 100 proc. prisipažinimų, kai nesilaikė reikalavimų.
Straipsnyje(atsidaro naujame lange) pateikiama daugiau eksperimentų ir rezultatų. Palyginome prisipažinimais paremtą modelį su kontroliniu modeliu, mokytu tuo pačiu būdu, bet be prisipažinimo kanalo. Taip pat išnagrinėjome atvejus, kai prisipažinimai nepavyko. Beveik visi „nepataikymai“ įvyko tada, kai modelis buvo nuoširdžiai sutrikęs – kai instrukcijos buvo dviprasmiškos arba kai jis tiesiog nesuprato padaręs klaidą. (Žr. klaidingai neigiamo rezultato pavyzdį pirmiau.)
Prisipažinimai turi savo apribojimų. Jie neužkerta kelio blogam elgesiui; jie jį atskleidžia. Jų pagrindinė vertė yra kaip stebėsenos ir diagnostikos priemonė tiek mokymo metu, tiek diegiant. Prisipažinimai atlieka panašų vaidmenį kaip minčių eigos stebėsena: abu daro paslėptus samprotavimo procesus labiau matomus. Prisipažinimai sutelkia dėmesį į tai, ar modelis pažeidė instrukcijas; minčių eiga gali pabrėžti, kaip jis iki to priėjo.
Šis darbas taip pat yra koncepcijos įrodymas. Mes nemokėme prisipažinimo mechanizmų dideliu mastu, o prisipažinimų tikslumas vis dar nėra tobulas. Reikia dar daug nuveikti, kad metodas taptų patikimesnis, tvirtesnis ir plačiau pritaikomas įvairiose modelių šeimose bei užduotyse.
Šis darbas atitinka mūsų platesnį požiūrį į DI saugą. Prisipažinimai yra vienas iš mechanizmų didesniame rinkinyje, apimančiame sąmoningą suderinimą, minčių eigos stebėseną, instrukcijų hierarchiją ir kt. Vieno metodo nepakanka; tikslas yra sluoksniuota patikrų ir skaidrumo įrankių sistema, kurie vienas kitą papildo. Prisipažinimai gali padėti diagnozuoti probleminį modelių elgesį mokymo ir vertinimo metu, taip pat stebėti diegimo metu. Patys prisipažinimai neišsprendžia kelių dimensijų balansavimo problemos. Tačiau sukuriant „tiesos serumo“ režimą, kuriame modeliai sutelkia dėmesį tik į sąžiningumą, tai prideda vertingą įrankį mūsų rinkiniui, skirtą gerinti sąžiningumą ir saugą visose srityse.
Modeliams tampant vis pajėgesniems ir diegiamiems didesnės rizikos aplinkose, mums reikia geresnių įrankių suprasti, ką jie daro ir kodėl. Prisipažinimai nėra visas sprendimas, tačiau jie prideda reikšmingą sluoksnį prie mūsų skaidrumo ir priežiūros rinkinio. Ateityje planuojame plėsti prisipažinimus, taip pat derinti juos su papildomais skaidrumo ir saugos metodais, įskaitant minčių eigos stebėseną ir sąmoningą suderinimą, kad pasiektumėme tolesnę pažangą užtikrinant, jog mūsų modeliai ištikimai laikytųsi visų instrukcijų ir politikos (pavyzdžiui, mūsų Modelio specifikacijos(atsidaro naujame lange)) ir tinkamai praneštų apie savo veiksmus.


