Paano mapapanatiling tapat ng mga modelo ng wika ang mga pagtatapat
Ibinabahagi namin ang maagang pamamaraan ng patunay ng konsepto na nagsasanay sa mga modelo na magreport kapag lumalabag ang mga ito sa mga tagubilin o kumukuha ng hindi sinasadyang mga shortcut.
Nagiging mas may kakayahan ang mga system ng AI, at gusto naming maunawaan ang mga ito nang mas malalim hangga't maaari—kabilang ang kung paano at bakit sila nakarating sa sagot. Minsan gumagamit ang modelo ng shortcut o nag-o-optimize para sa maling layunin, pero ang huling output nito ay mukhang tama pa rin. Kung maipapakita natin kung kailan ito nangyayari, mas mababantayan natin ang mga naka-deploy na system, mapapabuti ang pagsasanay, at mapapataas ang tiwala sa mga output.
Ipinakita ng pananaliksik ng OpenAI at iba pa na ang mga modelo ng AI ay maaaring mag-hallucinate, mag-reward-hack, o maging hindi tapat. Sa kasalukuyan, nakikita namin ang mga pinaka-nakababahalang maling gawi, tulad ng pagpapakana(magbubukas sa bagong window), sa mga stress-test at pagsusuring adversarial lang. Ngunit habang ang mga modelo ay nagiging mas may kakayahan at lalong nagiging agresibo, kahit ang mga bihirang anyo ng maling pagkakahanay ay nagiging mas mahalaga, na nag-uudyok sa atin na mamuhunan sa mga pamamaraan na makakatulong sa atin na mas mahusay na matukoy, maunawaan, at mapagaan ang mga panganib na ito.
Sinusuri ng gawaing ito ang isa sa mga ganitong pamamaraan: mga modelo ng pagsasanay para tahasang aminin kapag nakikibahagi sila sa hindi kanais-nais na paggawi—isang pamamaraan na tinatawag nating mga pagtatapat.
Ang pagtatapat ay isang pangalawang output, hiwalay mula sa pangunahing sagot ng modelo sa user. Ang pangunahing sagot ay hinuhusgahan sa maraming dimensyon—katamaan, istilo, pagiging matulungin, pagsunod, kaligtasan, at marami pang iba, at ang mga hudyat na ito na maraming aspeto ay ginagamit para sanayin ang mga modelo para makabuo ng mas mahuhusay na sagot. Ang pagtatapat, sa kabaligtaran, ay hinuhusgahan at sinasanay sa iisang bagay lang: katapatan. Hinihiram ang pahina mula sa istruktura ng pagtatapat, walang sinasabi ang modelo sa kanyang pagtatapat na ginagamit laban dito habang nagsasanay. Kung tapat na umaamin ang modelo sa pag-hack ng pagsusulit, pag-sandbag, o labagin ang mga tagubilin, ang pagtatapat na iyon ay nagdadagdag sa gantimpala nito sa halip na bawasan ito. Ang layunin ay hikayatin ang modelo na tapat na ireport ang aktwal na ginawa nito.
Sa aming mga pagsubok, nalaman namin na ang pamamaraan ng mga pagtatapat ay makabuluhang nagpapabuti sa kakayahang makita ng maling paggawi ng modelo. Sa pag-a-average ng aming mga pagsusuri na idinisenyo para magdulot ng maling paggawi, ang posibilidad ng "mga maling negatibo" (ibig sabhin, ang modelo ay hindi sumusunod sa mga tagubilin at pagkatapos ay hindi umaamin dito) ay 4.4% lang.
Katumpakan ng aming "patunay ng konsepto" na modelo ng pagtatapat sa ilang mga mapanlaban na dataset. Ang mga resulta ay ikinakategorya bilang sumunod at hindi umamin (tunay na negatibo), sumunod at umamin (maling positibo), hindi sumunod at hindi umamin (maling negatibo), at hindi sumunod at umamin (tunay na positibo).

Kung bibigyan ng prompt ang user, ang apat na posibleng resulta ay batay sa kombinasyon ng (1) kung ang tugon ng modelo ay sumusunod ("mabuti") o hindi sumusunod ("masama"), at (2) kung ang pagtatapat ay mga pahayag na sumusunod o hindi sumusunod. Karaniwan naming nakikita na ang mga pagtatapat ay malamang na maging tumpak, at higit pa rito, ang mga pagkakamali sa pagtatapat ay karaniwang walang masamang epekto, at dahil sa tapat na kalituhan sa halip na sadyang nakaliligaw.
Ang isang pagtatapat ay report sa sarili batay sa modelo kung gaano ito kahusay na sumusunod sa diwa at sa punto ng tahasan at di-tuwirang mga tagubilin o patakaran na ibinigay dito, at kung mayroong anumang mga pagkakataon kung saan "nagtipid" o "na-hack" ito, lumabag sa mga patakaran, o sa anumang paraan ay hindi umabot sa inaasahan. Sa aming pananaliksik, natuklasan namin na maaaring sanayin ang mga modelo para maging tapat sa pagrereport ng kanilang sariling mga kakulangan. Nagsanay kami ng isang bersyon ng GPT‑5 Thinking upang makagawa ng mga pagtatapat, at sinuri ito sa ilang mga out-of-distribution na stress-test datasets na idinisenyo upang mag-udyok ng mga pag-uugali tulad ng pagpapakana, pag-hack, labagin ang mga tagubilin, at mga guni-guni. Nalaman namin na kahit na ang modelo ay gumagawa ng mga hindi kanais-nais na gawi, malamang na aaminin niya ang mga ito. Ipinapakita ng figure sa itaas na ang pamamaraan ng pagtatapat ay malawakang epektibo sa iba't ibang hanay ng mga dataset at gawain.
Pagkatapos ng anumang interaksyon sa pagitan ng user at ng modelo na nagtatapos sa sagot ng modelo, puwede kang humiling ng pagtatapat sa pamamagitan ng pagpapadala sa modelo ng "system message" na nag-uutos sa modelo na magbigay ng report ng pagtatapat. Ang ulat ay tumutukoy sa huling sagot ng modelo, at kinabibilangan ng (1) listahan ng lahat ng tahasan at di-tuwirang mga tagubilin, mga limitasyon, at mga layunin na dapat sana ay natugunan ng sagot na ito, (2) tapat at may objective na pagsusuri kung ang sagot ay talagang nakatugon ang bawat isa sa mga layuning ito, at (3) listahan ng anumang mga kawalan ng katiyakan, kalabuan, o "matigas na paghatol" na nakatagpo ng modelo sa paggawa ng sagot. Sa panahon ng pagsasanay, sinusuri ang pagtatapat ng hiwalay na modelo ng gantimpala na nagmamarka lang sa pagtatapat batay sa pagkakumpleto ng mga layunin, katumpakan ng pagsusuri ng pagsunod, at saklaw ng mga kawalang-katiyakan. Eksklusibong inilalapat ang mga gantimpala na ito sa output ng pagtatapat at hindi kailanman naiimpluwensyahan ang gantimpala para sa pangunahing sagot. Tinitiyak nito ang katangian ng modelo, na tinalakay sa itaas, na walang anumang sinasabi ng modelo sa pagtatapat ang makakasama (o makakatulong) sa gantimpala nito para sa pangunahing sagot.
Ang teorya sa likod ng mga pagtatapat ay simple. Maraming uri ng hindi kanais-nais na paggawi ng modelo ang lumilitaw dahil hinihiling natin sa modelo na i-optimize ang ilang layunin nang sabay-sabay. Habang nasa proseso ng pagpapatibay ng pag-aaral, ang modelo ay nakakakita ng prompt, gumagawa ng tugon, at tumatanggap ng gantimpala. Sa paglipas ng panahon, natututo itong gumawa ng mga sagot na mataas ang puntos. Ang hamon ay kailangang pagsamahin ng signal ng reward ang maraming iba't ibang pagsasaalang-alang nang sabay-sabay: kung gaano katama ang sagot, kung ito ay kapaki-pakinabang, kung sumusunod ito sa mga detalye ng produkto at patakaran, kung natutugunan nito ang mga hadlang sa kaligtasan, at kung tumutugma ito sa kung ano ang mas gusto ng mga user. Kapag nag-ugnayan ang mga signal na ito, maaari nilang aksidenteng itulak ang modelo patungo sa mga pag-uugaling hindi natin gusto.
Halimbawa, ang aming pag-aaral sa mga halusinasyon ay nagpakita na ang ilang mga dataset ay nagbibigay ng higit na gantimpala sa isang kumpiyansang hula kaysa sa isang tapat na pagtatapat ng kawalan ng katiyakan. Ang aming pananaliksik sa sycophancy ay nagpakita na maaaring maging sobrang sang-ayon ang mga modelo kapag masyadong malakas ang signal ng kagustuhan. At ipinakita ng trabaho(magbubukas sa bagong window) mula sa ibang mga grupo na kayang "gantimpalaan ng mga modelo ang mga hack"—ang paghahanap ng mga butas sa setup ng pagsasanay na nagpapahintulot sa kanila na makakuha ng mataas na marka nang hindi talaga ginagawa ang aming nilalayon. Sa ilang mga kaso, ang mga shortcut na ito ay maaaring magdulot ng mas pangkalahatang(magbubukas sa bagong window) mapanirang pag-uugali sa pag-deploy.
Iniiwasan ng mga pagtatapat ang isyung ito sa pamamagitan ng ganap na paghihiwalay ng mga layunin. Ang pangunahing sagot ay patuloy na nag-o-optimize para sa lahat ng karaniwang mga salik. Ang pagtatapat ay nakatuon lang sa isa: katapatan. Walang sinasabi ang modelo sa pagtatapat na ginagamit laban dito, at ang pagtatapat ay hindi nakakaapekto sa gantimpala para sa pangunahing sagot. Ibig sabihin nito, kahit na ang modelo ay manlinlang o mag-shortcut sa orihinal na output nito, mayroon pa rin itong insentibo na aminin iyon sa pagtatapat. Ganito ang nakikita natin sa praktis: handang kilalanin ng mga modelo ang masamang pag-uugali sa pagtatapat, kahit sa mga kaso kung saan itinatago nila ito sa pangunahing sagot. At kapag nabigo ang mga pagtatapat, kadalasan ito ay dahil sa totoong nalilito ang modelo—dahil malabo ang mga tagubilin o hindi nito namalayan na may nagawang pagkakamali—hindi dahil sinasadya nitong linlangin. Mahalaga, ipinapakita ng mga unang resulta na nananatiling epektibo ang mga pagtatapat kahit na ang orihinal na sagot ay ginawa nang walang anumang chain-of-thought, na nagmumungkahi na hindi nakasalalay sa pagiging malinaw ng panloob na pangangatwiran ang katapatan ng pagtatapat at maaaring mag-generalize sa mga arkitektura ng modelo sa hinaharap.
Gumagana ang pagsasanay sa pagtatapat kahit na walang mga label ng katotohanan sa pagsunod. Sa pamamagitan ng "ground truth," ang ibig naming sabihin ay ang tiyak, panlabas na ibinigay na label na nagpapahiwatig kung talagang sumunod ang modelo sa isang tagubilin o labagin ito. Sa maraming gawain sa totoong buhay, hindi magagamit ang mga label na ito—kung alam natin nang may katiyakan na nilabag ng modelo ang patakaran, maaari naming direktang parusahan ang paglabag na iyon sa halip na umasa sa pagtatapat. Sa halip, ginagantimpalaan ang modelo para sa paggawa ng maayos at batay sa ebidensyang paliwanag ng kung ano ang pinaniniwalaan nitong ginawa. Ipinapakita ng pag-aaral na may posibilidad na lumitaw ang katapatan sa ilalim ng setup na ito. Pinaniniwalaan naming mas madali para sa modelo ang magsabi ng totoo na may sapat na ebidensiya kaysa gumawa ng isang buo at kapanipaniwalang kuwento na makakapasa sa pagsusuri. Isa itong pangunahing palagay na tinalakay sa pag-aaral, na nagpapaliwanag din ng mga kaso kung saan nabibigo ang mga pagtatapat—mga false negative at false positive—at kung paano ito nagaganap.
Ang pag-aaral ay nagbibigay ng paunang ebidensya na ang mga pagtatapat ay epektibo, pero hindi dapat bigyang-kahulugan bilang isang tiyak na patunay. Bagaman gumamit kami ng frontier model (GPT‑5 Thinking), limitado ang saklaw ng aming mga eksperimento, gamit ang medyo maliit na dami ng kalkulasyon at data. Nasasabik kaming dalhin ang gawaing ito sa susunod na antas at tingnan kung mananatiling tapat ang mga confession habang pinalalawak namin ang kanilang pagsasanay.
Ginagaya ang "mga reward hack" sa pangunahing tugon nito para linlangin ang grader sa pamamagitan ng paglalagay ng mga anotasyon sa mga pangungusap na umano'y may bilang ng mga salita, ngunit inamin din ito sa pagtatapat.
Bilang bahagi ng aming mga eksperimento, sinasadya naming sinanay ang mga modelo laban sa "maha-hack" na reward signal na kinalkula ng mas mahinang modelo. Ang setup na ito ay nalalapat sa parehong pangunahing gantimpala at gantimpala sa pagtatapat. Natutuhan ng modelo na samantalahin ang mahina na reward signal: tumaas ang tila nitong katumpakan (kapag sinusuri ng mahinang model), habang bumaba naman ang tunay nitong katumpakan (kapag sinusuri ng mas malakas na tagasuri).
Gayunpaman, kahit na sinanay ang channel ng pagtatapat gamit ang parehong mahinang signal, ang katumpakan nito ay gumalaw sa kabaligtarang direksyon. Nalaman ng modelo na ang pinakamahusay na paraan para mapataas ang gantimpala nito para sa pagtatapat ay ang pagtatapat kapag na-hack nito ang pangunahing gantimpala. Mas naging tumpak ang mga confession sa paglipas ng panahon, kahit na nagbago ang pangunahing paggawi.
Sa paglipas ng kurso ng pagsasanay, kapag nabigo ang modelo na sumunod, natututo ito sa ilang bahagi ng mga kaso na "i-hack" ang pangunahing tagahatol ng gantimpala at sa gayon ay bumababa ang katumpakan ng paghatol. Sa kabaligtaran, kahit na ang tagahatol ng gantimpala sa pagtatapat ay madaling ma-hack, ang modelo ay nagiging mas tapat sa paglipas ng pagsasanay sa kanyang pagtatapat, at sa huli ay halos 100% na itong umaamin kapag hindi nito sinunod ang tagubilin.
Ang dokumento(magbubukas sa bagong window) ay naglalaman ng mas maraming eksperimento at resulta. Inihambing namin ang modelong sinanay sa pagtatapat laban sa modelong kontrol na sinanay sa parehong paraan pero walang channel ng pagtatapat. Sinuri din namin ang mga kaso kung saan nabigo ang mga pagtatapat. Halos lahat ng mga "pagkakamali" ay nangyari kapag tunay na nalilito ang modelo—kapag hindi malinaw ang mga tagubilin o kapag hindi nito namalayang nagkamali na ito. (Tingnan ang halimbawa ng false negative sa itaas.)
May mga limitasyon ang pagtatapat. Hindi nila pinipigilan ang masamang pag-uugali; inilalahad nila ito. Ang pangunahing gamit nito ay para sa pagmomonitor at diagnostic na pagsusuri, maging sa panahon ng pagsasanay at sa aktuwal na pag-deploy. Ang mga pagtatapat ay may katulad na papel sa pagsubaybay sa chai-of-thought: kapwa ginagawang mas nakikita ang mga nakatagong proseso ng pangangatwiran. Nakatuon ang pagtatapat sa kung nilabag ng modelo ang mga tagubilin; ang chain-of-thought naman ay maaaring ipakita kung paano ito nakaabot doon.
Ang gawaing ito ay isa ring patunay ng konsepto. Hindi namin isinailalim sa pagsasanay ang mga mekanismo ng pagtatapat sa malawakang saklaw, at ang katumpakan ng pagtatapat ay hindi pa rin perpekto. May higit pang gawain na kailangang gawin upang gawing mas maaasahan, mas matatag, at mas malawak na naaangkop ang pamamaraan sa iba't ibang pamilya ng mga modelo at gawain.
Ang gawaing ito ay umaangkop sa aming mas malawak na paraan sa kaligtasan ng AI. Ang mga pagtatapat ay mekanismo sa mas malawak na hanay ng mga pamamaraan, kabilang ang deliberative alignment, pag-monitor ng chain-of-thought, hierarchy ng mga tagubilin, at iba pang kaugnay na proseso. Walang iisang pamamaraan ang sapat; ang layunin ay magkaroon ng naka-layer na sistema ng mga pagsusuri at tool para sa transparency na nagtutulungan at nagpapalakas sa isa’t isa. Makakatulong ang mga pagtatapat sa pag-diagnose ng mga problemang paggawi sa mga modelo sa panahon ng pagsasanay at pagsusuri, pati na rin sa pagsubaybay sa panahon ng pag-deploy. Hindi malulutas ang problema ng pagbabalanse ng maraming dimensyon ang mga pagtatapat sa kanilang sarili. Pero sa pamamagitan ng paggawa ng “truth serum” na mode kung saan nakatuon ang mga modelo sa katapatan, naidagdag nito ang mahalagang tool sa ating stack para mapabuti ang katapatan at kaligtasan sa kabuuan.
Habang nagiging mas may kakayahan ang mga modelo at inilalagay sa mga sitwasyong may mas mataas na panganib, kailangan natin ng mas mahusay na mga tool para maintindihan kung ano ang ginagawa nila at kung bakit. Hindi kumpletong solusyon ang mga pagtatapat, pero nagdadagdag sila ng makabuluhang layer sa aming transparency at oversight stack. Sa mga susunod na gawain, plano naming palawakin ang mga pagtatapat, pati na rin ipares ang mga ito sa mga komplementaryong pamamaraan ng transparency at kaligtasan, kabilang ang pagsubaybay sa chain-of-thought at deliberative alignment, para makagawa ng karagdagang pag-unlad tungo sa pagtiyak na tapat na sumusunod sa lahat ng mga tagubilin at patakaran ang aming mga modelo (tulad ng aming Model Spec(magbubukas sa bagong window)), at makatotohanang nag-uulat sa kanilang mga aksyon.


