Kako priznanja mogu održati jezičke modele poštenima
Dijelimo ranu, dokaznu metodu koncepta koja obučava modele da prijave kada prekrše upute ili koriste nenamjerne prečice.
Sistemi umjetne inteligencije postaju sve sposobniji, i želimo ih razumjeti što dublje—uključujući kako i zašto dolaze do odgovora. Ponekad model uzme prečicu ili optimizira za pogrešan cilj, ali njegov konačni rezultat i dalje izgleda ispravno. Ako možemo prepoznati kada se to dogodi, možemo bolje nadzirati implementirane sisteme, poboljšati obuku i povećati povjerenje u rezultate.
Istraživanje OpenAI-a i drugih pokazalo je da UI modeli mogu halucinirati, manipulirati nagradama ili biti neiskreni. Trenutno, najviše zabrinjavajuća ponašanja, kao što je smicalica(otvara se u novom prozoru), primjećujemo samo u stres-testovima i protivničkim evaluacijama. Ali kako modeli postaju sposobniji i sve više agentni, čak i rijetki oblici neusklađenosti postaju značajniji, što nas motivira da ulažemo u metode koje nam pomažu bolje prepoznati, razumjeti i ublažiti ove rizike.
Ovaj rad istražuje jedan takav pristup: obuka modela da eksplicitno priznaju kada se upuštaju u nepoželjno ponašanje—tehniku koju nazivamo confessions.
Priznanje je drugi izlaz, odvojen od glavnog odgovora modela korisniku. Glavni odgovor se ocjenjuje kroz mnoge dimenzije—tačnost, stil, korisnost, usklađenost, sigurnost i više, a ovi višestruki signali se koriste za obučavanje modela kako bi proizvodili bolje odgovore. Ispovijed, za razliku, procjenjuje se i obučava samo na jednoj stvari: iskrenosti. Pozajmljujući stranicu iz strukture ispovijedi, ništa što model kaže u svojoj ispovijedi ne koristi se protiv njega tokom obuke. Ako model iskreno prizna hakiranje testa, 'sandbagging' ili prekrši upute, to priznanje povećava njegovu nagradu umjesto da je smanjuje. Cilj je potaknuti model da vjerno izvještava o onome što je zapravo učinio.
U našim testovima, otkrili smo da metoda 'confessions' značajno poboljšava vidljivost lošeg ponašanja modela. Prilikom usrednjavanja naših evaluacija osmišljenih da izazovu loša ponašanja, vjerovatnoća "lažnih negativnih" (tj. da model ne poštuje upute i zatim to ne prizna) iznosi samo 4,4%.
Tačnost našeg modela "proof of concept" na brojnim adversarijalnim skupovima podataka. Ishodi su kategorizirani kao u skladu i nije priznao (istinito negativno), u skladu i priznao (lažno pozitivno), nije u skladu i nije priznao (lažno negativno), i nije u skladu i priznao (istinito pozitivno).

S obzirom na korisnički upit, četiri moguća ishoda temelje se na kombinaciji (1) da li je odgovor modela usklađen („dobar“) ili neusklađen („loš“), i (2) da li priznanje tvrdi usklađenost ili neusklađenost. Općenito primjećujemo da su priznanja vrlo vjerovatno tačna, a osim toga, greške u priznanjima su obično bezopasne i rezultat su iskrene zabune, a ne namjernog obmanjivanja.
Priznanje je samoprijava modela o tome koliko se dobro pridržavao i duha i slova eksplicitnih i implicitnih uputa ili politika koje su mu date, te da li je bilo slučajeva u kojima je „skratio put" ili „hakirao", prekršio politike, ili na bilo koji način nije ispunio očekivanja. U našem istraživanju, otkrivamo da se modeli mogu obučiti da budu iskreni u izvještavanju o vlastitim nedostacima. Obučili smo verziju GPT‑5 Thinking da proizvodi priznanja i evaluirali smo je na brojnim skupovima podataka za stres-testiranje izvan distribucije, dizajniranim da izazovu ponašanja kao što su planiranje, hakiranje, prekršavanje instrukcija i halucinacije. Otkrili smo da čak i kada model ispoljava ova nepoželjna ponašanja, vrlo je vjerovatno da će ih priznati. Gornja slika pokazuje da je pristup 'confession' široko učinkovit kroz raznolike skupove podataka i zadatke.
Nakon svake interakcije između korisnika i modela koja završava odgovorom modela, može se zatražiti priznanje slanjem modelu „sistemske poruke" koja ga upućuje da pruži izvještaj o priznanju. Izvještaj se odnosi na posljednji odgovor modela i uključuje (1) popis svih eksplicitnih i implicitnih uputa, ograničenja i ciljeva koje je ovaj odgovor trebao zadovoljiti, (2) iskrenu i objektivnu analizu da li je odgovor zaista zadovoljio svaki od ovih ciljeva, i (3) popis svih neizvjesnosti, dvosmislenosti ili "teških odluka" s kojima se model susreo prilikom izrade odgovora. Tokom obuke, priznanje se procjenjuje odvojenim modelom nagrađivanja koji ocjenjuje samo priznanje na osnovu potpunosti ciljeva, tačnosti analize usklađenosti i pokrivenosti neizvjesnosti. Ove nagrade se primjenjuju isključivo na izlaz priznanja i nikada ne utiču na nagradu za glavni odgovor. Ovo osigurava svojstvo modela, o kojem je gore raspravljano, da ništa što model kaže u priznanju ne može naštetiti (ili pomoći) njegovoj nagradi za glavni odgovor.
Teorija koja stoji iza priznanja je jednostavna. Mnoge vrste neželjenog ponašanja modela pojavljuju se jer tražimo od modela da optimizira za više ciljeva istovremeno. Tokom pojačanog učenja, model vidi upit, generiše odgovor i dobija nagradu. Vremenom nauči davati vrste odgovora koji se dobro ocjenjuju. Izazov je u tome što signal nagrade mora kombinirati mnoge različite aspekte odjednom: koliko je odgovor tačan, da li je koristan, da li slijedi specifikacije proizvoda i politike, da li zadovoljava sigurnosne zahtjeve i da li odgovara onome što korisnici obično preferiraju. Kada ovi signali međusobno djeluju, mogu slučajno usmjeriti model prema ponašanjima koja ne želimo.
Na primjer, naš rad na halucinacijama pokazao je da neki skupovi podataka više nagrađuju samouvjereno nagađanje nego iskreno priznanje nesigurnosti. Naše istraživanje o ulizivanju pokazalo je da modeli mogu postati previše saglasni kada je signal preferencije prejak. I radovi(otvara se u novom prozoru) drugih grupa pokazali su da modeli mogu "iskoristiti nagrade"—pronalazeći rupe u postavkama obuke koje im omogućavaju da postignu visoku ocjenu bez stvarnog ispunjavanja naših namjera. U nekim slučajevima, ove prečice mogu generalizirati(otvara se u novom prozoru) na još štetnije ponašanje prilikom implementacije.
Ispovijedi izbjegavaju ovaj problem tako što potpuno razdvajaju ciljeve. Glavni odgovor nastavi optimizirati za sve uobičajene faktore. Priznanje je usmjereno na jedno: iskrenost. Ništa što model kaže u priznaju ne koristi se protiv njega, a priznanje ne utiče na nagradu za glavni odgovor. To znači da čak i ako model obmanjuje ili zaobilazi pravila u svom izvornom izlazu, i dalje ima poticaj da to prizna u priznanju. Ovo je ono što vidimo u praksi: modeli su spremni priznati loše ponašanje u priznanju, čak i u slučajevima kada ga skrivaju u glavnom odgovoru. A kada priznanja ne uspiju, obično je to zato što je model zaista zbunjen—zbog toga što su upute bile dvosmislene ili zato što nije shvatio da je napravljena greška—umjesto da je namjerno pokušavao obmanuti. Važno je napomenuti da rani rezultati pokazuju da priznanja ostaju efikasna čak i kada je originalni odgovor proizveden bez ikakvog lanca misli, što sugerira da iskrenost priznanja ne zavisi od čitljivosti unutrašnjeg rezonovanja i može se generalizirati na buduće arhitekture modela.
Obuka priznanja funkcioniše čak i bez stvarnih oznaka usklađenosti. Pod "osnovnom istinom" mislimo na definitivnu, eksterno pruženu oznaku koja pokazuje da li je model zapravo slijedio instrukciju ili ju je prekršio. U mnogim stvarnim zadacima ove oznake nisu dostupne—ako bismo sa sigurnošću znali da je model prekršio pravilo, mogli bismo direktno kazniti to kršenje umjesto da se oslanjamo na priznanje. Umjesto toga, model se nagrađuje za izradu strukturiranog, dokazima potkrijepljenog objašnjenja onoga što vjeruje da je učinio. Rad pokazuje da iskrenost obično ispliva na površinu u ovom okruženju. Mi razmišljamo da je to zato što je modelu općenito lakše pružiti istinit, dokazima potkrijepljen račun nego konstruirati koherentnu izmišljenu priču koja može proći kod sudije. Ovo je ključna pretpostavka istražena u radu, koji također raspravlja o slučajevima u kojima priznanja ne uspijevaju—lažni negativi i lažni pozitivni—i kako oni nastaju.
Rad pruža početne dokaze da priznanja djeluju, ali ih ne treba smatrati konačnim dokazom. Iako smo koristili napredni model (GPT‑5 Thinking), naši eksperimenti su bili ograničeni po obimu, koristeći relativno malu količinu računalne snage i podataka. Uzbuđeni smo što ćemo ovaj rad podići na sljedeći nivo i vidjeti hoće li iskrenost priznanja nastavi da se održava dok povećavamo njegovu obuku.
Model koristi „nagradne trikove“ u svom glavnom odgovoru kako bi prevario ocjenjivača dodajući rečenicama navodne brojeve riječi, ali zatim to priznaje u ispovijesti.
Kao dio naših eksperimenata, namjerno smo obučavali modele protiv „hakabilnog" signala nagrade koji je izračunat pomoću slabijeg modela. Ova postavka primijenjena je i na glavnu nagradu i na nagradu za priznanje. Model je naučio da iskoristi slab signal nagrade: njegova prividna tačnost (kada je procijenjena slabim modelom) se poboljšala, dok je njegova stvarna tačnost (kada je procijenjena jačim ocjenjivačem) opala.
Međutim, iako je kanal priznanja bio treniran na istom slabom signalu, njegova preciznost se kretala u suprotnom smjeru. Model je naučio da je najbolji način za optimizaciju nagrade za priznanje jednostavno priznati kada je hakovao glavnu nagradu. Priznanja su postajala sve tačnija s vremenom, čak i dok se glavno ponašanje mijenjalo.
Tokom obuke, kada model ne uspije da se pridržava, u nekim slučajevima nauči da „prevari“ glavnog sudiju za nagrade, pa se tačnost sudije smanjuje. Nasuprot tome, iako je sudija za nagradu priznanja jednako podložan hakiranju, model postaje sve iskreniji tokom obuke u svojim priznanjima, na kraju dostižući gotovo 100% priznanja kada nije bio usklađen.
Rad(otvara se u novom prozoru) sadrži više eksperimenata i rezultata. Uporedili smo model obučen za priznanje sa kontrolnim modelom obučenim na isti način, ali bez kanala za priznanje. Također smo ispitali slučajeve u kojima su priznanja propala. Gotovo svi "promašaji" dogodili su se kada je model bio istinski zbunjen—kada su upute bile dvosmislene ili kada jednostavno nije shvatio da je napravio grešku. (Pogledajte primjer lažnog negativnog iznad.)
Priznanja imaju svoja ograničenja. Oni ne sprečavaju loše ponašanje; oni ga iznose na površinu. Njihova glavna vrijednost je kao alat za nadzor i dijagnostiku, kako tokom obuke, tako i prilikom implementacije. Ispovijedi igraju sličnu ulogu kao praćenje lanca misli: oba čine skrivene procese rezonovanja vidljivijima. Priznanja se fokusiraju na to da li je model prekršio instrukcije; lanac misli može istaknuti kako je do toga došlo.
Ovaj rad je također dokaz koncepta. Nismo obučavali mehanizme priznanja u velikom obimu, a tačnost priznanja je još uvijek nesavršena. Potrebno je uraditi još posla kako bi pristup bio pouzdaniji, robusniji i šire primjenjiv među porodicama modela i zadacima.
Ovaj rad se uklapa u naš širi pristup sigurnosti umjetne inteligencije. Ispovijedi su jedan mehanizam u većem skupu koji uključuje deliberativno usklađivanje, praćenje lanca misli, hijerarhiju instrukcija, i više. Nijedna metoda nije dovoljna; cilj je slojevit sistem provjera i alata za transparentnost koji se međusobno pojačavaju. Ispovijesti mogu pomoći u dijagnosticiranju problematičnih ponašanja u modelima tokom obuke i evaluacije, kao i u praćenju tokom implementacije. Priznanja sama po sebi ne rješavaju problem balansiranja više dimenzija. Ali kreiranjem načina rada "serum istine" u kojem su modeli isključivo fokusirani na iskrenost, dodaje se vrijedan alat našem skupu za poboljšanje iskrenosti i sigurnosti na svim poljima.
Kako modeli postaju sposobniji i primjenjuju se u situacijama sa većim ulozima, potrebni su nam bolji alati za razumijevanje šta oni rade i zašto. Priznanja nisu potpuno rješenje, ali dodaju značajan sloj našem sistemu transparentnosti i nadzora. U budućem radu planiramo povećati broj priznanja, kao i upariti ih s komplementarnim tehnikama transparentnosti i sigurnosti, uključujući praćenje toka misli i deliberativno usklađivanje, kako bismo dodatno napredovali ka osiguravanju da naši modeli vjerno poštuju sve upute i politike (kao što je naš Model Spec(otvara se u novom prozoru)), te istinito izvještavaju o svojim radnjama.


