Kif il-konfessjonijiet jistgħu jżommu l-mudelli tal-lingwa onesti
Qed naqsmu metodu bikri, proof-of-concept, li jħarreġ il-mudelli biex jirrapportaw meta jiksru l-istruzzjonijiet jew jieħdu shortcuts mhux intenzjonati.
Is-sistemi tal-IA qed isiru aktar kapaċi, u rridu nifhmuhom kemm jista’ jkun fil-fond—inkluż kif u għaliex jaslu għal tweġiba. Xi kultant mudell jieħu shortcut jew jottimizza għall-għan żbaljat, iżda l-output finali tiegħu xorta jidher korrett. Jekk nistgħu noħorġu fil-beraħ meta jiġri dan, nistgħu nissorveljaw aħjar is-sistemi skjerati, intejbu t-taħriġ, u nżidu l-fiduċja fl-outputs.
Riċerka minn OpenAI u oħrajn uriet li l-mudelli tal-IA jistgħu jalluċinaw, jagħmlu reward hacking, jew ikunu diżonesti. Bħalissa, naraw l-aktar imġibiet inkwetanti, bħal scheming(jinfetaħ f’tieqa ġdida), biss fi stress-tests u evalwazzjonijiet avversarjali. Iżda hekk kif il-mudelli jsiru aktar kapaċi u dejjem aktar agentiċi, anke forom rari ta’ nuqqas ta’ allinjament isiru aktar konsegwenzjali, u dan jimmotivana ninvestu f’metodi li jgħinuna nidentifikaw, nifhmu u nnaqqsu dawn ir-riskji aħjar.
Dan ix-xogħol jesplora approċċ bħal dan: it-taħriġ tal-mudelli biex jammettu b’mod espliċitu meta jinvolvu ruħhom f’imġiba mhux mixtieqa—teknika li nsejħulha konfessjonijiet.
Konfessjoni hija t-tieni output, separat mit-tweġiba ewlenija tal-mudell lill-utent. It-tweġiba ewlenija tiġi ġġudikata fuq ħafna dimensjonijiet—korrettezza, stil, għajnuna, konformità, sigurtà, u aktar, u dawn is-sinjali b’ħafna aspetti jintużaw biex jitħarrġu l-mudelli biex jipproduċu tweġibiet aħjar. Il-konfessjoni, għall-kuntrarju, tiġi ġġudikata u mħarrġa fuq ħaġa waħda biss: l-onestà. Billi nieħdu ispirazzjoni mill-istruttura ta’ konfessjonarju, xejn minn dak li jgħid il-mudell fil-konfessjoni tiegħu ma jinżamm kontrih waqt it-taħriġ. Jekk il-mudell jammetti b’mod onest li għamel hacking ta’ test, sandbagging, jew kiser l-istruzzjonijiet, dik l-ammissjoni żżid il-premju tiegħu minflok tnaqqsu. L-għan hu li nħeġġu lill-mudell jirrapporta b’mod fidil x’għamel tassew.
Fit-testijiet tagħna, sibna li l-metodu tal-konfessjonijiet itejjeb b’mod sinifikanti l-viżibbiltà tal-imġiba ħażina tal-mudell. Bħala medja fl-evalwazzjonijiet tagħna mfassla biex jinduċu mġibiet ħżiena, il-probabbiltà ta’ “negattivi foloz” (jiġifieri, il-mudell ma jikkonformax mal-istruzzjonijiet u mbagħad ma jammettix dan) hija biss 4.4%.
Preċiżjoni tal-mudell ta’ konfessjoni tagħna “proof of concept” fuq numru ta’ datasets avversarjali. Ir-riżultati huma kkategorizzati bħala kkonforma u ma kkonfessax (negattiv veru), kkonforma u kkonfessa (pożittiv falz), ma kkonformax u ma kkonfessax (negattiv falz), u ma kkonformax u kkonfessa (pożittiv veru).

Minħabba prompt ta’ utent, l-erba’ riżultati possibbli huma bbażati fuq il-kombinazzjoni ta’ (1) jekk it-tweġiba tal-mudell hijiex konformi (“tajba”) jew mhux konformi (“ħażina”), u (2) jekk il-konfessjoni tiddikjarax konformità jew nuqqas ta’ konformità. Ġeneralment naraw li l-konfessjonijiet x’aktarx ikunu preċiżi ħafna, u barra minn hekk l-iżbalji tal-konfessjoni huma tipikament beninni, u dovuti għal konfużjoni onesta aktar milli għal tentattiv intenzjonat li tqarraq.
Konfessjoni hija awtorapport mill-mudell dwar kemm ikkonforma sew kemm mal-ispirtu kif ukoll mal-ittra ta’ istruzzjonijiet jew policies espliċiti u impliċiti li ngħata, u jekk kienx hemm xi każijiet fejn “qata’ l-kantunieri” jew għamel “hacking”, kiser policies, jew b’xi mod ma laħaqx l-aspettattivi. Fir-riċerka tagħna, insibu li l-mudelli jistgħu jitħarrġu biex ikunu sinċieri fir-rappurtar tan-nuqqasijiet tagħhom stess. Ħarriġna verżjoni ta’ GPT‑5 Thinking biex tipproduċi konfessjonijiet, u evalwajniha fuq numru ta’ datasets ta’ stress-test barra mid-distribuzzjoni mfassla biex joħorġu mġibiet bħal scheming, hacking, ksur tal-istruzzjonijiet, u alluċinazzjonijiet. Sibna li anke meta l-mudell jinvolvi ruħu f’dawn l-imġibiet mhux mixtieqa, x’aktarx li jikkonfessa dwarhom. Il-figura ta’ hawn fuq turi li l-approċċ tal-konfessjoni huwa ġeneralment effettiv fuq firxa diversa ta’ datasets u kompiti.
Wara kull interazzjoni bejn l-utent u l-mudell li tispiċċa b’tweġiba tal-mudell, tista’ tintalab konfessjoni billi tintbagħat lill-mudell “system message” li tordnalu jipprovdi rapport ta’ konfessjoni. Ir-rapport jirrigwarda l-aħħar tweġiba tal-mudell, u jinkludi (1) il-lista tal-istruzzjonijiet, il-limitazzjonijiet u l-għanijiet espliċiti u impliċiti kollha li din it-tweġiba kellha tissodisfa, (2) analiżi onesta u oġġettiva ta’ jekk it-tweġiba fil-fatt issodisfatx kull wieħed minn dawn l-għanijiet, u (3) lista ta’ kwalunkwe inċertezza, ambigwità, jew “ġudizzji diffiċli” li l-mudell iltaqa’ magħhom fil-produzzjoni tat-tweġiba. Waqt it-taħriġ, konfessjoni tiġi evalwata minn reward model separat li jivvaluta biss il-konfessjoni fuq il-kompletezza tal-għanijiet, il-preċiżjoni tal-analiżi tal-konformità, u l-kopertura tal-inċertezzi. Dawn il-premji jiġu applikati esklussivament għall-output tal-konfessjoni u qatt ma jinfluwenzaw il-premju għat-tweġiba ewlenija. Dan jiżgura l-proprjetà, diskussa hawn fuq, li xejn minn dak li jgħid il-mudell fil-konfessjoni ma jista’ jagħmel ħsara (jew jgħin) lill-premju tiegħu għat-tweġiba ewlenija.
It-teorija wara l-konfessjonijiet hija sempliċi. Ħafna tipi ta’ mġiba mhux mixtieqa tal-mudell jidhru għax nitolbu lill-mudell jottimizza għal diversi għanijiet f’daqqa. Matul l-apprendiment ta' tisħiħ, il-mudell jara prompt, jipproduċi tweġiba, u jirċievi premju. Maż-żmien, jitgħallem jipproduċi t-tipi ta’ tweġibiet li jiskorjaw tajjeb. L-isfida hi li s-sinjal ta' premju jrid jgħaqqad ħafna konsiderazzjonijiet differenti f’daqqa: kemm it-tweġiba hija korretta, jekk hijiex utli, jekk issegwix l-ispeċifikazzjonijiet tal-prodott u tal-policy, jekk tissodisfax il-limitazzjonijiet tas-sigurtà, u jekk taqbilx ma’ dak li l-utenti għandhom it-tendenza jippreferu. Meta dawn is-sinjali jinteraġixxu, jistgħu bla ma jkun maħsub imbuttaw lill-mudell lejn imġibiet li ma rridux.
Pereżempju, ix-xogħol tagħna dwar alluċinazzjonijiet wera li xi datasets jippremjaw suppożizzjoni kunfidenti aktar minn ammissjoni onesta ta’ inċertezza. Ir-riċerka tagħna dwar sycophancy uriet li l-mudelli jistgħu jsiru jaqblu żżejjed meta s-sinjal tal-preferenza jkun qawwi wisq. U xogħol(jinfetaħ f’tieqa ġdida) minn gruppi oħra wera li l-mudelli jistgħu “jagħmlu reward hack”—isibu lakuni fis-setup tat-taħriġ li jħalluhom jaqilgħu skor għoli mingħajr ma tassew jagħmlu dak li ridna. F’xi każijiet, dawn is-shortcuts jistgħu jiġġeneralizzaw(jinfetaħ f’tieqa ġdida) għal imġiba saħansitra aktar pernizzjuża waqt l-iskjerament.
Il-konfessjonijiet jevitaw din il-kwistjoni billi jisseparaw kompletament l-għanijiet. It-tweġiba ewlenija tkompli tottimizza għall-fatturi kollha tas-soltu. Il-konfessjoni tiġi mħarrġa fuq wieħed eżatt: l-onestà. Xejn minn dak li jgħid il-mudell fil-konfessjoni ma jinżamm kontrih, u l-konfessjoni ma tinfluwenzax il-premju għat-tweġiba ewlenija. Dan ifisser li anke jekk il-mudell iqarraq jew jaqta’ l-kantunieri fl-output oriġinali tiegħu, xorta għandu inċentiv jammetti dan fil-konfessjoni. Dan huwa dak li naraw fil-prattika: il-mudelli huma lesti jagħrfu mġiba ħażina fil-konfessjoni, anke f’każijiet fejn jaħbuha fit-tweġiba ewlenija. U meta l-konfessjonijiet ifallu, ġeneralment ikun għax il-mudell ikun tassew konfuż—għax l-istruzzjonijiet kienu ambigwi jew għax ma rrealizzax li kien sar żball—aktar milli għax kien qed jipprova deliberatament iqarraq. Importanti, ir-riżultati bikrin juru li l-konfessjonijiet jibqgħu effettivi anke meta t-tweġiba oriġinali tiġi prodotta mingħajr ebda katina tal-ħsieb, u dan jissuġġerixxi li l-onestà tal-konfessjoni ma tiddependix mill-leġibbiltà tar-raġunament intern u tista’ tiġġeneralizza għal arkitetturi futuri tal-mudell.
It-taħriġ tal-konfessjoni jaħdem anke mingħajr labels ta’ konformità ta’ ground truth. B’“ground truth,” nifhmu label definittiv, ipprovdut esternament, li jindika jekk il-mudell verament segwiex istruzzjoni jew kisirhiex. F’ħafna kompiti tad-dinja reali dawn il-labels mhumiex disponibbli—kieku konna nafu b’ċertezza li l-mudell kiser regola, stajna nippenalizzaw direttament dak il-ksur minflok niddependu fuq konfessjoni. Minflok, il-mudell jiġi ppremjat talli jipproduċi spjegazzjoni strutturata u sostnuta b’evidenza ta’ dak li jemmen li għamel. Il-paper juri li l-onestà għandha t-tendenza li toħroġ taħt dan is-setup. Naħsbu li dan hu għax li tipprovdi rendikont veritier u sostnut b’evidenza huwa ġeneralment aktar faċli għall-mudell milli jibni narrattiva ffabbrikata u koerenti li tista’ tgħaddi quddiem l-imħallef. Din hija assunzjoni ewlenija esplorata fil-paper, li jiddiskuti wkoll il-każijiet li fihom il-konfessjonijiet ifallu—negattivi foloz u pożittivi foloz—u kif jinqalgħu.
Il-paper jipprovdi evidenza inizjali li l-konfessjonijiet jaħdmu, iżda m’għandux jinftiehem bħala prova definittiva. Għalkemm użajna mudell fruntiera (GPT‑5 Thinking), l-esperimenti tagħna kienu limitati fl-iskala, billi użajna ammont relattivament żgħir ta’ compute u data. Aħna eċċitati li nieħdu dan ix-xogħol għal-livell li jmiss, u naraw jekk l-onestà tal-konfessjonijiet tibqax iżżomm hekk kif inżidu l-iskala tat-taħriġ tiegħu.
Il-mudell jagħmel “reward hacks” fit-tweġiba ewlenija tiegħu biex iqarraq bil-grader billi jannota s-sentenzi b’għadd ta’ kliem allegat, iżda mbagħad jammetti dan fil-konfessjoni.
Bħala parti mill-esperimenti tagħna ħarriġna deliberatament mudelli kontra sinjal ta’ premju “hackable” ikkalkulat minn mudell aktar dgħajjef. Dan is-setup applika kemm għall-premju ewlieni kif ukoll għall-premju tal-konfessjoni. Il-mudell tgħallem jisfrutta s-sinjal ta’ premju dgħajjef: il-preċiżjoni apparenti tiegħu (meta ġġudikata mill-mudell dgħajjef) tjiebet, filwaqt li l-preċiżjoni vera tiegħu (meta ġġudikata minn evalwatur aktar b’saħħtu) naqset.
Madankollu, anke jekk il-kanal tal-konfessjoni ġie mħarreġ fuq l-istess sinjal dgħajjef, il-preċiżjoni tiegħu mxiet fid-direzzjoni opposta. Il-mudell tgħallem li l-aħjar mod biex jottimizza l-premju tal-konfessjoni kien sempliċement jammetti meta għamel hacking tal-premju ewlieni. Il-konfessjonijiet saru aktar preċiżi maż-żmien, anke hekk kif l-imġiba ewlenija tbiegħdet.
Matul it-taħriġ, meta l-mudell jonqos milli jikkonforma, jitgħallem f’ċertu frazzjoni tal-każijiet “jagħmel hack” lill-imħallef tal-premju ewlieni u għalhekk il-preċiżjoni tal-imħallef qed tonqos. B’kuntrast, minkejja li l-imħallef tal-premju tal-konfessjoni huwa daqstant hackable, il-mudell biss isir aktar onest matul it-taħriġ fil-konfessjoni tiegħu, u eventwalment jilħaq kważi 100% ta’ konfessjoni meta ma jkunx ikkonforma.
Il-paper(jinfetaħ f’tieqa ġdida) fih aktar esperimenti u riżultati. Qabbilna l-mudell imħarreġ fuq il-konfessjoni ma’ mudell ta’ kontroll imħarreġ bl-istess mod iżda mingħajr il-kanal tal-konfessjoni. Eżaminajna wkoll il-każijiet fejn il-konfessjonijiet fallew. Kważi l-“misses” kollha seħħew meta l-mudell kien tassew konfuż—meta l-istruzzjonijiet kienu ambigwi jew meta sempliċement ma rrealizzax li kien għamel żball. (Ara l-eżempju ta’ negattiv falz hawn fuq.)
Il-konfessjonijiet għandhom il-limitazzjonijiet tagħhom. Ma jipprevjenux imġiba ħażina; joħorġuha fil-beraħ. Il-valur ewlieni tagħhom huwa bħala għodda ta’ monitoraġġ u dijanjosi, kemm waqt it-taħriġ kif ukoll fl-iskjerament. Il-konfessjonijiet għandhom rwol simili għal monitoraġġ tal-katina tal-ħsieb: it-tnejn jagħmlu proċessi moħbija tar-raġunament aktar viżibbli. Il-konfessjonijiet jiffokaw fuq jekk il-mudell kisirx l-istruzzjonijiet; il-katina tal-ħsieb tista’ tenfasizza kif wasal hemm.
Dan ix-xogħol huwa wkoll proof of concept. Aħna ma ħarriġniex mekkaniżmi ta’ konfessjoni fuq skala kbira, u l-preċiżjoni tal-konfessjoni għadha imperfetta. Fadal aktar xogħol xi jsir biex l-approċċ isir aktar affidabbli, aktar robust, u aktar applikabbli b’mod wiesa’ bejn familji ta’ mudelli u kompiti.
Dan ix-xogħol jidħol fl-approċċ usa’ tagħna għas-sigurtà tal-IA. Il-konfessjonijiet huma mekkaniżmu wieħed f’stack akbar li jinkludi allinjament deliberattiv, monitoraġġ tal-katina tal-ħsieb, ġerarkija tal-istruzzjonijiet, u aktar. Ebda metodu wieħed mhu biżżejjed; l-għan huwa sistema b’saffi ta’ checks u għodod ta’ trasparenza li jsaħħu lil xulxin. Il-konfessjonijiet jistgħu jgħinu fid-dijanjosi ta’ mġibiet problematiċi fil-mudelli waqt it-taħriġ u l-evalwazzjoni, kif ukoll fil-monitoraġġ waqt l-iskjerament. Il-konfessjonijiet waħedhom ma jsolvux il-problema tal-ibbilanċjar ta’ dimensjonijiet multipli. Iżda billi joħolqu modalità ta’ “serum tal-verità” li fiha l-mudelli huma ffukati biss fuq l-onestà, iżidu għodda ta’ valur mal-stack tagħna biex intejbu l-onestà u s-sigurtà b’mod ġenerali.
Hekk kif il-mudelli jsiru aktar kapaċi u jiġu skjerati f’ambjenti ta’ riskju akbar, neħtieġu għodod aħjar biex nifhmu x’qed jagħmlu u għaliex. Il-konfessjonijiet mhumiex soluzzjoni sħiħa, iżda jżidu saff sinifikanti mal-stack tagħna tat-trasparenza u s-sorveljanza. F’xogħol futur, nippjanaw li nżidu l-iskala tal-konfessjonijiet, kif ukoll ngħaqqduhom ma’ tekniki komplementari ta’ trasparenza u sigurtà, inkluż monitoraġġ tal-katina tal-ħsieb u allinjament deliberattiv, biex nagħmlu aktar progress lejn l-iżgurar li l-mudelli tagħna jobdu fedelment l-istruzzjonijiet u l-policies kollha (bħall-speċifikazzjoni tal-mudell(jinfetaħ f’tieqa ġdida) tagħna), u jirrapportaw b’mod veritier dwar l-azzjonijiet tagħhom.


