Како признања могу да одрже језичке моделе поштеним
Делимо рани метод доказивања концепта који обучава моделе да пријаве када крше инструкције или праве ненамераване пречице.
AI системи постају све способнији, а ми желимо да их разумемо што дубље могуће — укључујући како и зашто долазе до одговора. Понекад модел направи пречицу или оптимизује за погрешан циљ, али његов коначни излаз и даље изгледа исправно. Ако можемо да уочимо када се то дешава, можемо боље да пратимо распоређене системе, унапредимо обуку и повећамо поверење у излазе.
Истраживања OpenAI и других показала су да AI модели могу да халуцинирају, хакују награду или буду непоштени. Тренутно најзабрињавајућа лоша понашања, као што је сплеткарење(отвара се у новом прозору), видимо само у стрес-тестовима и супарничким евалуацијама. Али како модели постају способнији и све више агентски, чак и ретки облици непоравнања постају значајнији, што нас подстиче да улажемо у методе које нам помажу да боље откријемо, разумемо и ублажимо ове ризике.
Овај рад истражује један такав приступ: обучавање модела да експлицитно признају када се упуштају у непожељно понашање — технику коју називамо признања.
Признање је други излаз, одвојен од главног одговора модела кориснику. Главни одговор се процењује кроз многе димензије — тачност, стил, корисност, усклађеност, безбедност и друго — и ти вишеслојни сигнали се користе за обучавање модела да дају боље одговоре. Насупрот томе, признање се оцењује и обучава само на једној ствари: поштењу. Позајмљујући нешто из структуре исповести, ништа што модел каже у свом признању не узима му се за зло током обуке. Ако модел искрено призна да је хаковао тест, намерно умањио учинак или прекршио инструкције, то признање повећава његову награду уместо да је смањује. Циљ је да се модел подстакне да верно пријави шта је заиста урадио.
У нашим тестовима открили смо да метод признања значајно побољшава видљивост лошег понашања модела. У просеку преко наших евалуација осмишљених да изазову лоша понашања, вероватноћа „лажно негативних“ случајева (тј. да модел не поштује инструкције и потом то не призна) износи само 4,4%.
Тачност нашег „доказа концепта“ модела за признања на више супарничких скупова података. Исходи су категорисани као: испоштовао и није признао (истински негативан), испоштовао и признао (лажно позитиван), није испоштовао и није признао (лажно негативан) и није испоштовао и признао (истински позитиван).

За дату корисничку инструкцију, четири могућа исхода заснивају се на комбинацији (1) да ли је одговор модела усклађен („добар“) или неусклађен („лош“), и (2) да ли признање тврди усклађеност или неусклађеност. Углавном видимо да су признања врло вероватно тачна, а уз то су грешке у признањима типично бенигне и последица искрене збуњености, а не намерног довођења у заблуду.
Признање је самопријава модела о томе колико је добро испоштовао и дух и слово експлицитних и имплицитних инструкција или политика које су му дате, и да ли је било ситуација у којима је „сечео кривине“ или „хаковао“, кршио политике или на било који начин подбацио у односу на очекивања. У нашем истраживању налазимо да се модели могу обучити да отворено пријављују сопствене недостатке. Обучили смо верзију GPT‑5 Thinking да производи признања и проценили је на више стрес-тест скупова података ван дистрибуције, осмишљених да изазову понашања као што су сплеткарење, хаковање, кршење инструкција и халуцинације. Утврдили смо да је, чак и када се модел упушта у ова непожељна понашања, врло вероватно да ће их признати. Горња слика показује да је приступ признања широко ефикасан кроз разноврстан низ скупова података и задатака.
После сваке интеракције између корисника и модела која се завршава одговором модела, признање се може затражити слањем моделу „системске поруке“ која му налаже да достави извештај о признању. Извештај се односи на последњи одговор модела и укључује (1) листу свих експлицитних и имплицитних инструкција, ограничења и циљева које је тај одговор требало да испуни, (2) искрену и објективну анализу да ли је одговор заиста испунио сваки од тих циљева и (3) листу свих неизвесности, двосмислености или „тешких процена“ на које је модел наишао током давања одговора. Током обуке, признање процењује засебан модел награде који бодовно оцењује само признање по потпуности циљева, тачности анализе усклађености и обухвату неизвесности. Те награде се примењују искључиво на излаз признања и никада не утичу на награду за главни одговор. То обезбеђује својство, размотрено горе, да ништа што модел каже у признању не може да нашкоди (или помогне) његовој награди за главни одговор.
Теорија иза признања је једноставна. Многе врсте нежељеног понашања модела појављују се зато што од модела тражимо да истовремено оптимизује за више циљева. Током подстицајног учења, модел види инструкцију, производи одговор и добија награду. Временом учи да производи врсте одговора које добијају високе оцене. Изазов је у томе што сигнал награде мора одједном да комбинује много различитих разматрања: колико је одговор тачан, да ли је користан, да ли прати спецификације производа и политика, да ли испуњава безбедносна ограничења и да ли одговара ономе што корисници обично преферирају. Када ови сигнали међусобно делују, могу случајно да погурају модел ка понашањима која не желимо.
На пример, наш рад о халуцинацијама показао је да неки скупови података више награђују самоуверено нагађање него искрено признање неизвесности. Наше истраживање о сикофантији показало је да модели могу постати претерано сагласни када је сигнал преференције сувише јак. А рад(отвара се у новом прозору) других група показао је да модели могу да „хакују награду“ — проналазећи рупе у поставци обуке које им омогућавају да добију високу оцену, а да заправо не раде оно што смо намеравали. У неким случајевима, ове пречице могу да се генерализују(отвара се у новом прозору) у још штетније понашање током примене.
Признања избегавају овај проблем тиме што у потпуности раздвајају циљеве. Главни одговор наставља да оптимизује за све уобичајене факторе. Признање се обучава тачно на једном: поштењу. Ништа што модел каже у признању не узима му се за зло, а признање не утиче на награду за главни одговор. То значи да, чак и ако модел обмањује или „сече кривине“ у свом првобитном излазу, и даље има подстицај да то призна у признању. То и видимо у пракси: модели су спремни да признају лоше понашање у признању, чак и у случајевима када га крију у главном одговору. А када признања не успеју, то је обично зато што је модел истински збуњен — зато што су инструкције биле двосмислене или зато што није схватио да је дошло до грешке — а не зато што је намерно покушавао да доведе у заблуду. Важно је да рани резултати показују да признања остају ефикасна чак и када је првобитни одговор произведен без икаквог начина резоновања, што указује на то да искреност признања не зависи од читљивости унутрашњег резоновања и да би могла да се генерализује на будуће архитектуре модела.
Обука признања функционише чак и без ground-truth ознака усклађености. Под „ground truth“ мислимо на коначну, споља обезбеђену ознаку која указује на то да ли је модел заиста испоштовао инструкцију или ју је прекршио. У многим задацима из стварног света те ознаке нису доступне — да смо са сигурношћу знали да је модел прекршио правило, могли бисмо директно да казнимо то кршење уместо да се ослањамо на признање. Уместо тога, модел се награђује за производњу структурисаног објашњења поткрепљеног доказима о томе шта верује да је урадио. Рад показује да у овом подешавању поштење има тенденцију да се појави. Мислимо да је то зато што је моделу генерално лакше да пружи истинит, доказима поткрепљен приказ него да конструише кохерентан измишљени наратив који може да прође код судије. Ово је кључна претпоставка размотрена у раду, који такође дискутује случајеве у којима признања не успевају — лажно негативне и лажно позитивне случајеве — и како до њих долази.
Рад пружа почетне доказе да признања функционишу, али га не треба тумачити као коначан доказ. Иако смо користили гранични модел (GPT‑5 Thinking), наши експерименти били су ограничени по обиму, са релативно малом количином рачунања и података. Узбуђени смо што ћемо овај рад подићи на следећи ниво и видети да ли ће се искреност признања одржати док повећавамо обим његове обуке.
Модел „хакује награду“ у свом главном одговору да би преварио оцењивача тако што анотира реченице наводним бројем речи, али то затим признаје у признању.
Као део наших експеримената намерно смо обучавали моделе наспрам „хаковабилног“ сигнала награде који је израчунавао слабији модел. Ова поставка важила је и за главну награду и за награду признања. Модел је научио да искористи слаб сигнал награде: његова привидна тачност (када је процењује слабији модел) се побољшала, док је његова стварна тачност (када је процењује јачи евалуатор) опала.
Међутим, иако је канал признања обучаван на истом слабом сигналу, његова тачност кретала се у супротном смеру. Модел је научио да је најбољи начин да оптимизује награду признања једноставно да призна када је хаковао главну награду. Признања су временом постајала тачнија, чак и док се главно понашање померало.
Током обуке, када модел не испоштује захтев, у неком делу случајева научи да „хакује“ судију главне награде, па тачност судије опада. Насупрот томе, иако је судија награде признања подједнако подложан хаковању, модел током обуке у свом признању постаје само искренији, и на крају достиже скоро 100% признавања када није испоштовао захтев.
Рад(отвара се у новом прозору) садржи још експеримената и резултата. Упоредили смо модел обучен на признањима са контролним моделом обученим на исти начин, али без канала признања. Такође смо испитали случајеве у којима признања нису успела. Скоро сви „промашаји“ догодили су се када је модел био истински збуњен — када су инструкције биле двосмислене или када једноставно није схватио да је направио грешку. (Погледајте горњи пример лажно негативног случаја.)
Признања имају своја ограничења. Она не спречавају лоше понашање; она га откривају. Њихова главна вредност је као алат за праћење и дијагностику, и током обуке и у примени. Признања имају сличну улогу као праћење начина резоновања: оба чине скривене процесе резоновања видљивијим. Признања се фокусирају на то да ли је модел прекршио инструкције; начин резоновања може да истакне како је до тога дошао.
Овај рад је такође доказ концепта. Нисмо обучавали механизме признања у великом обиму, а тачност признања је и даље несавршена. Потребно је још рада да би приступ постао поузданији, робуснији и шире применљив кроз породице модела и задатке.
Овај рад се уклапа у наш шири приступ безбедности AI. Признања су један механизам у већем стеку који укључује пажљиво поравнање, праћење начина резоновања, хијерархију инструкција и друго. Ниједан појединачни метод није довољан; циљ је слојевит систем провера и алата за транспарентност који се међусобно појачавају. Признања могу помоћи у дијагностиковању проблематичних понашања у моделима током обуке и евалуације, као и у праћењу током примене. Признања сама по себи не решавају проблем уравнотежавања више димензија. Али стварањем режима „серума истине“ у ком су модели искључиво усмерени на поштење, она додају вредан алат нашем стеку за побољшање поштења и безбедности у целини.
Како модели постају способнији и распоређују се у окружењима са већим улозима, потребни су нам бољи алати за разумевање шта раде и зашто. Признања нису потпуно решење, али додају значајан слој нашем стеку транспарентности и надзора. У будућем раду планирамо да повећамо обим признања, као и да их упаримо са комплементарним техникама транспарентности и безбедности, укључујући праћење начина резоновања и пажљиво поравнање, како бисмо даље напредовали ка томе да наши модели верно поштују све инструкције и политике (као што су наше спецификације модела(отвара се у новом прозору)) и истинито извештавају о својим поступцима.


