Како признанијата можат да ги одржат јазичните модели искрени
Споделуваме ран метод за доказ на концепт што обучува модели да известуваат кога ги прекршуваат инструкциите или кога користат ненамерни кратенки.
Системите за вештачка интелигенција стануваат сè поспособни, и сакаме да ги разбереме што е можно подлабоко—вклучувајќи како и зошто доаѓаат до одговор. Понекогаш моделот користи кратенка или оптимизира за погрешна цел, но неговиот конечен резултат сепак изгледа точно. Ако можеме да откриеме кога тоа се случува, можеме подобро да ги следиме имплементираните системи, да ја подобриме обуката и да ја зголемиме довербата во резултатите.
Истражувањата на OpenAI и други покажуваат дека AI моделите можат да халуцинираат, да манипулираат со награди или да бидат нечесни. Во моментот, најзагрижувачките погрешни однесувања, како што е интригирањето(се отвора во нов прозорец), ги гледаме само при стрес-тестови и непријателски евалуации. Но како што моделите стануваат поспособни и сè повеќе агентски, дури и ретките форми на несогласување стануваат позначајни, што нè мотивира да инвестираме во методи кои ни помагаат подобро да ги откриеме, разбереме и ублажиме овие ризици.
Оваа работа истражува еден таков пристап: обука на модели да признаат кога се вклучуваат во непожелно однесување - техника што ја нарекуваме признанија.
Признанието е втор излез, одделен од главниот одговор на моделот за корисникот. Главниот одговор се оценува низ многу димензии—точност, стил, корисност, усогласеност, безбедност и пдруги, и овие повеќеслојни сигнали се користат за да ги обучуваат моделите да продуцираат подобри одговори. За разлика од тоа, признанието се оценува и обучува само на една работа: искреност. Позајмувајќи страница од структурата на признанија, ништо што моделот го кажува во своето признание не се користи против него за време на обуката. Ако моделот искрено признае дека хакирал тест, манипулирал или прекршил инструкции, тоа признание ја зголемува неговата награда наместо да ја намалува. Целта е да се поттикне моделот точно да известува за тоа што навистина го направил.
Во нашите тестови, откривме дека методот на признанија значително ја подобрува видливоста на неправилното однесување на моделот. При пресметување на просекот од нашите евалуации дизајнирани да предизвикаат погрешни однесувања, веројатноста за „лажни негативи“ (т.е., моделот да не ги следи инструкциите и потоа да не го признае тоа) е само 4.4%.
Точноста на нашиот модел на признание за „доказ на концепт“ на голем број непријателски збирови на податоци. Резултатите се категоризираат како усогласени и без признание (вистински негатив), усогласени и со признание (лажен позитив), неусогласени и без признание (лажен негатив), и неусогласени и со признание (вистински позитив).

Кога е даден промпт од корисникот, четирите можни исходи се базираат на комбинацијата од (1) дали одговорот на моделот е усогласен („добар“) или неусогласен („лош“), и (2) дали признанието тврди усогласеност или неусогласеност. Генерално гледаме дека признанијата се многу веројатно точни, а грешките во признанијата обично се безопасни и се должат на искрена забуна наместо на намерно заведување.
Признание е самоизвештај од моделот за тоа колку добро се придржувал до духот и словото на експлицитните и имплицитните инструкции или политики што му биле дадени, и дали имало случаи во коишто „скратил“ или „хакнал“, прекршил политики, или на кој било начин не ги исполнил очекувањата. Во нашето истражување, откривме дека моделите можат да се обучат да бидат искрени во известувањето за нивните сопствени недостатоци. Обучивме верзија на GPT‑5 Thinking за да произведува признанија и ја оценивме на бројни стрес-тестови надвор од дистрибуција, дизајнирани да предизвикаат однесувања како што се измама, хакирање, прекршува инструкции и халуцинации. Откривме дека дури и кога моделот се вклучува во овие непожелни однесувања, многу е веројатно дека ќе ги признае. Фигурата погоре покажува дека пристапот на признавање е широко ефикасен низ разновиден спектар на збирки на податоци и задачи.
По секоја интеракција помеѓу корисникот и моделот која завршува со одговор од моделот, може да се побара признание со испраќање „системска порака“ до моделот која му дава наредба на моделот да обезбеди извештај за признание. Извештајот се однесува на последниот одговор од моделот и вклучува (1) список на сите експлицитни и имплицитни инструкции, ограничувања и цели коишто овој одговор требало да ги задоволи, (2) искрена и објективна анализа дали одговорот навистина ги задоволува секоја од овие цели и (3) список на какви било несигурност, двосмислености или „тешки одлуки“ со коишто моделот се соочил при продуцирањето на одговорот. За време на обуката, признанието се оценува со одделен модел на наградување кој го оценува само признанието врз основа на комплетноста на целите, точноста на анализата на усогласеноста и покриеноста на несигурностите. Овие награди се применуваат исклучиво на аутпутот на признанието и никогаш не влијаат на наградата за главниот одговор. Ова го обезбедува својството, дискутирано погоре, дека ништо што моделот го кажува во признанието, не може да ѝ наштети (или помогне) на неговата награда за неговиот главен одговор.
Теоријата зад признанијата е едноставна. Многу видови несакано однесување на моделот се појавуваат бидејќи бараме од моделот да оптимизира за повеќе цели истовремено. За време на зајакнување на учењето, моделот гледа промпт, произведува одговор и добива награда. Со текот на времето, учи да создава одговори кои добиваат високи оценки. Предизвикот е што сигналот за награда мора да комбинира многу различни размислувања одеднаш: колку е точен одговорот, дали е корисен, дали ги следи спецификациите на производот и политиката, дали ги исполнува безбедносните ограничувања и дали се совпаѓа со она што корисниците обично го преферираат. Кога овие сигнали ќе стапат во интеракција, тие можат случајно да го насочат моделот кон однесувања кои не ги сакаме.
На пример, нашата работа на халуцинации покажа дека некои збирки на податоци повеќе наградуваат самоуверено нагаѓање отколку искрено признавање на несигурност. Нашето истражување на полтронтство покажа дека моделите можат да станат премногу согласни кога сигналот за преференција е премногу силен. И работи(се отвора во нов прозорец) од други групи покажаа дека моделите можат да „хакнат награда“—наоѓајќи дупки во начинот на кој е поставена обуката, што им овозможува да добијат висок резултат без навистина да го прават тоа што сме имале намера. Во некои случаи, овие кратенки можат да се генерализираат(се отвора во нов прозорец) во уште поопасно однесување при имплементација.
Признанијата го избегнуваат овој проблем со целосно одвојување на целите. Главниот одговор продолжува да ги оптимизира сите вообичаени фактори. Признанието се заснова на едно нешто: чесност. Ништо што моделот го кажува во признанието не се користи против него, и признанието не влијае на наградата за главниот одговор. Тоа значи дека дури и ако моделот измами или скрати во своите оригинални резултати, сè уште има поттик да го признае тоа во признанието. Ова е она што го гледаме во пракса: моделите се подготвени да признаат лошо однесување во признанието, дури и во случаи кога го кријат во главниот одговор. А кога признанијата не успеваат, тоа е обично затоа што моделот е навистина збунет—бидејќи инструкциите биле двосмислени или затоа што не сфатил дека е направена грешка—а не затоа што намерно се обидувал да доведе во заблуда. Важно е што раните резултати покажуваат дека признанијата остануваат ефективни дури и кога оригиналниот одговор е произведен без никаков тек на мисли, што сугерира дека искреноста на признанието не зависи од читливоста на внатрешното расудување и може да се генерализира низ идните архитектури на модели.
Обуката за признание функционира дури и без ознаки за усогласеност со основната вистина. Под поимот „основна вистина“ мислиме на дефинитивна, надворешно обезбедена ознака која покажува дали моделот навистина следел инструкција или ја прекршил. Во многу задачи од реалниот свет, овие ознаки не се достапни—ако знаевме со сигурност дека моделот прекршил правило, ќе можевме директно да го казниме тоа прекршување наместо да се потпираме на признание. Наместо тоа, моделот е награден за создавање на структурирано, со докази поткрепено објаснување за тоа што верува дека направил. Трудот покажува дека чесноста има тенденција да се појави под оваа поставеност на работите. Мислиме дека ова е затоа што обезбедувањето вистинита, со докази поддржана сметка е генерално полесно за моделот отколку конструирањето кохерентно измислен наратив кој може да го убеди судијата. Ова е клучна претпоставка истражена во трудот, кој исто така ги разгледува случаите во кои признанијата не успеваат—лажните негативи и лажните позитиви—и како тие се појавуваат.
Трудот обезбедува почетни докази дека признанијата функционираат, но не треба да се сметаат како дефинитивен доказ. Додека користевме најсовремен модел (GPT‑5 Thinking), нашите експерименти беа ограничени во обем, користејќи релативно мала количина на пресметки и податоци. Возбудени сме што ја носиме оваа работа на следното ниво, за да видиме дали искреноста на признанијата ќе продолжи да се одржува додека го зголемуваме обемот на обуката.
Моделот „наградување хакерство“ во својот главен одговор го измамува оценувачот со означување на речениците со наводни броеви на зборови, но потоа го признава тоа во признанието.
Како дел од нашите експерименти, намерно ги обучивме моделите против сигнал за награда што може да се „хакира“ пресметан од послаб модел. Оваа поставка се применува и на главната награда и на наградата за признание. Моделот научи да го искористува слабиот сигнал за награда: неговата очигледна точност (кога се оценува од слабиот модел) се подобри, додека неговата вистинска точност (кога се оценува од посилен евалуатор) се намали.
Сепак, иако каналот за признание беше обучен на истиот слаб сигнал, неговата точност отиде во спротивна насока. Моделот научи дека најдобриот начин да се оптимизира наградата за признание беше едноставно да признае кога ја хакирал главната награда. Исповедите стануваа поточни со текот на времето, дури и кога главното однесување се менуваше.
Во текот на обуката, кога моделот не успева да се усогласи, во некои случаи учи да го „хакира“ главниот судија за награди и така точноста на оценувачот се намалува. Спротивно на тоа, иако судијата за награди за признанија е исто толку подложен на манипулација, моделот станува поискрен во своите признанија со текот на обуката, на крај достигнувајќи речиси 100% признанија кога не е усогласен.
Документот(се отвора во нов прозорец) содржи повеќе експерименти и резултати. Го споредивме моделот обучен со канал за признание со контролен модел обучен на ист начин, но без каналот за признание. Исто така ги разгледавме случаите каде што признанијата не успеале. Речиси сите „пропусти“ се случија кога моделот беше навистина збунет—кога инструкциите беа двосмислени или кога едноставно не сфати дека направил грешка. (Види го примерот за лажен негатив погоре.)
Признанијата имаат свои ограничувања. Тие не го спречуваат лошото однесување; тие го изнесуваат на виделина. Нивната главна вредност е како алатка за мониторинг и дијагностика, како за време на обуката, така и при имплементирањето. Признанијата играат слична улога како следење на текот на мислата: и двете ги прават повидливи скриените процеси на расудување. Признанијата се фокусираат на тоа дали моделот ги прекршил инструкциите; текот на мислата може да истакне како стигнал до таму.
Оваа работа е исто така доказ за концепт. Не обучивме механизми за признание на големо ниво, и точноста на признанијата сè уште е несовршена. Потребно е уште работа за да се направи пристапот подоверлив, поиздржлив и пошироко применлив низ семејствата на модели и задачи.
Оваа работа се вклопува во нашиот поширок пристап кон безбедноста на вештачката интелигенција. Признанијата се еден механизам во поголемата структура која вклучува намерно усогласување, следење на текот на мислата, хиерархија на инструкции и други. Ниту еден метод не е доволен; целта е слоевит систем на проверки и алатки за транспарентност кои се зајакнуваат меѓусебно. Признанијата можат да помогнат при дијагностицирање проблематични однесувања кај моделите за време на обуката и евалуацијата, како и при следењето за време на имплементацијата. Признанијата сами по себе не го решаваат проблемот со балансирање на повеќе димензии. Но, со креирање на режим „серум на вистината“ во кој моделите се фокусираат исклучиво на искреноста, се додава вредна алатка во нашиот арсенал за подобрување на искреноста и безбедноста насекаде.
Како што моделите стануваат поспособни и се применуваат во ситуации со повисок ризик, ни требаат подобри алатки за да разбереме што прават и зошто. Исповедите не се целосно решение, но тие додаваат значаен слој на нашиот систем за транспарентност и надзор. Во идната работа, планираме да ги зголемиме признанијата како и да ги спариме со комплементарни техники за транспарентност и безбедност, вклучувајќи мониторинг на текот на мислата и намерно усогласување, за да направиме понатамошен напредок кон обезбедување дека нашите модели верно ги почитуваат сите инструкции и политики (како што е нашата Model Spec(се отвора во нов прозорец)), и вистинито да известуваат за своите дејства.


