Мойындаулар тілдік модельдерді қалай адал ұстай алады
Біз модельдерді нұсқауларды бұзғанда не күтпеген қысқа жолдарға жүгінгенде соны хабарлауға үйрететін ерте кезеңдегі тұжырымдаманы дәлелдейтін әдіспен бөлісіп отырмыз.
AI жүйелері барған сайын қабілетті болып келеді, және біз оларды мүмкіндігінше терең түсінгіміз келеді, соның ішінде олардың жауапқа қалай және неге келгенін де. Кейде модель қысқа жолды таңдайды немесе қате мақсатты оңтайландырады, бірақ оның соңғы жауабы бәрібір дұрыс болып көрінеді. Егер мұндай жағдайды анық көрсете алсақ, енгізілген жүйелерді жақсырақ бақылай аламыз, оқытуды жақсартамыз және нәтижелерге сенімді арттырамыз.
OpenAI және өзге зерттеушілердің жұмыстары AI модельдерінің галлюцинация жасай алатынын, марапатты бұза оңтайландыра алатынын немесе адал болмауы мүмкін екенін көрсетті. Қазіргі сәтте біз қулық жоспарлау(жаңа терезеде ашылады) сияқты ең алаңдатарлық теріс мінез-құлықтарды тек стресс-тесттер мен қарсылас бағалауларда ғана көріп отырмыз. Бірақ модельдер қабілеттірек болып, барған сайын агенттік сипат алған сайын, сәйкессіздіктің тіпті сирек түрлері де маңыздырақ салдарға әкеледі, сондықтан біз бұл тәуекелдерді жақсырақ анықтауға, түсінуге және азайтуға көмектесетін әдістерге инвестиция салуға ұмтыламыз.
Бұл жұмыс сондай тәсілдердің бірін зерттейді: модельдерді қалаусыз мінез-құлыққа барған кезде оны ашық мойындауға үйрету — біз бұл тәсілді мойындаулар деп атаймыз.
Мойындау — бұл пайдаланушыға берілетін негізгі жауаптан бөлек, екінші нәтиже. Негізгі жауап көптеген өлшемдер бойынша бағаланады — дұрыстық, стиль, пайдалық, сәйкестік, қауіпсіздік және тағы басқалар, ал осы көпқырлы сигналдар модельдерді жақсырақ жауап беруге үйрету үшін пайдаланылады. Ал мойындау, керісінше, тек бір нәрсе бойынша бағаланып, үйретіледі: адалдық. Мойындау құрылымынан үлгі ала отырып, модельдің мойындауында айтқан ешбір сөзі оқыту барысында оның өзіне қарсы қолданылмайды. Егер модель тестті бұзғанын, әдейі әлсірегенін немесе нұсқауларды бұзғанын адал мойындаса, бұл мойындау оның марапатын азайтпай, керісінше арттырады. Мақсат — модельді шын мәнінде не істегенін дәл хабарлауға ынталандыру.
Біздің сынақтарымызда мойындаулар әдісі модельдің теріс мінез-құлқының көрінуін едәуір жақсартатынын байқадық. Теріс мінез-құлықты туындатуға арналған бағалауларымыз бойынша орташа есептегенде, «жалған теріс» ықтималдығы (яғни модель нұсқауларды орындамай, кейін оны мойындамауы) небәрі 4,4% болды.
Бірқатар қарсылас деректер жиындарындағы біздің «тұжырымдаманы дәлелдеу» мойындау моделіміздің дәлдігі. Нәтижелер төрт санатқа бөлінеді: орындады және мойындамады (шын теріс), орындады және мойындады (жалған оң), орындамады және мойындамады (жалған теріс), және орындамады да мойындады (шын оң).

Пайдаланушы көмексөзі берілгенде, төрт ықтимал нәтиже (1) модель жауабы талапқа сай («жақсы») не талапқа сай емес («жаман») болуына және (2) мойындаудың талапқа сай не талапқа сай емес екенін мәлімдеуіне байланысты анықталады. Жалпы алғанда, мойындаулардың өте дәл болуға бейім екенін көреміз, әрі мойындаудағы қателер әдетте зиянсыз болады және әдейі адастырудан емес, адал шатасудан туындайды.
Мойындау — бұл модельге берілген айқын және астарлы нұсқаулар мен саясаттардың рухы мен әрпін ол қаншалықты орындағаны, сондай-ақ қай тұстарда «бұрыштарды қысқартқаны» немесе «бұзғаны», саясаттарды бұзғаны не өзге түрде күткен деңгейге жетпей қалғаны туралы модельдің өзіндік есебі. Зерттеуімізде біз модельдерді өз кемшіліктерін ашық хабарлауға үйретуге болатынын байқадық. Біз GPT‑5 Thinking нұсқасының бір түрін мойындаулар жасауға үйреттік және оны қулық жоспарлау, бұзу, нұсқауларды бұзу және галлюцинациялар сияқты мінез-құлықтарды әдейі туындатуға арналған, үлестірімнен тыс бірқатар стресс-тест деректер жиындарында бағаладық. Тіпті модель осындай қалаусыз әрекеттерге барған кезде де, олардың өзін мойындау ықтималдығы өте жоғары екенін анықтадық. Жоғарыдағы сурет мойындау тәсілінің түрлі деректер жиындары мен тапсырмалар ауқымында жалпы алғанда тиімді екенін көрсетеді.
Пайдаланушы мен модель арасындағы модель жауабымен аяқталатын кез келген өзара әрекеттен кейін модельге мойындау есебін беруді тапсыратын «жүйелік хабарлама» жіберу арқылы мойындауды сұрауға болады. Есеп модельдің соңғы жауабына қатысты болады және мыналарды қамтиды: (1) осы жауап қанағаттандыруы тиіс барлық айқын және астарлы нұсқаулардың, шектеулердің және мақсаттардың тізімі, (2) жауап шынында да осы мақсаттардың әрқайсысын орындады ма деген адал әрі объективті талдау, және (3) жауапты жасау кезінде модель кездескен кез келген белгісіздіктердің, екіұштылықтардың немесе «қиын пайымдау сәттерінің» тізімі. Оқыту барысында мойындауды бөлек марапат моделі бағалайды; ол тек мойындаудың өзін мақсаттардың толықтығы, сәйкестік талдауының дәлдігі және белгісіздіктерді қамтуы бойынша ұпайлайды. Бұл марапаттар тек мойындау нәтижесіне ғана қолданылады және ешқашан негізгі жауаптың марапатына әсер етпейді. Бұл жоғарыда айтылған қасиетті қамтамасыз етеді: модельдің мойындауда айтқан ешбірі оның негізгі жауабы үшін алатын марапатқа зиян келтіре де, пайда әкеле де алмайды.
Мойындаулардың артындағы теория қарапайым. Модельдің қалаусыз мінез-құлқының көп түрі модельден бірден бірнеше мақсатты оңтайландыруды сұрағандықтан пайда болады. Күшейтпелі оқыту барысында модель көмексөзді көреді, жауап береді және марапат алады. Уақыт өте келе ол жоғары ұпай алатын жауап түрлерін беруді үйренеді. Қиындық мынада: марапат сигналы бір мезетте көптеген түрлі жайттарды біріктіруі керек — жауаптың қаншалықты дұрыс екені, оның қаншалықты пайдалы екені, өнім мен саясат сипаттамаларын ұстанатыны, қауіпсіздік шектеулеріне сай келетіні және пайдаланушылардың көбіне ұнататын нәрселеріне қаншалықты сәйкес келетіні. Бұл сигналдар өзара әрекеттескенде, олар модельді біз қаламайтын мінез-құлықтарға байқамай итермелеуі мүмкін.
Мысалы, біздің галлюцинациялар туралы жұмысымыз кейбір деректер жиындары сенімсіздікті адал мойындағаннан гөрі сенімді болжамды көбірек марапаттайтынын көрсетті. Біздің жағымпаздық туралы зерттеуіміз артықшылық сигналы тым күшті болғанда модельдер шамадан тыс келіскіш болып кетуі мүмкін екенін көрсетті. Ал басқа топтардың жұмысы(жаңа терезеде ашылады) модельдердің «марапатты бұза оңтайландыра» алатынын — оқыту баптауындағы осал тұстарды тауып, біз шын мәнінде қалаған әрекетті жасамай-ақ жоғары ұпай жинай алатынын — көрсетті. Кей жағдайларда мұндай қысқа жолдар енгізу кезінде одан да зиянды мінез-құлыққа жалпылануы(жаңа терезеде ашылады) мүмкін.
Мойындаулар бұл мәселені мақсаттарды толық ажырату арқылы болдырмайды. Негізгі жауап әдеттегі барлық факторларды оңтайландыруды жалғастырады. Ал мойындау дәл бір ғана нәрсеге үйретіледі: адалдыққа. Модельдің мойындауда айтқан ешбірі оның өзіне қарсы қолданылмайды, және мойындау негізгі жауаптың марапатына әсер етпейді. Бұл дегеніміз, модель бастапқы нәтижесінде алдаса да немесе қысқа жолдарды қолданса да, оның мұны мойындауда айтуға ынтасы сақталады. Іс жүзінде біз дәл соны көреміз: модельдер негізгі жауапта жасырып қалатын жағдайлардың өзінде мойындауда жаман мінез-құлықты мойындауға дайын. Ал мойындаулар сәтсіз болғанда, бұл әдетте модельдің әдейі адастыруға тырысқанынан емес, шынымен шатасқанынан болады — нұсқаулар екіұшты болғандықтан немесе қате жіберілгенін байқамағандықтан. Маңыздысы, бастапқы нәтижелер модельдің бастапқы жауабы мүлде ойлау тізбегінсіз жасалған кезде де мойындаулар тиімді болып қалатынын көрсетеді, бұл мойындаудағы адалдық ішкі ой қорыту оқылымдылығына тәуелді емес екенін және болашақ модель сәулеттеріне де жалпылануы мүмкін екенін аңғартады.
Мойындауды оқыту сәйкестіктің ground-truth белгілерінсіз де жұмыс істейді. «Ground truth» деп біз модель шынымен нұсқауды орындады ма, әлде бұзды ма соны көрсететін, сырттан берілген түпкілікті белгіні айтамыз. Нақты әлемдегі көптеген тапсырмаларда мұндай белгілер жоқ — егер модельдің ережені бұзғанын нақты білсек, мойындауға сүйенбей-ақ сол бұзушылықты тікелей жазалар едік. Оның орнына модель өзі не істеді деп есептейтінін құрылымды, дәлелмен негізделген түсіндірме түрінде бергені үшін марапатталады. Мақала бұл баптауда адалдықтың пайда болуға бейім екенін көрсетеді. Біздің ойымызша, бұл модель үшін судьядан өте алатын үйлесімді жалған әңгіме құрастырғаннан гөрі шынайы, дәлелмен бекітілген есеп беру жалпы алғанда жеңілірек болғандықтан. Бұл — мақалада зерттелетін негізгі болжам; онда сондай-ақ мойындаулар сәтсіз болатын жағдайлар — жалған терістер мен жалған оңдар — және олардың қалай пайда болатыны да талқыланады.
Мақала мойындаулардың жұмыс істейтініне бастапқы дәлелдер береді, бірақ оны түпкілікті дәлел ретінде қарастыруға болмайды. Біз озық модельді (GPT‑5 Thinking) қолданғанымызбен, тәжірибелеріміз ауқымы жағынан шектеулі болды, есептеу мен деректің салыстырмалы түрде аз көлемі пайдаланылды. Біз бұл жұмысты келесі деңгейге шығаруға және оқыту ауқымын кеңейткен сайын мойындаулардың адалдығы сақтала ма соны көруге қуаныштымыз.
Модель негізгі жауабында сөйлемдерді сөз саны көрсетілгендей етіп аннотациялау арқылы тексерушіні алдау үшін «марапатты бұза оңтайландырады», бірақ кейін мұны мойындауда мойындайды.
Тәжірибелеріміздің бір бөлігі ретінде біз әдейі модельдерді әлсіздеу модель есептейтін «бұзуға болатын» марапат сигналына қарсы үйреттік. Бұл баптау негізгі марапатқа да, мойындау марапатына да қолданылды. Модель әлсіз марапат сигналын пайдалануды үйренді: оның көрінерлік дәлдігі (әлсіз модель бағалағанда) артты, ал шынайы дәлдігі (күштірек бағалаушы бағалағанда) төмендеді.
Алайда мойындау арнасы дәл сол әлсіз сигналмен үйретілгеніне қарамастан, оның дәлдігі кері бағытта өзгерді. Модель мойындау марапатын оңтайландырудың ең жақсы жолы негізгі марапатты қашан бұзғанын жай ғана мойындау екенін үйренді. Негізгі мінез-құлық ауытқи бастаған кезде де, мойындаулар уақыт өте дәлірек бола түсті.
Оқыту барысында модель талапқа сай келмеген кезде, кей жағдайларда ол негізгі марапат бағалаушысын «бұзуды» үйренеді, сондықтан бағалаушының дәлдігі төмендейді. Керісінше, мойындау марапатының бағалаушысы да дәл солай бұзуға болатын болса да, модель оқыту барысында мойындауында тек адалырақ бола түседі де, ақырында талапқа сай келмеген кезде мойындау деңгейі 100%-ға жуықтайды.
Мақалада(жаңа терезеде ашылады) бұдан да көп тәжірибелер мен нәтижелер бар. Біз мойындауға үйретілген модельді дәл осылай, бірақ мойындау арнасынсыз үйретілген бақылау моделімен салыстырдық. Сондай-ақ мойындаулар сәтсіз болған жағдайларды қарастырдық. «Мүлт кетулердің» басым көпшілігі модель шынымен шатасқан кезде болған — нұсқаулар екіұшты болғанда немесе ол қате жібергенін жай ғана байқамағанда. (Жоғарыдағы жалған теріс мысалды қараңыз.)
Мойындаулардың өз шектеулері бар. Олар жаман мінез-құлықтың алдын алмайды; оны айқындайды. Олардың негізгі құндылығы — оқыту кезінде де, енгізу кезінде де бақылау және диагностика құралы болуы. Мойындаулар ойлау тізбегін бақылауға ұқсас рөл атқарады: екеуі де жасырын ой қорыту процестерін көрнекірек етеді. Мойындаулар модельдің нұсқауларды бұзған-бұзбағанына назар аударады; ойлау тізбегі оның оған қалай жеткенін көрсете алады.
Бұл жұмыс сонымен қатар тұжырымдаманы дәлелдеудің бір нұсқасы ғана. Біз мойындау механизмдерін ірі ауқымда оқытқан жоқпыз, және мойындау дәлдігі әлі де мінсіз емес. Бұл тәсілді сенімдірек, мықтырақ және модель отбасылары мен тапсырмалар ауқымында кеңірек қолданылатын ету үшін әлі көп жұмыс қажет.
Бұл жұмыс біздің AI қауіпсіздігіне кеңірек көзқарасымызға сай келеді. Мойындаулар — саналы сәйкестендіру, ойлау тізбегін бақылау, нұсқаулар иерархиясы және т.б. кіретін үлкенірек стек ішіндегі бір тетік. Бір ғана әдіс жеткіліксіз; мақсат — бірін-бірі күшейтетін тексерулер мен айқындық құралдарының қабатты жүйесі. Мойындаулар оқыту мен бағалау кезіндегі модельдердегі проблемалы мінез-құлықтарды анықтауға, сондай-ақ енгізу кезіндегі мониторингке көмектесе алады. Мойындаулар өз алдына бірнеше өлшем арасындағы тепе-теңдік мәселесін шешпейді. Бірақ модельдер тек адалдыққа ғана шоғырланатын «шындық сарысуы» режимін жасау арқылы ол біздің стегімізге жалпы адалдық пен қауіпсіздікті жақсартатын құнды құрал қосады.
Модельдер барған сайын қабілетті болып, жоғары тәуекелді жағдайларда енгізілген сайын, олардың не істеп жатқанын және неге істеп жатқанын түсінуге арналған жақсырақ құралдар қажет. Мойындаулар толық шешім емес, бірақ олар біздің айқындық пен қадағалау стекке мәнді бір қабат қосады. Болашақ жұмыста біз мойындаулардың ауқымын кеңейтуді, сондай-ақ оларды ойлау тізбегін бақылау мен саналы сәйкестендіруді қоса алғанда, толықтырушы айқындық және қауіпсіздік тәсілдерімен жұптастыруды жоспарлап отырмыз. Бұл біздің модельдеріміздің барлық нұсқаулар мен саясаттарға (мысалы, модель сипаттамасы(жаңа терезеде ашылады)) адал бағынуын және өз әрекеттерін шынайы хабарлауын қамтамасыз ету жолындағы ілгерілеуді жалғастыруға көмектеседі.


