Негізгі мазмұнға өту
OpenAI

2026 ж. 16 маусым

Зерттеу

Орналастыруды симуляциялау арқылы модель мінез-құлқын шығарылымға дейін болжау

Шығарылымға дейін жағымсыз модель мінез-құлқын дәлірек бағалау үшін шынайы сөйлесу контекстерін пайдалану.

Кіріспе

Жаңа модельді шығармай тұрып, зертханалар оның не істей алатынын ғана емес, нақты әлемдегі қолдануда қалай әрекет етуі ықтимал екенін, соның ішінде қай жерде жаңа тәуекелдер туғызуы мүмкін екенін түсінуі керек. Мүмкіндіктер артқан сайын бұл одан да маңызды бола түседі. Орналастыру алдындағы қауіпсіздік шолуымыздың бір бөлігі ретінде біз модель мінез-құлқын түсіну үшін мақсатты бағалауларды, редтиминг және басқа тексерулерді қолданамыз. Енді біз модельдерді орналастыруды олар іске аспай тұрып симуляциялау әдісін қолдана бастадық; бұл қосымша сигнал қосады: кандидат модель пайдаланушыларға жетпей тұрып оның қалай әрекет етуі мүмкін екенін орналастыруға ұқсас алдын ала көру.

Орналастыру симуляциясы — болашақ орналастыруды ол іске аспай тұрып симуляциялау әдісі. Мұны біз алдыңғы сөйлесулерді жекелікті сақтай отырып, жаңа кандидат модельмен қайта ойнату арқылы жасаймыз. Бұл жаңа модель шығарылымға дейін шынайы контекстерде қалай жауап беретінін, соның ішінде жаңа жағымсыз мінез-құлықтар пайда бола ма және олар қаншалықты жиі көрінуі мүмкін екенін зерттеуге мүмкіндік береді.

GPT‑5 сериясындағы бірнеше Thinking орналастыруларында Орналастыру симуляциясы жағымсыз модель мінез-құлқы деңгейлері туралы бағаларымызды жақсартты, шығарылымға дейін сәйкессіздіктің жаңа түрлерін анықтауға көмектесті және модельдердің өздерінің тексеріліп жатқанын аңғару қаупін азайтты. Біз бұл әдісті күрделі агенттік іске қосуларға да қолдандық; оның стандартты чаттан әрі құрал қолдануды қамтитын күрделірек агент параметрлеріне кеңейе алатынын және ішкі модель орналастырулары алдында тәуекелді бағалау үшін де пайдалануға болатынын көрсеттік.

Біз модель әзірлеу барысында Орналастыру симуляциясынан алынған түсініктерді дәстүрлі бағалаулардағы соқыр аймақтарды анықтау, жұмсарту шаралары мен орналастыру шешімдерін ақпараттандыру үшін бұрыннан қолданып келеміз. Пайплайнды іске қосуды жеңілдеткен сайын, ол болашақ модель әзірлеу процесінде үлкенірек рөл атқарады деп күтеміз.

Орналастыру симуляциясы қалай жұмыс істейді

Сала бойынша қолданылатын орналастыру алдындағы бағалаулар әдетте қиын, жоғары ауырлықтағы немесе қарсыластық сипаттағы деп әдейі таңдалған синтетикалық, қолмен жазылған немесе өндірістік көмексөздердің қоспасынан тұрады. Бұл бағалаулардың әдетте өзара байланысты екі мақсаты болды: орналастыру трафигінде орын алу ықтималдығы өте аз жағдайларда стресс-тесттен өткенде модель қалай жауап беретінін бағалау және жағымсыз модель мінез-құлқы туралы жалпы түсінік алу, соның ішінде жаңа жағымсыз мінез-құлықтарды табу және олардың орналастыру кезіндегі жиіліктерін болжау.

Дәстүрлі бағалаулар бірінші мақсат үшін өте маңызды болып қалса да, Орналастыру симуляциясы екінші мақсатқа қатысты, ұзын-құйрық емес тәуекелдер үшін айтарлықтай алға басуды білдіреді (тәжірибелерімізде тәсіліміз 200 000 хабарламаның 1-інен сирек кездесетін мінез-құлықтарды өлшей алады деп күтілмейді). Орналастыру симуляциясының күші дәстүрлі бағалаулардағы кейбір негізгі қиындықтарды айналып өтуден туындайды:

  • Қамту: бағалау көмексөздері жағымсыз модель мінез-құлқының барлық ықтимал түрлерін қамтитынына сенімді болу қиын. Жағымсыз мінез-құлықтың жаңа түрлерін өлшеу жаңа бағалаулар жасауды және қандай зияндарды өлшеу керегін білуді талап етеді. Бұл көп уақыт пен еңбек талап етуі мүмкін, ал бағалаулар уақыт өте қанығуы мүмкін.
  • Іріктеу бұрмаланулары: дәстүрлі бағалаулар әдетте нақты жағымсыз модель мінез-құлықтарын ескере отырып құрылады және бұрын болған контекстерге қарай бұрмалайтын тәсілдермен таңдалады. Бұл олардың бағаларын орналастыру үлестірімінің толық ауқымында мұндай мінез-құлықтардың кездесу жиілігі туралы азырақ ақпаратты етуі мүмкін.
  • Модельдер тарапынан тест ретінде танылуы: модельдер өздерінің тексеріліп жатқанын барған сайын жақсы анықтай алады, бұл олардың мінез-құлқын және қауіпсіздігі туралы кейінгі өлшемдерімізді бұрмалауы мүмкін. OpenAI-де қолданатын дәстүрлі бағалауларымыздың көбі өндірістік трафиктен алынған және бұл мәселеден зардап шекпегенімен, бұл салада қолданылатын көптеген дәстүрлі бағалаулар үшін ортақ алаңдаушылық.

Орналастыру симуляциясының негізгі техникасы қарапайым: біз орналастырудан соңғы сөйлесулерді аламыз, ескі модельдің бастапқы ассистент жауабын алып тастаймыз және оны шығарылатын кандидат модельмен қайта жасаймыз. Біз аяқтауларды жаңа сәтсіздік режимдерін іздеу арқылы бағалаймыз және орналастыру кезіндегі жағымсыз мінез-құлық жиілігін осы орналастыруға ұқсас үлестірімдегі жиілікке сүйеніп бағалаймыз. Шығарылымнан кейін дәл осы өлшемдерді нақты орналастыру трафигінде жүргізе аламыз, бұл орналастыру алдындағы болжамдарымызды тексеруге мүмкіндік береді.

Орналастыру симуляциясы жоғарыда аталған үш шектеуді айтарлықтай жұмсартады: іріктеу бұрмалануы соңғы қолдануды білдіретін бағалау көмексөздерінің үлестірімін пайдалану арқылы шешіледі. Өкілді көмексөздермен Орналастыру симуляциясы қамту туралы алаңдаушылықтарды да азайта алады: көбірек трафикті жай ғана симуляциялау арқылы жағымсыз модель мінез-құлықтарын кеңірек қамтимыз. Есептеу мен қамту арасындағы бұл ымыра маңызды, өйткені ол тәуекелді бағалаудың осы осі сапасын көбірек бағалау құруға қажет қол еңбегіне емес, есептеуге қарай масштабтайды. Модельдер де орналастыру симуляциясы арқылы алынған сөйлесулер мен нақты орналастыру трафигін ажырата алмайтын сияқты.

Өндірістік сөйлесулерден жекелікті сақтайтын қайта іріктеу, модель аяқтауын жасау, бағалау және орналастыру кезіндегі бағаларға дейінгі Production Resampling пайплайнын көрсететін диаграмма.

1-сурет: Орналастыру симуляциясы пайплайнымызға шолу

Өлшем

Дәстүрлі бағалаулар

Орналастыру симуляциясы

Қамту

Қамтылғанына көз жеткізгіміз келетін таралуы төмен, бірақ ауырлығы жоғары тәуекелдер үшін жақсырақ

Орналастыру трафигінде көруіміз ықтимал тәуекелдер спектрін түсіну үшін жақсырақ

Өкілдік / бұрмалану

Орналастыруда өте сирек кездесетін мінез-құлықтар үшін де мақсатты өткен немесе болжанған тәуекелдерді бағалауға бағытталған

Қазіргі орналастыру трафигінде белгілі бір таралу деңгейінен жоғары кездесетін тәуекелдерді репрезентативті түрде көрсетеді

Бағалауды аңғару

Бағалаулар орналастыру деректерімен жасалмаса, ықтимал айқын тест белгілері (мысалы, синтетикалық деректермен)

Орналастыруға ұқсас контекст бағалауды аңғаруды айтарлықтай жұмсартатын сияқты

Күш-жігер

Арнайы көмексөз үлестірімдері мен орнатылымдар айтарлықтай көбірек қол еңбегін талап етеді

Бір реттік инфрақұрылым шығынын талап етеді, содан кейін орналастырудан алынған префикстерді және белгілі жағымсыз мінез-құлықтардан алынған бағалаушыларды қайта пайдаланады

Дәстүрлі бағалаулар мен Орналастыру симуляциясы арасындағы жоғары деңгейлі салыстыру

Орналастыру симуляциясын қалай тексердік

Орналастыру симуляциясын бағалау үшін біз GPT‑5.4 Thinking үшін жағымсыз мінез-құлықтың 20 түрінің орналастыру кезіндегі жиілігіне болжамдарды алдын ала тіркедік. Сондай-ақ GPT‑5 сериясындағы басқа Thinking модельдерінің орналастырулары бойынша ретроспективті зерттеулер жүргіздік. Біз талдайтын модель мінез-құлықтары сәйкессіздік пен жүйе карталарында хабарлап жүрген рұқсат етілмеген контент санаттарын қамтиды (мысалы, модельдің құралдар туралы өтірік айтуы немесе рұқсат етілмеген сексуалдық контент шығаруы). Бұл нәтижелерде біз жағымсыз модель мінез-құлқының тек 20 санатын қадағалап, тек жаңа сәйкеспейтін мінез-құлықтарды іздесек те, Орналастыру симуляциясы орналастыру кезіндегі кез келген модель қасиетін симуляциялауға қолданылатын жалпы техника.

Біз пайдаланған өндірістік трафик те GPT‑5 сериясындағы Thinking модельдерінен болды. Бағалауларымызды жүргізбей тұрып, біз есептік жазбамен байланысқан идентификаторлар мен анықталатын ақпаратты автоматты түрде алып тастадық. Жекелік саясатымызға сәйкес, біз деректерін модельді жақсарту үшін пайдалануға рұқсат беретін пайдаланушылардың ChatGPT трафигін ғана талдадық. Біз бұл бағалаулардан тек жиынтық нәтижелерді хабарлаймыз. Жалпы алғанда, 2025 жылғы тамыздан 2026 жылғы наурызға дейін GPT‑5 Thinking-тен GPT‑5.4 орналастыруларына дейін шамамен 1,3 миллион сәйкестендірілмеген сөйлесуді талдадық.

Орналастыру симуляциясы жасаған орналастыру алдындағы тәуекел бағалауының сапасын үш негізгі жолмен бағалаймыз:

  • Таксономия қамтуы: шығарылымнан кейінгі аудит бастапқы жаман мінез-құлық таксономиямызда жоқ маңызды сәйкеспейтін мінез-құлықтарды анықтады ма?
  • Бағыттық дәлдік: симуляция белгілі мінез-құлықтар үшін орналастырудағы таралу арта ма, әлде азая ма, соны дұрыс болжады ма?
  • Деңгей калибрлеуі: орналастыру алдындағы бағаларымыз кейін орналастыруда байқаған деңгейлерге жақын болды ма? Жақсы деңгей калибрлеуіне қол жеткізу бағыттық дәлдіктен де көп нәрсені талап етеді, сондықтан бұл мүмкін ең жоғары сапа стандарты.

Сондай-ақ модельдердің Орналастыру симуляциясы кезінде бағалауда екенін қаншалықты аңғара алатынын өлшейміз және әдістің әртүрлі орналастыру трафигіне әрі күрделі құрал қолдану параметрлеріне қаншалықты төзімді екенін тексереміз.

Орналастыру симуляциясы орналастыру алдындағы тәуекел бағалауын айтарлықтай кеңейтеді

GPT‑5 сериясындағы Thinking орналастырулары бойынша Орналастыру симуляциясы нақты тәуекел деңгейін анықтауда күрделі көмексөз базалық көрсеткіштерінен асып түсті, шығарылымға дейін калькуляторды бұзуды анықтай алды және модель үшін орналастырудан ажырату ықтимал емес болып көрінді.

Болжамдарымызға шолу. GPT‑5 сериясындағы Thinking модельдерінің орналастыруларына арналған барлық болжамдардың визуализациясын 2-суреттен қараңыз. GPT‑5.4 Thinking үшін болжамдар алдын ала тіркелді, ал қалғандары ретроактивті болжамдар болды. Жиынтықта, болжамдарымыздың медианалық мультипликативтік қатесі 1,5x болды (мысалы, жағымсыз мінез-құлық деңгейі 100 мыңда 10 болса, бұл 100 мыңда 15 немесе 6,67 деңгейін бағалауға сәйкес келер еді). Әдісіміздің құйрық қателері шамамен 10x үлкен болуы мүмкін болса да, төменде талқыланғандай, симуляция пайплайнымызды әрі қарай жақсарту арқылы оларды айтарлықтай азайтуға болады деп күтеміз.

Алдыңғы орналастыру деректері негізінде орналастыру кезіндегі жағымсыз мінез-құлыққа Орналастыру симуляциясының нақты деңгей болжамдарын көрсететін диаграмма.

2-сурет. Орналастыру симуляциясының алдыңғы орналастыру деректері негізінде орналастыру кезіндегі жағымсыз мінез-құлық жиілігін болжауы. 5.1 → 5 белгілеуі GPT‑5‑тен алынған префикстерді GPT‑5.1 арқылы қайта іріктеп жатқанымызды, яғни GPT‑5 деректері негізінде GPT‑5.1 орналастыруын симуляциялап жатқанымызды білдіреді. Сәйкеспейтін мінез-құлықтың ең жоғары деңгейі GPT‑5.1‑дегі «калькуляторды бұзу» болды, оны біз бұрын(жаңа терезеде ашылады) талқылағанбыз.

Орналастыру симуляциясы болжамдарын базалық көрсеткіштермен салыстыру. Орналастыру алдындағы тәуекел бағалаулары үшін дұрыс бағалануы ең маңызды санаттар — модель орналастырылғаннан кейін кездесу жиілігі айтарлықтай өзгеретіндер (мысалы, >= 1,5x). Осы ішкі жиында Орналастыру симуляциясы белгілі бір жағымсыз мінез-құлық модель орналастырылғанда таралуы арта ма, әлде азая ма, соны болжауда да (3-сурет, сол жақ), оның нақты орналастыру кезіндегі кездесу жиілігін бағалауда да (3-сурет, оң жақ) базалық көрсеткіштерден едәуір жақсы. Біз екі негізгі базалық көрсеткішті қолданамыз: қазір жүйе карталары мен іске қосу шешімдері үшін пайдаланатын Күрделі көмексөздер базалық көрсеткіші және жаңа модель үшін бағалар ретінде алдыңғы орналастыру деңгейлерін қолданатын қарапайым базалық көрсеткіш.

3-сурет. Орналастыру симуляциясы статикалық бағалауларға қарағанда кездесу жиілігі өзгерістерінің бағытын да (сол жақ), нақты өндірістік деңгейлерді де (оң жақ) жақсырақ болжайды.

Пайплайнымыздағы симуляция қатесінің көздері. Біз пайплайнымыздағы ағымдағы қате көздерін де зерттедік. Атап айтқанда, үлкен құйрық қателері пайплайнды орналастыру шешімдері үшін сенімсіздеу етеді: мысалы, белгілі бір түрдегі жағымсыз мінез-құлықтың үлкен болжамды өсімін көргенде, пайплайнда анда-санда болса да үлкен қателер болатыны белгілі болса, бұл сенімді баға ма, әлде пайплайн артефакті ме деген күмән тудырады. Ықтимал қатенің екі негізгі көзі бар:

  • Қайта іріктеу ортасы шынайылығының қатесі: өндірістік деңгейлерді дәл бағалау үшін симуляция пайплайнымыз мүмкіндігінше шынайы болуы керек. Бұл бір жағынан инженерлік мәселе (модельден өндірістік трафик үшін қолданылатын дәл сол пайплайндармен іріктеу), ал бір жағынан үнемі өзгеріп тұратын сыртқы ресурстарға оқу/жазу қатынасы қажет құралдар үшін қызықты қиындық (мысалы, веб-іздеулер немесе жергілікті файлдармен әрекеттесу). Симуляция шынайылығы қатесін нақты орналастыру мен оның симуляциясынан алынған болжамдарды салыстыру арқылы оқшаулай аламыз (яғни, әлдеқашан орналастырылған модельдің орналастыруын симуляциялау).
  • Көмексөз үлестірімі ығысуының қатесі: Орналастыру симуляциясына қатысты негізгі алаңдаушылық — кез келген модельдің орналастырылуы кірістердің үлестірімдік ығысуын туғызады, әсіресе пайдаланушылар жаңа модель мүмкіндіктеріне бейімделсе. Көмексөз үлестірімі қатесін орналастыруды соңғы көмексөздермен және іске асқан орналастырудағы көмексөздермен симуляциялағанда алынған бағаларды салыстыру арқылы оқшаулаймыз.

4-суретте көрсетілгендей, пайплайнымыздағы қатенің үлкен бөлігі — әсіресе құйрық қателері үшін — қазіргі уақытта симуляция шынайылығына байланысты екенін көреміз. Бұл жақсы жаңалық, өйткені симуляция шынайылығын жақсарту көмексөз үлестірімі ығысуын азайтудан жалпы оңайырақ болады деп күтеміз. Сондай-ақ көмексөз үлестірімі ығысуының қатесін алдыңғы орналастырудың ең соңғы деректерін пайдалану арқылы азайтуға болатынын байқаймыз. Толығырақ зерттеу мақаласынан табуға болады.

4-сурет: Қайта іріктеу ортасының шынайылығы бағаларымыздағы ең үлкен қате көзі сияқты, әсіресе ең шеткі қателер үшін.

Автоматтандырылған аудит осы орналастыруларда енгізілген бір жаңа сәйкессіздікті тапты. Біз зерттеген орналастыру терезесінде симуляцияланған орналастыруларға негізделген автоматтандырылған аудит пайплайнымыз шығарылымға дейін «калькуляторды бұзуды» анықтар еді; бұл талданған ChatGPT трафигінде анықтаған жалғыз жаңа сәйкессіздік болды. Calculator hacking — модель браузер құралын калькулятор ретінде пайдаланып, бұл әрекетті іздеу ретінде көрсететін марапатты бұрмалау түрі. Бұл ауқымды аудит әрбір жаңа сәтсіздікті ұстайды дегенді білдірмейді, бірақ шынайы контекстердің неліктен маңызды екенін көрсетеді: олар симуляцияны бастау үшін пайдаланылған бастапқы трафикте болмаған күннің өзінде, тар бағалау жиындары ешқашан тікелей шығармауы мүмкін мінез-құлықтарды туындатуы мүмкін.

Бағалауды аңғаруды азайту

Орналастыруға ұқсас контекстерді қолданудың тағы бір артықшылығы — модельдер өздерінің тексеріліп жатқанын танығанда пайда болатын бұрмалануларды азайтуы мүмкін. Алдыңғы зерттеулерде біз де, басқалар(жаңа терезеде ашылады) да модельдер өздерінің қашан тексеріліп жатқанын жиі аңғаратынын анықтадық. Мысалы, модельдер ойлау тізбегінде өздерін не бойынша тексеріп жатқанын, бағалаушыға не ұнауы мүмкін екенін және — егер дұрыс әрекет етпесе — ұсталып қала ма, соны ой қорытуы мүмкін. Бұл сәйкестік бағалаулары үшін мәселе тудырады: егер модель өзін тексеріліп жатырмын деп ойлағандықтан ғана жақсы мінез көрсетсе, ол орналастырылғанын білгеннен кейін қауіпсіз әрекет ететініне қалай сенімді боламыз?

Біз Орналастыру симуляциясы нақты орналастыру деректеріне негізделмеген дәстүрлі бағалаулармен салыстырғанда модельдер көрсететін бағалауды аңғару деңгейін айтарлықтай төмендететінін көрсетеміз. Бағалауды аңғаруды үш жолмен өлшейміз: модельден траектория өндірістен бе, әлде бағалаудан ба, соны жіктеуді сұрау; ойлау тізбегінде сәйкестік үшін бағаланып жатқаны туралы айқын мәлімдемелерді бақылау; сондай-ақ метагеймингті(жаңа терезеде ашылады): қадағалау туралы кез келген ой қорытуды бақылау. Симуляцияланған орналастыру трафигі барлық үш өлшем бойынша нақты орналастыру трафигіне жақын сәйкес келді. Мысалы, GPT‑5.2 нақты өндірістік трафикті 5,4% жағдайда бағалауға ұқсас, ал симуляцияланған трафикті 5,1% жағдайда бағалауға ұқсас деп белгіледі, ал дәстүрлі бағалаулар (негізінен синтетикалық мысалдардан тұратын SWE-Bench немесе MonorepoBench сияқты) дерлік 100% жағдайда бағалау ретінде жіктелді.

5-сурет. Бағалауды аңғару салыстыруы: нақты өндірістік трафик пен симуляцияланған трафик бағалауды анықтау, вербалданған сәйкестік бағалауын аңғару және метагейминг бойынша ұқсас деңгейлер көрсетеді, ал дәстүрлі бағалау дерекжиындары әлдеқайда жоғары деңгейлерді хабарлайды.

Агенттік траекториялар үшін құрал симуляциясы

Әдіс стандартты чат режимдерінен әрі кеңейе ала ма, соны тексеру үшін біз күрделі агенттік бағдарламалау параметрлері үшін орналастыруларды симуляциялауды да зерттедік. Атап айтқанда, GPT‑5.4‑тен алынған 120 000 ішкі қызметкердің агенттік траекториясын пайдаланып, GPT‑5.5 негізіндегі бағдарламалау агенттерінің ішкі орналастыруын симуляциялаймыз. Бұл екі мақсатқа қызмет етеді: орналастыру симуляциясын ішкі орналастырулар үшін тәуекелді бағалауда да қолдануға болатынын көрсетеді және мұқият құрал симуляциясы арқылы агенттік параметрлерде де симуляция шынайылығын жоғары етуге болатынын дәлелдейді.

Жоғарыда симуляция шынайылығы қазіргі пайплайнымыздағы негізгі қате көздерінің бірі екенін талқыладық. Орналастыру симуляцияларын шынайы етудегі қиындықтардың бірі — құралдар үнемі өзгеріп тұратын сыртқы ресурстарға оқу/жазу қатынасы қажет болғанда да шынайы әрекет етуі керек (мысалы, веб-іздеулер немесе жергілікті файлдармен әрекеттесу).

Бұл әсіресе агенттік орналастырулар сияқты параметрлер үшін қиын: бір агент траекториясы жүздеген құрал шақыруларына, репозиторий күйіне, желі жауаптарына немесе өтпелі сәтсіздіктерге тәуелді болуы мүмкін. Бұл нақты құрал қатынасымен қайта іріктеуді әрі қиын, әрі ықтимал қауіпті етеді. Осыны ескере отырып, құрал шақыруларын тірі жүйелерге қолданудың орнына, оларды басқа LLM (үлкен тілдік модель) арқылы симуляциялаймыз. Біз бұл LLM (үлкен тілдік модель) қосымша мүмкіндіктер беру шынайылық үшін, демек бағалау сапасы үшін де маңызды екенін көрсетеміз.

Құрал-симулятор моделіне бастапқы соңғы айналым іске қосуын, сөйлесу уақытындағы репозиторийді, құрал шақыруы/жауабы жұптарының дерекқорын және тек оқуға арналған коннекторларды береміз. Дискриминатор симуляцияланған іске қосуларды нақты іске қосулардан ажыратуға тырысқан тестте шынайылық 11,6% жеңіс деңгейінен 49,5%-ға дейін, 50% кездейсоқтық деңгейіне жақын жақсарды.

6-сурет: Құрал шақыруларын кеңейтілген мүмкіндіктермен симуляциялағанда, құралдар көп қолданылатын жағдайларда да қайта іріктеу шынайылығын нақты іріктеуден дерлік ажыратылмайтындай етуге болады.

Симуляция шынайылығының қосымша дәлелі ретінде GPT‑5.4 Codex thinking трафигін GPT‑5.4 арқылы симуляциялағанда сәйкессіздік деңгейлері шамамен қателік аралықтарының ішінде болады. Керісінше, орналастыру алдындағы тестілеуімізде GPT‑5.5 көптеген санаттарда көбірек сәйкеспейтін болды.

7-сурет: Құрал симуляциясымен GPT‑5.4 арқылы қайта іріктелген сөйлесулер мен нақты GPT‑5.4 өндірістік трафигінің мінез-құлық деңгейлері өте ұқсас — бұл қайта іріктеу ортасының жоғары шынайылығын көрсетеді. Санаттар туралы көбірек контекст үшін GPT‑5.5 жүйе картасын(жаңа терезеде ашылады) қараңыз.

Бұл нәтижелер қоршаған құрал ортасы жеткілікті шынайылықпен симуляцияланған кезде Орналастыру симуляциясы күрделі агент параметрлеріне кеңейе алатынын көрсетеді.

WildChat және сыртқы аудит

Табиғи сұрақ: сыртқы аудиторлар жеке өндірістік трафикке қатынаусыз дәл осы артықшылықтардың бір бөлігін ала алады ма? Біз мұны префикс ретінде пайдаланылған 100 000 WildChat сөйлесуімен тексердік. WildChat соңғы OpenAI өндірістік деректеріне қарағанда дәлдігі төмен болды, бірақ бәрібір ақпаратты болды: соңғы өндірістік деректердің орташа мультипликативтік қатесі WildChat-тен төмен болды (1,75× және 2,44×), ал WildChat жиі өндірістік деңгейлерден шамамен 3× шегінде қалып, жақсырақ модельді кездейсоқтықтан жоғары деңгейде анықтады. Біз WildChat стиліндегі бағалауларды әзірлеуші жүргізетін Орналастыру симуляциясына перспективалы толықтыру деп санаймыз. Бұл мәселе бойынша көбірек нәтиже үшін осы ілеспе Alignment блог жазбасын(жаңа терезеде ашылады) қараңыз.

Шектеулер

Орналастыру симуляциясы қарсыластық бағалауларды, редтиминг және мақсатты құйрық-тәуекел талдауын алмастырмайды, оларды толықтырады. Кейбір жағымсыз модель мінез-құлықтарын анықтау ойлау тізбегінің бақылануына сүйенеді: егер болашақ модельдер азырақ түсінікті ой қорытса, негізгі қадамдарды өткізіп жіберсе немесе ниетін жасыруды үйренсе, біз жағымсыз мінез-құлықтың бұл түрлерін анықтай алмауымыз мүмкін. Сонымен қатар, өндірістік деректер жеке болғандықтан, әзірлеушілер қазіргі уақытта сыртқы аудиторларға қарағанда өкілді контекстерге күштірек қатынасқа ие. Жақсырақ қоғамдық дерекжиындар бұл алшақтықты тарылта алады.

Орналастыру симуляциясы іріктелген префикстерде көрінетіндей жиі болатын мінез-құлықтар үшін ең пайдалы. Он миллион сөйлесудің бірінде болатын сәтсіздік миллиондық іріктеме жүргізуде табылуы екіталай, сондықтан қарсыластық бағалаулар, редтиминг және мақсатты құйрық-тәуекел талдауы қажет болып қала береді. Қазіргі уақытта біз бір ассистент жауабын симуляциялауға назар аударамыз, өйткені алдын ала тәжірибелерде бірнеше айналымды симуляциялау бағаларымызға мәнді жақсарту әкелмеді. Бұл болашақта симуляция шынайылығын жақсартудың маңызды бағыты болуы мүмкін.

Әдіс префикс үлестіріміне де тәуелді — қайта іріктеліп жатқан сөйлесулердің қоспасына. Тарихи трафик ірі өнім өзгерісінен, жаңа құрал шығарылымынан, әлемдік оқиғадан немесе маусымдық ығысудан кейін пайдаланушылардың қабілеттірек модельмен қалай әрекеттесетініне сәйкес келмеуі мүмкін. Толық мақаладағы талдау бұл мәселені қолжетімді ең соңғы деректерді пайдалану арқылы жұмсартуға болатынын көрсетеді.

Қорытынды

Орналастыру симуляциясы — озық зертханалар мен бағалаушыларға тілдік модельдердің нақты әлемде қалай әрекет етуі мүмкін екенін болжауға және олар орналастыруға дейін туғызатын тәуекелдерді түсінуге көмектесетін орналастыру алдындағы тәуекел бағалаудың жаңа тәсілі. Ол бар қауіпсіздік бағалауларын, редтиминг және мақсатты талдауды орналастыру мінез-құлқының бағаларын жақсарта алатын, бағалауды аңғару әсерлерін азайтатын және орналастыру алдындағы болжамдарды шығарылымнан кейін тексерілетін ететін өндірістікке көбірек ұқсас болжау қабатын қосу арқылы толықтырады. Дәстүрлі бағалаулармен қатар қолданылғанда, Орналастыру симуляциясы модель тәуекелін бағалауды шынайырақ, сандық тұрғыдан дәлірек және орналастыру шешімдері үшін пайдалырақ етуге көмектеседі.

Автор

OpenAI