Предвиђање понашања модела пре објављивања симулацијом примене
Коришћење реалистичних контекста разговора за бољу процену непожељног понашања модела пре објављивања.
Пре објављивања новог модела, лабораторије морају да разумеју не само шта он може да уради, већ и како ће се вероватно понашати у стварној употреби, укључујући места где би могао да уведе нове ризике. То постаје још важније како се способности повећавају. У оквиру нашег безбедносног прегледа пре примене, користимо циљане евалуације, црвену команду и друге провере да бисмо разумели понашање модела. Сада смо почели да користимо метод за симулирање примена модела пре него што се догоде, што додаје комплементаран сигнал: преглед налик примени о томе како се кандидатски модел може понашати пре него што стигне до корисника.
Симулација примене је метод за симулирање будуће примене пре него што се догоди. То радимо тако што претходне разговоре поново репродукујемо на начин којим се чува приватност, са новим моделом кандидатом. То нам омогућава да пре објављивања проучимо како нови модел одговара у реалистичним контекстима, укључујући да ли се јављају нова непожељна понашања и колико често се могу појавити.
У више примена модела Thinking из серије GPT‑5, Симулација примене је побољшала наше процене стопа непожељног понашања модела, помогла да се пре објављивања открију нови облици неусклађености и помогла да се смањи ризик да модели могу да препознају да су тестирани. Метод смо применили и на захтевна увођења агената, показујући да се може проширити изван стандардног ћаскања на сложенија окружења агената која укључују употребу алата, као и да се може користити за процену ризика пре интерних примена модела.
Увиде из Симулације примене већ смо користили током развоја модела да идентификујемо слепе тачке у традиционалним евалуацијама и усмеримо ублажавања и одлуке о примени. Како поједностављујемо покретање овог процеса, очекујемо да ће имати већу улогу у будућем процесу развоја модела.
Евалуације пре примене које се користе у индустрији углавном се састоје од мешавине синтетичких, ручно написаних или продукционих инструкција намерно изабраних да буду тешке, високе озбиљности или адверзаријалне. Ове евалуације су углавном имале два испреплетена циља: да процене како модел одговара када се тестира под оптерећењем у ситуацијама које имају веома малу шансу да се појаве у саобраћају примене, и да стекну опште разумевање непожељних понашања модела, укључујући проналажење нових непожељних понашања и предвиђање њихове учесталости током примене.
Док традиционалне евалуације остају кључне за први циљ, Симулација примене представља значајан искорак у односу на други циљ за ризике који нису у репу расподеле (у нашим експериментима, од нашег приступа се не може очекивати да мери понашања која се јављају ређе од 1 у 200.000 порука). Снага Симулације примене долази из заобилажења неких основних изазова традиционалних евалуација:
- Покривеност: тешко је бити сигуран да ће инструкције за евалуацију покрити све могуће типове непожељног понашања модела. Мерење нових типова непожељног понашања захтева креирање нових евалуација и знање о томе коју штету треба мерити. То може захтевати много времена и рада, а евалуације се временом могу заситити.
- Пристрасности избора: традиционалне евалуације се углавном граде имајући на уму одређена непожељна понашања модела, изабрана на начине који пристрасно фаворизују контексте који су се раније јављали. То може учинити њихове процене мање информативним о учесталости таквих понашања у пуној ширини расподеле примене.
- Препознатљивост као тестови за моделе: модели су све способнији да утврде да су тестирани, што може изобличити њихово понашање и наша каснија мерења њихове безбедности. Иако су многе традиционалне евалуације које користимо у привредном друштву OpenAI такође изведене из продукционог саобраћаја и немају овај проблем, то је честа брига за многе традиционалне евалуације које се користе у индустрији.
Главна техника иза Симулације примене је једноставна: узимамо недавне разговоре из примене, уклањамо оригинални одговор помоћника из старијег модела и регенеришемо га кандидатским моделом који треба да буде објављен. Оцењујемо довршавања тражећи нове режиме отказа и процењујемо учесталост непожељног понашања током примене на основу учесталости у овој расподели налик примени. Иста мерења можемо обавити након објављивања на стварном саобраћају примене, што нам омогућава да потврдимо наше прогнозе пре примене.
Симулација примене значајно ублажава три горе наведена ограничења: пристрасност узорковања се решава употребом расподеле инструкција за евалуацију која представља недавну употребу. Симулација примене са репрезентативним инструкцијама може такође ублажити бриге о покривености: добијамо већу покривеност непожељних понашања модела једноставним симулирањем више саобраћаја. Ова размена између рачунарских ресурса и покривености је важна, јер омогућава да квалитет ове осе процене ризика расте са рачунарским ресурсима, а не са ручним напором потребним за изградњу више евалуација. Чини се и да модели не могу да разликују разговоре добијене путем симулације примене од стварног саобраћаја примене.
Слика 1: Преглед нашег процеса Симулације примене
Područje | Tradicionalne procene | Simulacija implementacije |
Pokrivenost | Bolje za niske prevalencije, ali velike rizike ozbiljnosti za koje želimo da budemo sigurni da imamo pokrivenost | Bolje za razumevanje spektra rizika koje ćemo verovatno videti u saobraćaju implementacije |
Reprezentativnost/pristrasnost | Fokusiran na procenu ciljanih prošlih ili predviđenih rizika, čak i za ponašanja koja imaju izuzetno nisku prevalenciju u primeni | Predstavnik rizika koji se javljaju iznad određene prevalencije u trenutnom saobraćaju implementacije |
Svest o evaluaciji | Potencijalno očigledni testni znakovi (npr. Sa sintetičkim podacima) osim ako se evali ne kreiraju pomoću podataka o primeni | Čini se da kontekst sličan implementaciji značajno ublažava svest o evalu |
Napor | Prilagođena brza distribucija i podešavanja zahtevaju znatno više ručnog napora | Zahteva jednokratni trošak infrastrukture, a zatim ponovo koristi prefikse iz primene i grejdere iz poznatih neželjenih ponašanja |
Поређење високог нивоа између традиционалних евалуација и Симулације примене
Да бисмо евалуирали Симулацију примене, унапред смо регистровали предвиђања за учесталост 20 типова непожељног понашања током примене за модел GPT‑5.4 Thinking. Такође смо спровели ретроспективне студије кроз друге примене модела Thinking из серије GPT‑5. Понашања модела која анализирамо обухватају и неусклађеност и категорије недозвољеног садржаја о којима извештавамо у системским картицама (нпр. модел лаже о алатима или генерише недозвољен сексуални садржај). Иако за ове резултате пратимо само 20 категорија непожељног понашања модела и тражимо само нова неусклађена понашања, Симулација примене је општа техника која би се могла применити за симулирање било ког својства модела током примене.
Продукциони саобраћај који смо користили такође је био из модела Thinking серије GPT‑5. Пре покретања наших евалуација, аутоматски смо уклонили идентификаторе повезане са налозима и информације којима се може идентификовати особа. У складу са нашом политиком заштите приватности, анализирали смо само саобраћај у услузи ChatGPT корисника који дозвољавају да се њихови подаци користе за побољшање модела. Из ових евалуација извештавамо само збирне налазе. Укупно смо анализирали приближно 1,3 милиона деидентификованих разговора кроз примене од модела GPT‑5 Thinking до GPT‑5.4, у периоду од августа 2025. до марта 2026.
Квалитет процене ризика пре примене коју производи Симулација примене оцењујемо на три главна начина:
- Покривеност таксономије: да ли је ревизија након објављивања открила важна неусклађена понашања која недостају у нашој почетној таксономији лошег понашања?
- Тачност смера: да ли је симулација исправно предвидела да ли ће се распрострањеност примене повећати или смањити за позната понашања?
- Калибрација стопе: да ли су наше процене пре примене биле близу стопама које смо касније посматрали у примени? Постизање добре калибрације стопе захтева више од тачности смера, што ово чини највишим могућим стандардом квалитета.
Такође меримо колико модели могу да препознају да су у евалуацији током Симулације примене и тестирамо колико је метод робустан на различите облике саобраћаја примене и захтевна окружења употребе алата.
Кроз примене модела Thinking из серије GPT‑5, Симулација примене је надмашила полазне вредности са изазовним инструкцијама у одређивању стварне стопе ризика, успела да открије хаковање калкулатора пре објављивања и делује потенцијално неразлучиво од примене за модел.
Преглед наших предвиђања. За визуелизацију свих предвиђања за примене модела Thinking из серије GPT‑5, погледајте слику 2. Предвиђања за GPT‑5.4 Thinking била су унапред регистрована, док су остала била ретроактивна предвиђања. У збиру, наша предвиђања су имала медијану мултипликативне грешке од 1,5x (нпр. ако је стопа непожељног понашања 10 на 100 хиљада, то би одговарало процени стопе од 15 или 6,67 на 100 хиљада). Иако грешке у репу нашег метода могу бити приближно 10x веће, очекујемо да се могу значајно смањити даљим побољшањима нашег процеса симулације, као што се разматра у наставку.
Слика 2. Предвиђања учесталости Симулације примене за непожељно понашање током примене на основу претходних података из примене. Ознака 5.1 → 5 значи да поново узоркујемо префиксе из модела GPT‑5 помоћу модела GPT‑5.1, односно симулирамо примену модела GPT‑5.1 на основу података из модела GPT‑5. Највиша стопа неусклађеног понашања била је „хаковање калкулатора” у моделу GPT‑5.1, о чему смо говорили раније(отвара се у новом прозору).
Поређење предвиђања Симулације примене са полазним вредностима. Најважније категорије за тачну процену у проценама ризика пре примене јесу оне које имају велике промене учесталости након примене модела (нпр. >= 1,5x). На овом подскупу, Симулација примене је знатно боља од полазних вредности и у предвиђању да ли ће се одређено непожељно понашање повећати или смањити у распрострањености са применом модела (слика 3, лево), и у процени његове тачне учесталости током примене (слика 3, десно). Користимо две главне полазне вредности: полазну вредност Изазовних инструкција, коју тренутно користимо за системске картице и одлуке о лансирању, и наивну полазну вредност која користи стопе из претходне примене као процене за нови модел.
Слика 3. Симулација примене предвиђа и смер промена учесталости (лево) и тачне продукционе стопе (десно) боље од статичких евалуација.
Извори грешке симулације у нашем процесу. Проучавали смо и тренутне изворе грешке у нашем процесу. Конкретно, велике грешке у репу чине процес мање поузданим за одлуке о примени: нпр. када се види велико предвиђено повећање непожељног понашања одређеног типа, ако се зна да процес има чак и повремене велике грешке, то изазива сумњу да ли је ово поуздана процена или артефакт процеса. Постоје два главна извора могуће грешке:
- Грешка верности окружења поновног узорковања: да би тачно проценио продукционе стопе, наш процес симулације мора бити што реалистичнији. То је делом инжењерски проблем (узорковање из модела помоћу истих процеса који се користе за продукциони саобраћај), а делом занимљив изазов за алате којима је потребан приступ читању/писању спољним ресурсима који се стално мењају (нпр. претраге веба или интеракција са локалним датотекама). Грешку верности симулације можемо изоловати поређењем предвиђања из стварне примене и њене симулације (односно, симулирањем примене већ примењеног модела).
- Грешка померања расподеле инструкција: главна брига у вези са Симулацијом примене је да ће примена било ког модела изазвати дистрибуционо померање улазних података, нарочито ако се корисници прилагоде новим могућностима модела. Грешку дистрибуције инструкција изолујемо поређењем процена када се примена симулира помоћу недавних инструкција у односу на инструкције из остварене примене.
Као што се види на слици 4, налазимо да велики део грешке у нашем процесу – посебно за грешке у репу – тренутно потиче од верности симулације. То су добре вести, јер очекујемо да ће верност симулације генерално бити лакше побољшати него смањити померање расподеле инструкција. Такође налазимо да се грешка померања расподеле инструкција може смањити коришћењем најновијих података из претходне примене. Више детаља може се наћи у истраживачком раду.
Слика 4: Верност окружења поновног узорковања изгледа као највећи извор грешке у нашим проценама, посебно за најекстремније грешке.
Аутоматизована ревизија пронашла је једну нову неусклађеност уведену у овим применама. У прозору примене који смо проучавали, наш аутоматизовани процес ревизије заснован на симулираним применама открио би „хаковање калкулатора” пре објављивања, што је била једина нова неусклађеност коју смо идентификовали у анализираном саобраћају услуге ChatGPT. Хаковање калкулатора је облик хаковања награде који подразумева да модел користи алат прегледача као калкулатор, док радњу представља као претрагу. То не значи да ће ревизија великог обима ухватити сваки нови квар, али показује зашто су реалистични контексти важни: они могу изазвати понашања која ужи скупови евалуација можда никада не би директно открили, чак и ако нису била присутна у оригиналном саобраћају коришћеном за покретање симулације.
Још једна предност употребе контекста налик примени јесте то што могу смањити изобличења која настају када модели препознају да су тестирани. У претходном истраживању, ми, као и други(отвара се у новом прозору), утврдили смо да су модели често свесни када су тестирани. Нпр. модели могу у свом начину резоновања разматрати на чему су тестирани, шта би евалуатору могло да се допадне и – ако се лоше понашају – да ли ће бити ухваћени. То представља проблем за евалуације усклађености: ако се модел добро понаша само зато што мисли да је тестиран, како да стекнемо уверење да ће се понашати безбедно када сазна да је примењен?
Показујемо да Симулација примене значајно смањује нивое свести о евалуацији које модели показују у односу на традиционалне евалуације које нису засноване на стварним подацима из примене. Свест о евалуацији меримо на три начина: тако што тражимо од модела да класификује да ли је путања дошла из продукције или евалуације, праћењем начина резоновања ради експлицитних изјава о томе да је евалуиран у погледу усклађености, као и ради метаиграња(отвара се у новом прозору): сваког резоновања о надзору. Симулирани саобраћај примене блиско се поклапао са стварним саобраћајем примене по сва три мерења. Нпр. GPT‑5.2 је стварни продукциони саобраћај означио као налик евалуацији у 5,4% случајева, а симулирани саобраћај у 5,1% случајева, док су традиционалне евалуације (као што су SWE-Bench или MonorepoBench, које се углавном састоје од синтетичких примера) класификоване као евалуације скоро 100% времена.
Слика 5. Поређење свести о евалуацији: стварни продукциони саобраћај и симулирани саобраћај показују сличне стопе за откривање евалуације, вербализовану свест о евалуацији усклађености и метаиграње, док традиционални скупови података за евалуацију пријављују много више стопе.
Да бисмо тестирали да ли се метод може проширити изван стандардних режима ћаскања, проучавали смо и симулирање примена за захтевна окружења програмирања од стране агента. Конкретно, користимо 120.000 интерних путања агената запослених из модела GPT‑5.4 да симулирамо интерну примену агената за кодирање заснованих на моделу GPT‑5.5. То служи двема сврхама: показује како се симулација примене може користити и за процену ризика у интерним применама, и показује да је могуће постићи високу верност симулације чак и у окружењима агената пажљивом симулацијом алата.
Горе смо разматрали да је верност симулације један од главних извора грешке у нашем тренутном процесу. Један од изазова у стварању реалистичних симулација примене јесте то што захтева да алати делују на реалистичне начине, чак и када им је потребан приступ читању/писању спољним ресурсима који се стално мењају (нпр. претраге веба или интеракција са локалним датотекама).
То је посебно изазовно за окружења као што су примене агената: једна путања агента може зависити од стотина позива алата, стања депоа, мрежних одговора или пролазних отказа. Због тога је поновно узорковање са стварним приступом алатима и изазовно и потенцијално опасно. Имајући то у виду, уместо примене позива алата на живе системе, симулирамо их другим великим језичким моделом (LLM). Показујемо да је давање додатних могућности овом LLM-у суштинско за реализам, а самим тим и за квалитет процене.
Моделу симулатора алата дајемо оригинално увођење последњег потеза, депо из времена разговора, базу података парова позив алата/одговор и конекторе само за читање. У тесту у којем је дискриминатор покушавао да разликује симулирана увођења од стварних, реализам се побољшао са стопе победе од 11,6% на 49,5%, близу нивоа случајности од 50%.
Слика 6: Реализам поновног узорковања може се учинити готово неразлучивим од стварног узорковања чак и у окружењима са много алата, када се позиви алата симулирају са повећаним могућностима.
Као додатни доказ верности симулације, када се саобраћаја резоновања модела GPT‑5.4 услуге Codex симулира помоћу модела GPT‑5.4, стопе неусклађености су, отприлике, унутар интервала грешке. Насупрот томе, у нашем тестирању пре примене GPT‑5.5 је био неусклађенији у већини категорија.
Слика 7: Уз симулацију алата, стопе понашања за разговоре поново узорковане помоћу модела GPT‑5.4 и стварни продукциони саобраћај модела GPT‑5.4 прилично су сличне – што указује на високу верност окружења поновног узорковања. Погледајте системску картицу модела GPT‑5.5(отвара се у новом прозору) да бисте пронашли више контекста о категоријама.
Ови резултати сугеришу да се Симулација примене може проширити на сложена окружења агената када се околно окружење алата симулира са довољном верношћу.
Природно питање је да ли спољни ревизори могу добити неке од истих користи без приступа приватном продукционом саобраћају. То смо тестирали са 100.000 разговора у услузи WildChat коришћених као префикси. WildChat је био мање тачан од недавних продукционих података привредног друштва OpenAI, али и даље информативан: недавни продукциони подаци имали су нижу просечну мултипликативну грешку од услуге WildChat (1,75× наспрам 2,44×), док је WildChat често остајао у оквиру приближно 3× продукционих стопа и идентификовао бољи модел стопама изнад случајности. Евалуације у стилу услуге WildChat видимо као обећавајућу допуну Симулацији примене коју спроводе програмери. Погледајте ову пратећу објаву на блогу о усклађености(отвара се у новом прозору) да бисте пронашли више резултата о овој тачки.
Симулација примене је допуна, а не замена за адверзаријалне евалуације, црвену команду и циљану анализу ризика у репу. Откривање неких непожељних понашања модела ослања се на могућност праћења начина резоновања: ако будући модели резонују мање читљиво, изостављају кључне кораке или науче да прикрију намеру, можда нећемо моћи да откријемо ове облике непожељног понашања. Поред тога, пошто су продукциони подаци приватни, програмери тренутно имају јачи приступ репрезентативним контекстима него спољни ревизори. Бољи јавни скупови података могли би да смање тај јаз.
Симулација примене је најкориснија за понашања која се јављају довољно често да се појаве у узоркованим префиксима. Квар који се јавља једном у десет милиона разговора вероватно неће бити откривен у покретању са милион узорака, па су адверзаријалне евалуације, црвена команда и циљана анализа ризика у репу и даље неопходни. Тренутно се фокусирамо на симулирање једног одговора помоћника, јер у прелиминарним експериментима нисмо нашли значајна побољшања наших процена симулирањем више потеза. То би у будућности могло бити важно подручје за побољшање верности симулације.
Метод такође зависи од расподеле префикса – мешавине разговора који се поново узоркују. Историјски саобраћај можда неће одговарати начину на који корисници комуницирају са способнијим моделом након велике промене производа, објављивања новог алата, светског догађаја или сезонског померања. Анализа у пуном раду сугерише да се овај проблем може ублажити коришћењем најновијих доступних података.
Симулација примене је нов приступ процени ризика пре примене који помаже граничним лабораторијама и евалуаторима да предвиде како се језички модели могу понашати у стварном свету и да разумеју ризике које представљају пре примене. Она допуњује постојеће безбедносне евалуације, црвену команду и циљану анализу додавањем предиктивног слоја сличнијег продукцији који може побољшати процене понашања у примени, смањити ефекте свести о евалуацији и учинити предвиђања пре примене проверљивим након објављивања. Коришћена уз традиционалне евалуације, Симулација примене може помоћи да процена ризика модела буде реалистичнија, квантитативнија и кориснија за одлуке о примени.


