Predviđanje ponašanja modela prije objave simuliranjem implementacije
Upotreba realističnih konteksta razgovora za bolju procjenu neželjenog ponašanja modela prije objave.
Prije objave novog modela laboratoriji moraju razumjeti ne samo što model može učiniti, nego i kako će se vjerojatno ponašati u stvarnoj upotrebi, uključujući situacije u kojima bi mogao uvesti nove rizike. To postaje još važnije kako se njegove mogućnosti povećavaju. U sklopu sigurnosne provjere prije implementacije upotrebljavamo ciljane evaluacije, red-team testiranje (simulirane sigurnosne napade) i druge provjere kako bismo razumjeli ponašanje modela. Sada smo počeli upotrebljavati metodu za simuliranje implementacija modela prije nego što se dogode, čime dobivamo dodatni signal: pregled nalik stvarnoj implementaciji koji pokazuje kako bi se model kandidat mogao ponašati prije nego što dođe do korisnika.
Deployment Simulation metoda je za simuliranje buduće implementacije prije nego što se ona dogodi. To činimo ponovnim reproduciranjem prethodnih razgovora na način koji štiti privatnost, s novim modelom kandidatom. To nam omogućuje da prije objave proučimo kako novi model odgovara u realističnim kontekstima, uključujući pojavljuju li se nova neželjena ponašanja i koliko se često mogu pojaviti.
U više implementacija modela Thinking serije GPT‑5, Deployment Simulation poboljšao je naše procjene stopa neželjenog ponašanja modela, pomogao otkriti nove oblike neusklađenosti prije objave i smanjiti rizik da modeli prepoznaju da ih se testira. Metodu smo primijenili i na zahtjevna agentska uvođenja, čime smo pokazali da se može proširiti izvan standardnog chata na složenije agentske postavke koje uključuju upotrebu alata te da se može koristiti i za procjenu rizika prije internih implementacija modela.
Uvide iz metode Deployment Simulation već smo upotrijebili tijekom razvoja modela kako bismo prepoznali slijepe točke u tradicionalnim evaluacijama te usmjerili mjere ublažavanja i odluke o implementaciji. Kako pojednostavljujemo pokretanje tog postupka, očekujemo da će imati veću ulogu u budućem procesu razvoja modela.
Evaluacije prije implementacije koje se koriste u cijelom sektoru uglavnom se sastoje od kombinacije sintetičkih, ručno napisanih ili produkcijskih upita koji su namjerno odabrani kao zahtjevni, visokorizični ili suparnički. Te su evaluacije uglavnom imale dva isprepletena cilja: procijeniti kako model odgovara kada ga se testira pod opterećenjem u situacijama za koje postoji vrlo mala vjerojatnost da će se pojaviti u prometu implementacije te steći opće razumijevanje neželjenih ponašanja modela, uključujući pronalaženje novih neželjenih ponašanja i predviđanje njihove učestalosti tijekom implementacije.
Iako su tradicionalne evaluacije i dalje ključne za prvi cilj, Deployment Simulation predstavlja značajan korak naprijed u pogledu drugog cilja za rizike koji nisu na repu distribucije (u našim eksperimentima od našeg se pristupa ne može očekivati da mjeri ponašanja koja se pojavljuju rjeđe od 1 u 200.000 poruka). Snaga metode Deployment Simulation proizlazi iz toga što zaobilazi neke ključne izazove tradicionalnih evaluacija:
- Pokrivenost: teško je biti siguran da će evaluacijski upiti pokriti sve moguće vrste neželjenog ponašanja modela. Mjerenje novih vrsta neželjenog ponašanja zahtijeva stvaranje novih evaluacija i znanje o tome koje štetne pojave treba mjeriti. To može zahtijevati mnogo vremena i rada, a evaluacije se s vremenom mogu zasititi.
- Pristranosti odabira: tradicionalne evaluacije uglavnom se izrađuju s određenim neželjenim ponašanjima modela na umu, a primjeri se odabiru na načine koji naginju kontekstima koji su se već pojavili. Zbog toga njihove procjene mogu biti manje informativne o pojavnosti takvih ponašanja u punom rasponu distribucije implementacije.
- Prepoznatljivost testova za modele: modeli sve uspješnije mogu prepoznati da ih se testira, što može iskriviti njihovo ponašanje i naša kasnija mjerenja njihove sigurnosti. Iako mnoge tradicionalne evaluacije koje koristimo u OpenAI-u također potječu iz produkcijskog prometa i nemaju taj problem, to je česta bojazan kod mnogih tradicionalnih evaluacija koje se koriste u cijelom sektoru.
Glavna tehnika na kojoj se temelji Deployment Simulation jednostavna je: uzimamo nedavne razgovore iz implementacije, uklanjamo izvorni odgovor asistenta starijeg modela i ponovno ga generiramo modelom kandidatom koji se priprema za objavu. Dovršetke evaluiramo traženjem novih načina zakazivanja te procjenjujemo učestalost neželjenog ponašanja tijekom implementacije na temelju njegove učestalosti u toj distribuciji nalik implementaciji. Ista mjerenja možemo provesti nakon objave na stvarnom prometu implementacije, što nam omogućuje validaciju prognoza prije implementacije.
Deployment Simulation znatno ublažava tri prethodno navedena ograničenja: pristranost uzorkovanja rješava se upotrebom distribucije evaluacijskih upita koja je reprezentativna za nedavnu upotrebu. Deployment Simulation s reprezentativnim upitima može ublažiti i bojazni povezane s pokrivenošću: veću pokrivenost neželjenih ponašanja modela dobivamo jednostavnim simuliranjem većeg opsega prometa. Taj kompromis između računalnih resursa i pokrivenosti važan je jer kvaliteta ove osi procjene rizika tada raste s dostupnim računalnim resursima, a ne s ručnim radom potrebnim za izradu dodatnih evaluacija. Čini se i da modeli ne mogu razlikovati razgovore dobivene simulacijom implementacije od stvarnog prometa implementacije.
Slika 1: Pregled našeg postupka Deployment Simulation
Područje | Tradicionalne evaluacije | Deployment Simulation |
Pokrivenost | Bolje za rizike niske prevalencije, ali velike ozbiljnosti, za koje želimo osigurati pokrivenost | Bolje za razumijevanje spektra rizika koje ćemo vjerojatno vidjeti u prometu implementacije |
Reprezentativnost / pristranost | Usredotočeno na evaluaciju ciljanih prošlih ili predviđenih rizika, čak i za ponašanja s iznimno niskom prevalencijom u implementaciji | Reprezentativno za rizike koji se pojavljuju iznad određene prevalencije u trenutačnom prometu implementacije |
Svjesnost evaluacije | Potencijalno očiti testni signali (npr. kod sintetičkih podataka), osim ako se evaluacije izrađuju s pomoću podataka iz implementacije | Čini se da kontekst nalik implementaciji znatno ublažava svjesnost evaluacije |
Napor | Prilagođene distribucije upita i postavke zahtijevaju znatno više ručnog rada | Zahtijeva jednokratan infrastrukturni trošak, a zatim ponovno koristi prefikse iz implementacije i ocjenjivače za poznata neželjena ponašanja |
Usporedba na visokoj razini između tradicionalnih evaluacija i Deployment Simulationa
Kako bismo evaluirali Deployment Simulation, unaprijed smo registrirali predviđanja učestalosti 20 vrsta neželjenog ponašanja tijekom implementacije za GPT‑5.4 Thinking. Proveli smo i retrospektivne studije u drugim implementacijama modela Thinking serije GPT‑5. Ponašanja modela koja analiziramo obuhvaćaju i neusklađenost i kategorije nedopuštenog sadržaja o kojima izvještavamo u dokumentima o sustavu, primjerice kada model iznosi neistinite tvrdnje o alatima ili generira nedopušten seksualni sadržaj. Iako za ove rezultate pratimo samo 20 kategorija neželjenog ponašanja modela i tražimo samo nova neusklađena ponašanja, Deployment Simulation opća je tehnika koja bi se mogla primijeniti za simuliranje bilo kojeg svojstva modela tijekom implementacije.
Produkcijski promet koji smo upotrijebili također je potjecao iz modela Thinking serije GPT‑5. Prije pokretanja evaluacija automatski smo uklonili identifikatore povezane s računima i podatke koji omogućuju identifikaciju. U skladu s našom politikom privatnosti analizirali smo samo ChatGPT promet korisnika koji dopuštaju upotrebu svojih podataka za poboljšanja modela. Iz tih evaluacija izvještavamo samo o agregiranim nalazima. Ukupno smo analizirali približno 1,3 milijuna deidentificiranih razgovora u implementacijama od GPT‑5 Thinking do GPT‑5.4, u razdoblju od kolovoza 2025. do ožujka 2026.
Kvalitetu procjene rizika prije implementacije dobivene metodom Deployment Simulation evaluiramo na tri glavna načina:
- Pokrivenost taksonomije: je li revizija nakon objave otkrila važna neusklađena ponašanja koja nedostaju u našoj početnoj taksonomiji nepoželjnih ponašanja?
- Točnost smjera: je li simulacija točno predvidjela hoće li se prevalencija poznatih ponašanja pri implementaciji povećati ili smanjiti?
- Kalibracija stopa: jesu li naše procjene prije implementacije bile blizu stopama koje smo kasnije uočili u implementaciji? Postizanje dobre kalibracije stopa zahtijeva više od točnosti smjera, pa je to najviši mogući standard kvalitete.
Mjerimo i koliko modeli mogu prepoznati da su u evaluaciji tijekom metode Deployment Simulation te testiramo koliko je metoda robusna na različite oblike prometa implementacije i na zahtjevne postavke upotrebe alata.
U implementacijama modela Thinking serije GPT‑5, Deployment Simulation nadmašio je referentne metode s izazovnim upitima u određivanju stvarne stope rizika, uspio otkriti hakiranje kalkulatora prije objave i modelu se činio potencijalno nerazlučivim od stvarne implementacije.
Pregled naših predviđanja. Za vizualizaciju svih predviđanja za implementacije modela Thinking serije GPT‑5 pogledajte Sliku 2. Predviđanja za GPT‑5.4 Thinking bila su unaprijed registrirana, dok su ostala bila retroaktivna predviđanja. Agregirano, naša su predviđanja imala medijan multiplikativne pogreške od 1,5x (npr. ako je stopa neželjenog ponašanja 10 na 100 tisuća, to bi odgovaralo procjeni stope od 15 ili 6,67 na 100 tisuća). Iako pogreške na repu distribucije kod naše metode mogu biti približno 10x veće, očekujemo da se mogu znatno smanjiti daljnjim poboljšanjima našeg simulacijskog postupka, kako je opisano u nastavku.
Slika 2. Predviđanja učestalosti neželjenog ponašanja tijekom implementacije metodom Deployment Simulation na temelju prethodnih podataka o implementaciji. Oznaka 5.1 → 5 znači da prefikse iz GPT‑5 ponovno uzorkujemo pomoću GPT‑5.1, odnosno simuliramo implementaciju GPT‑5.1 na temelju podataka iz GPT‑5. Najviša stopa neusklađenog ponašanja zabilježena je za „hakiranje kalkulatora” u GPT‑5.1, o čemu smo već govorili(otvara se u novom prozoru).
Usporedba predviđanja metode Deployment Simulation s referentnim metodama. Najvažnije kategorije koje treba točno procijeniti za procjene rizika prije implementacije jesu one u kojima nakon implementacije modela dolazi do velikih promjena pojavnosti (npr. >= 1,5x). Na tom je podskupu Deployment Simulation znatno bolji od referentnih metoda i u predviđanju hoće li se prevalencija određenog neželjenog ponašanja povećati ili smanjiti s implementacijom modela (Slika 3, lijevo) i u procjeni njegove točne pojavnosti tijekom implementacije (Slika 3, desno). Koristimo dvije glavne referentne metode: metodu izazovnih upita, koju trenutačno koristimo za dokumente o sustavu i odluke o lansiranju, te naivnu referentnu metodu u kojoj se stope iz prethodne implementacije koriste kao procjene za novi model.
Slika 3. Deployment Simulation bolje od statičkih evaluacija predviđa i smjer promjena pojavnosti (lijevo) i točne produkcijske stope (desno).
Izvori pogreške simulacije u našem postupku. Proučavali smo i trenutačne izvore pogreške u našem postupku. Konkretno, velike pogreške na repu distribucije čine postupak manje pouzdanim za odluke o implementaciji: primjerice, kada se vidi veliko predviđeno povećanje određene vrste neželjenog ponašanja, ako je poznato da postupak ima makar povremene velike pogreške, javlja se sumnja u to je li riječ o pouzdanoj procjeni ili artefaktu postupka. Postoje dva glavna izvora moguće pogreške:
- Pogreška vjernosti okruženja ponovnog uzorkovanja: da bismo točno procijenili produkcijske stope, naš simulacijski postupak mora biti što realističniji. To je dijelom inženjerski problem (uzorkovanje iz modela pomoću istih postupaka koji se koriste za produkcijski promet), a dijelom zanimljiv izazov za alate kojima je potreban pristup čitanja/pisanja vanjskim resursima koji se stalno mijenjaju (npr. web-pretraživanja ili interakcija s lokalnim datotekama). Pogrešku vjernosti simulacije možemo izolirati usporedbom predviđanja iz stvarne implementacije i njezine simulacije (odnosno simuliranjem implementacije već implementiranog modela).
- Pogreška pomaka distribucije upita: velika bojazan kod metode Deployment Simulation jest to što će implementacija bilo kojeg modela uzrokovati distribucijski pomak u ulazima, osobito ako se korisnici prilagode novim mogućnostima modela. Pogrešku distribucije upita izoliramo usporedbom procjena pri simuliranju implementacije s nedavnim upitima u odnosu na upite iz ostvarene implementacije.
Kao što se vidi na Slici 4, velik dio pogreške u našem postupku – osobito kod pogrešaka na repu distribucije – trenutačno proizlazi iz vjernosti simulacije. To je dobra vijest jer očekujemo da je vjernost simulacije općenito lakše poboljšati nego smanjiti pomak distribucije upita. Također nalazimo da se pogreška pomaka distribucije upita može smanjiti upotrebom najnovijih podataka iz prethodne implementacije. Više pojedinosti nalazi se u istraživačkom radu.
Slika 4: Čini se da je vjernost okruženja ponovnog uzorkovanja najveći izvor pogreške u našim procjenama, osobito za najekstremnije pogreške.
Automatizirana revizija pronašla je jednu novu neusklađenost uvedenu u tim implementacijama. U razdoblju implementacije koje smo proučavali, naš postupak automatizirane revizije temeljen na simuliranim implementacijama otkrio bi „hakiranje kalkulatora” prije objave, što je bila jedina nova neusklađenost koju smo identificirali u analiziranom ChatGPT prometu. Hakiranje kalkulatora oblik je hakiranja nagrade u kojem model upotrebljava alat preglednika kao kalkulator, a radnju prikazuje kao pretraživanje. To ne znači da će revizija velikih razmjera uhvatiti svaki novi neuspjeh, ali pokazuje zašto su realistični konteksti važni: mogu izazvati ponašanja koja uži skupovi evaluacija možda nikada ne bi izravno otkrili, čak i ako nisu bila prisutna u izvornom prometu korištenom za pokretanje simulacije.
Još jedna prednost upotrebe konteksta nalik implementaciji jest to što mogu smanjiti iskrivljenja koja nastaju kada modeli prepoznaju da ih se testira. U ranijim istraživanjima mi smo, kao i drugi(otvara se u novom prozoru), utvrdili da su modeli često svjesni kad ih se testira. Primjerice, modeli mogu u svom lancu razmišljanja rasuđivati o tome na čemu ih se testira, što bi se evaluatoru moglo svidjeti i – ako se ne ponašaju kako bi trebali – hoće li biti uhvaćeni. To predstavlja problem za evaluacije usklađenosti: ako se model dobro ponaša samo zato što misli da ga se testira, kako možemo steći povjerenje da će se ponašati sigurno kada sazna da je implementiran?
Pokazujemo da Deployment Simulation znatno smanjuje razine svjesnosti evaluacije koje modeli pokazuju u odnosu na tradicionalne evaluacije koje se ne temelje na stvarnim podacima implementacije. Svjesnost evaluacije mjerimo na tri načina: traženjem od modela da klasificira potječe li trajektorija iz produkcije ili evaluacije, praćenjem lanca razmišljanja radi izričitih izjava o tome da se evaluira usklađenost te radi metagaminga(otvara se u novom prozoru), odnosno svakog rasuđivanja o nadzoru. Simulirani promet implementacije blisko se podudarao sa stvarnim prometom implementacije u sve tri mjere. Primjerice, GPT‑5.2 označio je stvarni produkcijski promet kao nalik evaluaciji u 5,4% slučajeva, a simulirani promet u 5,1% slučajeva, dok su tradicionalne evaluacije (poput SWE-Bench ili MonorepoBench, koje se uglavnom sastoje od sintetičkih primjera) klasificirane kao evaluacije gotovo 100% vremena.
Slika 5. Usporedba svjesnosti evaluacije: stvarni produkcijski promet i simulirani promet pokazuju slične stope za otkrivanje evaluacije, verbaliziranu svjesnost evaluacije usklađenosti i metagaming, dok tradicionalni evaluacijski skupovi podataka bilježe mnogo više stope.
Kako bismo testirali može li se metoda proširiti izvan standardnih chat načina rada, proučavali smo i simuliranje implementacija za zahtjevne agentske postavke kodiranja. Konkretno, koristimo 120.000 internih agentskih trajektorija zaposlenika iz GPT‑5.4 kako bismo simulirali internu implementaciju agenata za kodiranje temeljenih na modelu GPT‑5.5. To služi dvjema svrhama: pokazuje kako se simulacija implementacije može koristiti i za procjenu rizika internih implementacija te pokazuje da je moguće postići visoku vjernost simulacije čak i u agentskim postavkama pažljivom simulacijom alata.
Gore smo naveli da je vjernost simulacije jedan od glavnih izvora pogreške u našem trenutačnom postupku. Jedan od izazova u stvaranju realističnih simulacija implementacije jest to što alati moraju djelovati realistično, čak i kada im je potreban pristup čitanja/pisanja vanjskim resursima koji se stalno mijenjaju (npr. web-pretraživanjima ili lokalnim datotekama).
To je posebno izazovno za postavke poput agentskih implementacija: jedna agentska trajektorija može ovisiti o stotinama poziva alata, stanju repozitorija, mrežnim odgovorima ili prolaznim kvarovima. Zbog toga je ponovno uzorkovanje sa stvarnim pristupom alatima i zahtjevno i potencijalno opasno. S obzirom na to, umjesto primjene poziva alata na aktivne sustave, simuliramo ih drugim LLM-om. Pokazujemo da je davanje dodatnih mogućnosti tom LLM-u ključno za realizam, a time i za kvalitetu procjene.
Modelu koji simulira alate dajemo izvorni rollout završnog poteza, repozitorij iz vremena razgovora, bazu podataka parova poziva alata i odgovora te konektore samo za čitanje. U testu u kojem je diskriminator pokušao razlikovati simulirane rolloutove od stvarnih, realizam se poboljšao sa stope pobjede od 11,6 % na 49,5 %, blizu razine slučaja od 50 %.
Slika 6: realizam ponovnog uzorkovanja može se učiniti gotovo nerazlučivim od stvarnog uzorkovanja čak i u postavkama s intenzivnom upotrebom alata kada se pozivi alata simuliraju uz proširene mogućnosti.
Kao dodatni dokaz vjernosti simulacije, kada simuliramo GPT‑5.4 Codex thinking promet pomoću GPT‑5.4, stope neusklađenosti gotovo su unutar granica pogreške. Nasuprot tome, u našem testiranju prije implementacije GPT‑5.5 bio je neusklađeniji u većini kategorija.
Slika 7: uz simulaciju alata, stope ponašanja za razgovore ponovno uzorkovane pomoću GPT‑5.4 i za stvarni produkcijski promet GPT‑5.4 prilično su slične – što upućuje na visoku vjernost okruženja ponovnog uzorkovanja. Pogledajte dokument o sustavu GPT‑5.5(otvara se u novom prozoru) za više konteksta o kategorijama.
Ti rezultati upućuju na to da se Deployment Simulation može proširiti na složene agentske postavke kada se okolno okruženje alata simulira s dovoljnom vjernošću.
Prirodno je pitanje mogu li vanjski revizori dobiti neke od istih koristi bez pristupa privatnom produkcijskom prometu. To smo testirali sa 100.000 WildChat razgovora korištenih kao prefiksi. WildChat je bio manje točan od nedavnih produkcijskih podataka OpenAI-a, ali i dalje informativan: nedavni produkcijski podaci imali su nižu prosječnu multiplikativnu pogrešku od WildChata (1,75× naspram 2,44×), dok je WildChat često ostajao unutar otprilike 3× produkcijskih stopa i identificirao bolji model stopama iznad razine slučaja. Evaluacije u stilu WildChata vidimo kao obećavajuću dopunu metodi Deployment Simulation koju provode razvojni timovi. Više rezultata o toj temi potražite u ovoj popratnoj objavi na blogu Alignment(otvara se u novom prozoru).
Deployment Simulation dopuna je, a ne zamjena za suparničke evaluacije, red-team testiranje (simulirane sigurnosne napade) i ciljanu analizu rizika na repu distribucije. Otkrivanje nekih neželjenih ponašanja modela oslanja se na mogućnost praćenja lanca razmišljanja: ako budući modeli rasuđuju manje čitljivo, izostavljaju ključne korake ili nauče prikrivati namjeru, možda nećemo moći otkriti te oblike neželjenog ponašanja. Nadalje, budući da su produkcijski podaci privatni, razvojni timovi trenutačno imaju bolji pristup reprezentativnim kontekstima od vanjskih revizora. Bolji javni skupovi podataka mogli bi smanjiti taj jaz.
Metoda Deployment Simulation najkorisnija je za ponašanja koja se pojavljuju dovoljno često da se pojave u uzorkovanim prefiksima. Neuspjeh koji se pojavljuje jednom u deset milijuna razgovora vjerojatno neće biti otkriven u izvođenju s milijun uzoraka, pa su suparničke evaluacije, red-team testiranje (simulirani sigurnosni napadi) i ciljana analiza rizika na repu distribucije i dalje potrebni. Trenutačno se usredotočujemo na simuliranje jednog odgovora asistenta jer u preliminarnim eksperimentima nismo pronašli značajna poboljšanja svojih procjena simuliranjem više poteza. To bi u budućnosti moglo biti važno područje za poboljšanje vjernosti simulacije.
Metoda također ovisi o distribuciji prefiksa – kombinaciji razgovora koji se ponovno uzorkuju. Povijesni promet možda neće odgovarati načinu na koji korisnici komuniciraju sa sposobnijim modelom nakon velike promjene proizvoda, objave novog alata, svjetskog događaja ili sezonskog pomaka. Analiza u cijelom radu sugerira da se taj problem može ublažiti upotrebom najnovijih dostupnih podataka.
Deployment Simulation nov je pristup procjeni rizika prije implementacije koji laboratorijima za najnaprednije modele i evaluatorima pomaže predvidjeti kako se jezični modeli mogu ponašati u stvarnom svijetu i razumjeti rizike koje predstavljaju prije implementacije. Dopunjuje postojeće sigurnosne evaluacije, red-team testiranje (simulirane sigurnosne napade) i ciljanu analizu dodavanjem sloja predviđanja sličnijeg produkciji, koji može poboljšati procjene ponašanja u implementaciji, smanjiti učinke svjesnosti evaluacije i učiniti predviđanja prije implementacije provjerljivima nakon objave. Kada se koristi uz tradicionalne evaluacije, Deployment Simulation može pomoći da procjena rizika modela bude realističnija, kvantitativnija i korisnija za odluke o implementaciji.


