Predviđanje ponašanja modela prije objave simuliranjem implementacije
Korištenje realističnih konteksta razgovora za bolju procjenu nepoželjnog ponašanja modela prije objave.
Prije objavljivanja novog modela, laboratoriji moraju razumjeti ne samo šta on može uraditi, već i kako će se vjerovatno ponašati u stvarnoj upotrebi, uključujući mjesta gdje bi mogao uvesti nove rizike. To postaje još važnije kako se sposobnosti povećavaju. Kao dio našeg sigurnosnog pregleda prije implementacije, koristimo ciljane evaluacije, red-teaming i druge provjere kako bismo razumjeli ponašanje modela. Sada smo počeli koristiti metodu za simuliranje implementacija modela prije nego što se dogode, što dodaje komplementaran signal: pregled sličan implementaciji toga kako bi se kandidatni model mogao ponašati prije nego što dođe do korisnika.
Simulacija implementacije je metoda za simuliranje buduće implementacije prije nego što se ona dogodi. To radimo ponovnim pokretanjem prethodnih razgovora na način koji čuva privatnost, s novim kandidatnim modelom. To nam omogućava da prije objave proučimo kako novi model odgovara u realističnim kontekstima, uključujući to da li se pojavljuju nova nepoželjna ponašanja i koliko se često mogu pojaviti.
Kroz više implementacija Thinking modela iz serije GPT‑5, Simulacija implementacije poboljšala je naše procjene stopa nepoželjnog ponašanja modela, pomogla da se prije objave otkriju novi oblici neusklađenosti i pomogla smanjiti rizik da modeli mogu prepoznati da se testiraju. Metodu smo primijenili i na zahtjevna agentska uvođenja, pokazujući da se može proširiti izvan standardnog chata na složenija okruženja agenta koja uključuju upotrebu alata, te da se može koristiti i za procjenu rizika prije internih implementacija modela.
Već smo koristili uvide iz Simulacije implementacije tokom razvoja modela kako bismo identificirali slijepe tačke u tradicionalnim evaluacijama i informirali mjere ublažavanja i odluke o implementaciji. Kako budemo olakšavali pokretanje ovog toka rada, očekujemo da će imati veću ulogu u budućem procesu razvoja modela.
Evaluacije prije implementacije koje se koriste u industriji uglavnom se sastoje od kombinacije sintetičkih, ručno napisanih ili produkcijskih upita namjerno odabranih da budu teški, visokog stepena ozbiljnosti ili adversarijalni. Ove evaluacije su uglavnom imale dva isprepletena cilja: procijeniti kako model odgovara kada se testira pod opterećenjem u situacijama koje imaju vrlo malu šansu da se pojave u implementacijskom saobraćaju, te steći opće razumijevanje nepoželjnih ponašanja modela, uključujući pronalaženje novih nepoželjnih ponašanja i predviđanje njihove učestalosti u vrijeme implementacije.
Iako tradicionalne evaluacije ostaju ključne za prvi cilj, Simulacija implementacije predstavlja značajan korak naprijed u pogledu drugog cilja za rizike koji nisu na krajnjem repu distribucije (u našim eksperimentima ne može se očekivati da naš pristup izmjeri ponašanja koja se javljaju učestalošću manjom od 1 u 200.000 poruka). Snaga Simulacije implementacije dolazi iz zaobilaženja nekih ključnih izazova tradicionalnih evaluacija:
- Pokrivenost: teško je biti siguran da će evaluacijski upiti pokriti sve moguće vrste nepoželjnog ponašanja modela. Mjerenje novih vrsta nepoželjnog ponašanja zahtijeva izradu novih evaluacija i znanje o tome koje štete treba mjeriti. To može zahtijevati mnogo vremena i rada, a evaluacije se s vremenom mogu zasititi.
- Pristrasnosti odabira: tradicionalne evaluacije uglavnom se grade imajući na umu specifična nepoželjna ponašanja modela, odabrana na načine koji naginju ka kontekstima koji su se ranije pojavljivali. To može učiniti njihove procjene manje informativnim o učestalosti takvih ponašanja u punoj širini distribucije implementacije.
- Prepoznatljivost testova za modele: modeli su sve sposobniji odrediti da se testiraju, što može iskriviti njihovo ponašanje i naša naknadna mjerenja njihove sigurnosti. Iako su mnoge tradicionalne evaluacije koje koristimo u OpenAI također izvučene iz produkcijskog saobraćaja i ne pate od ovog problema, to je česta briga za mnoge tradicionalne evaluacije koje se koriste širom industrije.
Glavna tehnika iza Simulacije implementacije je jednostavna: uzimamo nedavne razgovore iz implementacije, uklanjamo originalni odgovor asistenta iz starijeg modela i ponovo ga generiramo kandidatnim modelom koji treba biti objavljen. Evaluiramo dovršetke tražeći nove načine neuspjeha i procjenjujemo učestalost nepoželjnog ponašanja u vrijeme implementacije na osnovu učestalosti u ovoj distribuciji nalik implementaciji. Ista mjerenja možemo obaviti nakon objave na stvarnom implementacijskom saobraćaju, što nam omogućava da validiramo naša predviđanja prije implementacije.
Simulacija implementacije značajno ublažava tri gore navedena ograničenja: pristrasnost uzorkovanja rješava se korištenjem distribucije evaluacijskih upita reprezentativne za nedavnu upotrebu. Simulacija implementacije s reprezentativnim upitima također može ublažiti brige oko pokrivenosti: dobijamo veću pokrivenost nepoželjnih ponašanja modela jednostavnim simuliranjem više saobraćaja. Ova razmjena između računske snage i pokrivenosti važna je jer čini da se kvalitet ove ose procjene rizika skalira s računanjem, a ne s ručnim naporom potrebnim za izradu više evaluacija. Čini se i da modeli ne mogu razlikovati razgovore dobijene simulacijom implementacije od stvarnog implementacijskog saobraćaja.
Slika 1: Pregled našeg toka rada za Simulaciju implementacije
Područje | Tradicionalne evaluacije | Simulacija implementacije |
Pokrivenost | Bolje za rizike niske prevalencije, ali velike ozbiljnosti, za koje želimo biti sigurni da ih pokrivamo | Bolje za razumijevanje spektra rizika koje ćemo vjerovatno vidjeti u implementacijskom saobraćaju |
Reprezentativnost / pristrasnost | Fokusirano na evaluaciju ciljanih prošlih ili predviđenih rizika, čak i za ponašanja koja imaju izuzetno nisku prevalenciju u implementaciji | Reprezentativno za rizike koji se javljaju iznad određene prevalencije u trenutnom implementacijskom saobraćaju |
Svijest o evaluaciji | Potencijalno očigledni testni signali (npr. sa sintetičkim podacima), osim ako su evaluacije napravljene s podacima iz implementacije | Čini se da kontekst nalik implementaciji značajno ublažava svijest o evaluaciji |
Napor | Prilagođene distribucije upita i postavke zahtijevaju znatno više ručnog napora | Zahtijeva jednokratni infrastrukturni trošak, a zatim ponovo koristi prefikse iz implementacije i ocjenjivače iz poznatih nepoželjnih ponašanja |
Opće poređenje tradicionalnih evaluacija i Simulacije implementacije
Da bismo evaluirali Simulaciju implementacije, unaprijed smo registrirali predviđanja učestalosti 20 vrsta nepoželjnog ponašanja u vrijeme implementacije za GPT‑5.4 Thinking. Također smo proveli retrospektivne studije kroz druge implementacije Thinking modela iz serije GPT‑5. Ponašanja modela koja analiziramo obuhvataju i neusklađenost i kategorije nedozvoljenog sadržaja o kojima smo izvještavali u karticama sistema (npr. kada model laže o alatima ili generira nedozvoljeni seksualni sadržaj). Iako za ove rezultate pratimo samo 20 kategorija nepoželjnog ponašanja modela i tražimo samo nova neusklađena ponašanja, Simulacija implementacije je opća tehnika koja bi se mogla primijeniti za simuliranje bilo kojeg svojstva modela u vrijeme implementacije.
Produkcijski saobraćaj koji smo koristili također je bio iz Thinking modela serije GPT‑5. Prije pokretanja evaluacija automatski smo uklonili identifikatore povezane s računom i informacije koje se mogu identificirati. U skladu s našim pravilima privatnosti, analizirali smo samo ChatGPT saobraćaj korisnika koji dopuštaju da se njihovi podaci koriste za poboljšanja modela. Iz ovih evaluacija izvještavamo samo agregirane nalaze. Ukupno smo analizirali približno 1,3 miliona deidentificiranih razgovora kroz implementacije od GPT‑5 Thinking do GPT‑5.4, u periodu od augusta 2025. do marta 2026.
Kvalitet procjene rizika prije implementacije koju proizvodi Simulacija implementacije evaluiramo na tri glavna načina:
- Pokrivenost taksonomije: da li je revizija nakon objave otkrila neka važna neusklađena ponašanja koja nedostaju u našoj početnoj taksonomiji lošeg ponašanja?
- Tačnost smjera: da li je simulacija tačno predvidjela hoće li se prevalencija u implementaciji povećati ili smanjiti za poznata ponašanja?
- Kalibracija stope: jesu li naše procjene prije implementacije bile blizu stopama koje smo kasnije uočili u implementaciji? Postizanje dobre kalibracije stope zahtijeva više od tačnosti smjera, što ovo čini najvišim mogućim standardom kvaliteta.
Također mjerimo koliko modeli mogu prepoznati da su u evaluaciji tokom Simulacije implementacije i testiramo koliko je metoda robusna na različite oblike implementacijskog saobraćaja i zahtjevna okruženja upotrebe alata.
Kroz implementacije Thinking modela iz serije GPT‑5, Simulacija implementacije nadmašila je polazne vrijednosti zasnovane na zahtjevnim upitima u određivanju stvarne stope rizika, uspjela je otkriti hakiranje kalkulatora prije objave i modelu je izgledala potencijalno nerazlučiva od implementacije.
Pregled naših predviđanja. Za vizualizaciju svih predviđanja za implementacije Thinking modela iz serije GPT‑5 pogledajte Sliku 2. Predviđanja za GPT‑5.4 Thinking bila su unaprijed registrirana, dok su ostala bila retroaktivna predviđanja. Agregirano, naša predviđanja imala su medijalnu multiplikativnu grešku od 1,5x (npr. ako je stopa nepoželjnog ponašanja 10 na 100 hiljada, to bi odgovaralo procjeni stope od 15 ili 6,67 na 100 hiljada). Iako greške na repu distribucije naše metode mogu biti približno 10x veće, očekujemo da se mogu značajno smanjiti daljnjim poboljšanjima našeg simulacijskog toka rada, kao što je objašnjeno u nastavku.
Slika 2. Predviđanja učestalosti nepoželjnog ponašanja u vrijeme implementacije pomoću Simulacije implementacije, na osnovu prethodnih podataka o implementaciji. Oznaka 5.1 → 5 znači da ponovo uzorkujemo prefikse iz GPT‑5 pomoću GPT‑5.1, odnosno simuliramo implementaciju GPT‑5.1 na osnovu podataka iz GPT‑5. Najviša stopa neusklađenog ponašanja bila je „hakiranje kalkulatora“ u GPT‑5.1, o čemu smo govorili ranije(otvara se u novom prozoru).
Poređenje predviđanja Simulacije implementacije s polaznim vrijednostima. Najvažnije kategorije za tačnu procjenu u procjenama rizika prije implementacije su one koje imaju velike promjene učestalosti nakon implementacije modela (npr. >= 1,5x). Na ovom podskupu Simulacija implementacije je znatno bolja od polaznih vrijednosti i u predviđanju hoće li se prevalencija određenog nepoželjnog ponašanja povećati ili smanjiti s implementacijom modela (Slika 3, lijevo), i u procjeni njegove tačne učestalosti u vrijeme implementacije (Slika 3, desno). Koristimo dvije glavne polazne vrijednosti: polaznu vrijednost Zahtjevni upiti, koju trenutno koristimo za kartice sistema i odluke o lansiranju, te naivnu polaznu vrijednost korištenja stopa iz prethodne implementacije kao procjena za novi model.
Slika 3. Simulacija implementacije predviđa i smjer promjena učestalosti (lijevo) i tačne produkcijske stope (desno) bolje od statičkih evaluacija.
Izvori greške simulacije u našem toku rada. Proučavali smo i trenutne izvore greške u našem toku rada. Konkretno, velike greške na repu distribucije čine tok rada manje pouzdanim za odluke o implementaciji: na primjer, kada se vidi veliko predviđeno povećanje nepoželjnog ponašanja određene vrste, ako je poznato da tok rada ima čak i povremene velike greške, to izaziva sumnju da li je riječ o pouzdanoj procjeni ili artefaktu toka rada. Postoje dva glavna izvora moguće greške:
- Greška vjernosti okruženja ponovnog uzorkovanja: da bi tačno procijenio produkcijske stope, naš simulacijski tok rada mora biti što realističniji. To je dijelom inženjerski problem (uzorkovanje iz modela koristeći iste tokove rada koji se koriste za produkcijski saobraćaj), a dijelom zanimljiv izazov za alate kojima je potreban pristup čitanja/pisanja vanjskim resursima koji se stalno mijenjaju (npr. web pretrage ili interakcija s lokalnim datotekama). Grešku vjernosti simulacije možemo izolirati poređenjem predviđanja iz stvarne implementacije i njene simulacije (odnosno simuliranjem implementacije već implementiranog modela).
- Greška pomaka distribucije upita: velika briga kod Simulacije implementacije je to što će implementacija bilo kojeg modela izazvati distribucijski pomak u ulazima, posebno ako se korisnici prilagode novim mogućnostima modela. Grešku distribucije upita izoliramo poređenjem procjena kada simuliramo implementaciju koristeći nedavne upite naspram upita iz ostvarene implementacije.
Kao što se vidi na Slici 4, nalazimo da je veliki dio greške u našem toku rada – posebno za greške na repu distribucije – trenutno posljedica vjernosti simulacije. To je dobra vijest, jer očekujemo da je vjernost simulacije općenito lakše poboljšati nego smanjiti pomak distribucije upita. Također nalazimo da se greška pomaka distribucije upita može smanjiti korištenjem najnovijih podataka iz prethodne implementacije. Više detalja može se naći u istraživačkom radu.
Slika 4: Vjernost okruženja ponovnog uzorkovanja čini se najvećim izvorom greške u našim procjenama, posebno za najekstremnije greške.
Automatizirana revizija pronašla je jedinu novu neusklađenost uvedenu u ovim implementacijama. U periodu implementacije koji smo proučavali, naš automatizirani tok revizije zasnovan na simuliranim implementacijama otkrio bi „hakiranje kalkulatora“ prije objave, što je bila jedina nova neusklađenost koju smo identificirali u analiziranom ChatGPT saobraćaju. Hakiranje kalkulatora je oblik hakiranja nagrade u kojem model koristi alat preglednika kao kalkulator, a radnju predstavlja kao pretragu. To ne znači da će revizija velikih razmjera uhvatiti svaki novi neuspjeh, ali pokazuje zašto su realistični konteksti važni: mogu izazvati ponašanja koja uži skupovi evaluacija možda nikada ne bi direktno otkrili, čak i ako nisu bila prisutna u originalnom saobraćaju korištenom za pokretanje simulacije.
Još jedna prednost korištenja konteksta nalik implementaciji jeste to što mogu smanjiti izobličenja koja nastaju kada modeli prepoznaju da se testiraju. U prethodnim istraživanjima, mi, kao i drugi(otvara se u novom prozoru), otkrili smo da su modeli često svjesni kada se testiraju. Na primjer, modeli mogu rezonovati u svom lancu razmišljanja o tome na čemu se testiraju, šta bi evaluator mogao željeti i – ako se ponašaju neprimjereno – hoće li biti uhvaćeni. To predstavlja problem za evaluacije usklađenosti: ako se model dobro ponaša samo zato što misli da se testira, kako možemo steći povjerenje da će se ponašati sigurno kada sazna da je implementiran?
Pokazujemo da Simulacija implementacije znatno smanjuje nivoe svijesti o evaluaciji koje modeli pokazuju u odnosu na tradicionalne evaluacije koje nisu zasnovane na stvarnim podacima iz implementacije. Svijest o evaluaciji mjerimo na tri načina: tražeći od modela da klasificira da li je trajektorija došla iz produkcije ili evaluacije, prateći lanac razmišljanja za eksplicitne izjave o tome da se evaluira usklađenost, kao i za metagaming(otvara se u novom prozoru): svako rezonovanje o nadzoru. Simulirani implementacijski saobraćaj blisko se poklapao sa stvarnim implementacijskim saobraćajem kroz sva tri mjerenja. Na primjer, GPT‑5.2 je stvarni produkcijski saobraćaj označio kao nalik evaluaciji u 5,4% slučajeva, a simulirani saobraćaj u 5,1% slučajeva, dok su tradicionalne evaluacije (kao što su SWE-Bench ili MonorepoBench, koje se prvenstveno sastoje od sintetičkih primjera) klasificirane kao evaluacije gotovo 100% vremena.
Slika 5. Poređenje svijesti o evaluaciji: stvarni produkcijski saobraćaj i simulirani saobraćaj pokazuju slične stope za otkrivanje evaluacije, verbaliziranu svijest o evaluaciji usklađenosti i metagaming, dok tradicionalni skupovi podataka za evaluaciju prijavljuju mnogo više stope.
Da bismo testirali može li se metoda proširiti izvan standardnih načina chata, proučavali smo i simuliranje implementacija za zahtjevna okruženja kodiranja s agentima. Konkretno, koristimo 120.000 internih agentskih trajektorija zaposlenika iz GPT‑5.4 kako bismo simulirali internu implementaciju agenata za kodiranje zasnovanih na GPT‑5.5. Ovo ima dvije svrhe: pokazuje kako se simulacija implementacije može koristiti i za procjenu rizika internih implementacija, te pokazuje da je moguće postići visoku vjernost simulacije čak i u agentskim okruženjima pažljivom simulacijom alata.
Gore smo raspravili da je vjernost simulacije jedan od glavnih izvora greške u našem trenutnom toku rada. Jedan od izazova u stvaranju realističnih simulacija implementacije jeste to što zahtijeva da alati djeluju na realističan način, čak i kada im je potreban pristup čitanja/pisanja vanjskim resursima koji se stalno mijenjaju (npr. web pretrage ili interakcija s lokalnim datotekama).
To je posebno zahtjevno za okruženja kao što su agentske implementacije: jedna trajektorija agenta može zavisiti od stotina poziva alata, stanja repozitorija, mrežnih odgovora ili prolaznih kvarova. Zbog toga je ponovno uzorkovanje sa stvarnim pristupom alatima i izazovno i potencijalno opasno. S obzirom na to, umjesto primjene poziva alata na žive sisteme, simuliramo ih drugim LLM-om. Pokazujemo da je davanje dodatnih mogućnosti ovom LLM-u ključno za realizam, a time i za kvalitet procjene.
Modelu simulatora alata dajemo originalno uvođenje završnog poteza, repozitorij iz vremena razgovora, bazu podataka parova poziv alata/odgovor i konektore samo za čitanje. U testu u kojem je diskriminator pokušao razlikovati simulirana od stvarnih uvođenja, realizam se poboljšao sa stope pobjede od 11,6% na 49,5%, blizu nivoa slučajnosti od 50%.
Slika 6: Realizam ponovnog uzorkovanja može se učiniti gotovo nerazlučivim od stvarnog uzorkovanja čak i u okruženjima s mnogo alata, kada se pozivi alata simuliraju s povećanim mogućnostima.
Kao dodatni dokaz vjernosti simulacije, pri simuliranju GPT‑5.4 Codex thinking saobraćaja pomoću GPT‑5.4, stope neusklađenosti su, gotovo, unutar granica greške. Nasuprot tome, u našem testiranju prije implementacije GPT‑5.5 je bio neusklađeniji u većini kategorija.
Slika 7: Uz simulaciju alata, stope ponašanja za razgovore ponovo uzorkovane pomoću GPT‑5.4 i stvarni GPT‑5.4 produkcijski saobraćaj prilično su slične – što ukazuje na visoku vjernost okruženja ponovnog uzorkovanja. Pogledajte karticu sistema GPT‑5.5(otvara se u novom prozoru) za više konteksta o kategorijama.
Ovi rezultati sugeriraju da se Simulacija implementacije može proširiti na složena okruženja agenta kada se okolno okruženje alata simulira s dovoljnom vjernošću.
Prirodno pitanje je mogu li eksterni revizori dobiti neke od istih koristi bez pristupa privatnom produkcijskom saobraćaju. To smo testirali sa 100.000 WildChat razgovora korištenih kao prefiksi. WildChat je bio manje tačan od nedavnih OpenAI produkcijskih podataka, ali je i dalje bio informativan: nedavni produkcijski podaci imali su nižu prosječnu multiplikativnu grešku od WildChata (1,75× naspram 2,44×), dok je WildChat često ostajao unutar približno 3× produkcijskih stopa i identificirao bolji model stopama iznad slučajnosti. Evaluacije u stilu WildChata vidimo kao obećavajuću dopunu Simulaciji implementacije koju pokreću programeri. Pogledajte ovaj prateći blogpost o usklađenosti(otvara se u novom prozoru) za više rezultata o ovoj tački.
Simulacija implementacije je dopuna, a ne zamjena za adversarijalne evaluacije, red-teaming i ciljanu analizu rizika na repu distribucije. Otkrivanje nekih nepoželjnih ponašanja modela oslanja se na mogućnost praćenja lanca razmišljanja: ako budući modeli budu rezonovali manje čitljivo, izostavljali ključne korake ili naučili prikrivati namjeru, možda nećemo moći otkriti ove oblike nepoželjnog ponašanja. Nadalje, budući da su produkcijski podaci privatni, programeri trenutno imaju jači pristup reprezentativnim kontekstima nego eksterni revizori. Bolji javni skupovi podataka mogli bi smanjiti taj jaz.
Simulacija implementacije najkorisnija je za ponašanja koja se javljaju dovoljno često da se pojave u uzorkovanim prefiksima. Neuspjeh koji se javlja jednom u deset miliona razgovora vjerovatno neće biti otkriven u pokretanju s milion uzoraka, pa su adversarijalne evaluacije, red-teaming i ciljana analiza rizika na repu distribucije i dalje neophodni. Trenutno se fokusiramo na simuliranje jednog odgovora asistenta, jer u preliminarnim eksperimentima nismo pronašli značajna poboljšanja naših procjena simuliranjem više poteza. To bi u budućnosti moglo biti važno područje za poboljšanje vjernosti simulacije.
Metoda također zavisi od distribucije prefiksa — mješavine razgovora koji se ponovo uzorkuju. Historijski saobraćaj možda se neće podudarati s načinom na koji korisnici komuniciraju sa sposobnijim modelom nakon velike promjene proizvoda, objave novog alata, svjetskog događaja ili sezonskog pomaka. Analiza u cijelom radu sugerira da se ovaj problem može ublažiti korištenjem najnovijih dostupnih podataka.
Simulacija implementacije je novi pristup procjeni rizika prije implementacije koji pomaže frontier laboratorijima i evaluatorima da predvide kako se jezički modeli mogu ponašati u stvarnom svijetu i razumiju rizike koje predstavljaju prije implementacije. Ona dopunjuje postojeće sigurnosne evaluacije, red-teaming i ciljanu analizu dodavanjem sloja predviđanja nalik produkciji koji može poboljšati procjene ponašanja u implementaciji, smanjiti efekte svijesti o evaluaciji i učiniti predviđanja prije implementacije provjerljivim nakon objave. Korištena uz tradicionalne evaluacije, Simulacija implementacije može pomoći da procjena rizika modela bude realističnija, kvantitativnija i korisnija za odluke o implementaciji.


