Hopp til hovedinnhold
OpenAI

16. juni 2026

Research

Forutsi modellatferd før lansering ved å simulere distribusjon

Bruk av realistiske samtalekontekster for å estimere uønsket modellatferd bedre før lansering.

Innledning

Før en ny modell slippes, må laboratorier forstå ikke bare hva den kan gjøre, men hvordan den sannsynligvis vil oppføre seg i bruk i den virkelige verden, inkludert hvor den kan innføre nye risikoer. Dette blir enda viktigere etter hvert som egenskapene øker. Som en del av vår sikkerhetsgjennomgang før distribusjon bruker vi målrettede evalueringer, red-teaming og andre kontroller for å forstå modellatferd. Vi har nå begynt å bruke en metode for å simulere modelldistribusjoner før de skjer, noe som legger til et komplementært signal: en distribusjonslignende forhåndsvisning av hvordan en kandidatmodell kan oppføre seg før den når brukerne.

Distribusjonssimulering er en metode for å simulere en fremtidig distribusjon før den skjer. Vi gjør dette ved å spille av tidligere samtaler på nytt på en personvernbevarende måte med en ny kandidatmodell. Dette gjør det mulig for oss å studere hvordan den nye modellen svarer i realistiske kontekster før lansering, inkludert om ny uønsket atferd dukker opp og hvor ofte den kan forekomme.

På tvers av flere av GPT‑5‑seriens Thinking-distribusjoner forbedret distribusjonssimulering estimatene våre av rater for uønsket modellatferd, bidro til å avdekke nye former for feiltilpasning før lansering og bidro til å redusere risikoen for at modeller kunne forstå at de ble testet. Vi brukte også metoden på utfordrende agentiske utrullinger, og viste at den kan gå utover standard chat til mer komplekse agent-innstillinger som involverer verktøybruk, og at den også kan brukes til risikovurdering før interne modelldistribusjoner.

Vi har allerede brukt innsikt fra distribusjonssimulering under modellutvikling til å identifisere blindsoner i tradisjonelle evalueringer og informere avbøtende tiltak og distribusjonsbeslutninger. Etter hvert som vi gjør pipelinen enklere å kjøre, forventer vi at den vil spille en større rolle i fremtidens modellutviklingsprosess.

Slik fungerer distribusjonssimulering

Evalueringer før distribusjon som brukes i bransjen, består vanligvis av en blanding av syntetiske, manuelt skrevne eller produksjons-prompter som er valgt bevisst fordi de er vanskelige, har høy alvorlighetsgrad eller er adversarielle. Disse evalueringene har vanligvis hatt to sammenvevde mål: å vurdere hvordan modellen svarer når den stresstestes i situasjoner som har svært liten sannsynlighet for å forekomme i distribusjonstrafikk, og å få en generell forståelse av uønsket modellatferd, inkludert å finne ny uønsket atferd og forutsi frekvensene ved distribusjon.

Selv om tradisjonelle evalueringer fortsatt er avgjørende for det første målet, representerer distribusjonssimulering et betydelig fremskritt for det andre målet for risikoer utenfor halen (i eksperimentene våre kan ikke tilnærmingen forventes å måle atferd som forekommer sjeldnere enn 1 av 200 000 meldinger). Styrken til distribusjonssimulering kommer av at den omgår noen sentrale utfordringer med tradisjonelle evalueringer:

  • Dekning: Det er vanskelig å være trygg på at evaluerings-prompter dekker alle mulige typer uønsket modellatferd. Å måle nye typer uønsket atferd krever at man lager nye evalueringer og vet hvilke skadevirkninger som skal måles. Dette kan være tids- og arbeidskrevende, og evalueringer kan mettes over tid.
  • Utvalgsskjevheter: Tradisjonelle evalueringer bygges vanligvis med spesifikke typer uønsket modellatferd i tankene, valgt på måter som gir skjevhet mot kontekster som har forekommet tidligere. Dette kan gjøre estimatene deres mindre informative om forekomsten av slik atferd i hele bredden av distribusjonsfordelingen.
  • Å være gjenkjennelige som tester for modeller: Modeller har i økende grad kunnet avgjøre at de blir testet, noe som kan forvrenge atferden deres og våre etterfølgende målinger av sikkerheten deres. Selv om mange av de tradisjonelle evalueringene vi bruker hos OpenAI, også hentes fra produksjonstrafikk og ikke lider av dette problemet, er dette en vanlig bekymring for mange tradisjonelle evalueringer som brukes i bransjen.

Hovedteknikken bak distribusjonssimulering er enkel: Vi tar nylige samtaler fra distribusjon, fjerner det opprinnelige assistentsvaret fra den eldre modellen og regenererer det med en kandidatmodell som skal lanseres. Vi evaluerer fullføringene ved å lete etter nye feilmoduser og estimerer frekvensen av uønsket atferd ved distribusjon basert på frekvensen i denne distribusjonslignende fordelingen. Vi kan utføre de samme målingene etter lansering på reell distribusjonstrafikk, slik at vi kan validere prognosene våre før distribusjon.

Distribusjonssimulering reduserer de tre begrensningene over betydelig: Utvalgsskjevhet håndteres ved å bruke en fordeling av evaluerings-prompter som er representativ for nylig bruk. Distribusjonssimulering med representative prompter kan også redusere bekymringer om dekning: Vi får større dekning av uønsket modellatferd ved ganske enkelt å simulere mer trafikk. Denne avveiningen mellom beregning og dekning er viktig, fordi den gjør at kvaliteten på denne aksen i risikovurderingen skalerer med beregning, snarere enn med den manuelle innsatsen som kreves for å bygge flere evalueringer. Modeller ser heller ikke ut til å kunne skille mellom samtaler innhentet via distribusjonssimulering og reell distribusjonstrafikk.

Diagram som viser pipelinen for produksjonsnytrekking fra produksjonssamtaler via personvernbevarende nytrekking, generering av modellfullføringer, evaluering og estimater ved distribusjon.

Figur 1: Oversikt over pipelinen vår for distribusjonssimulering

Område

Tradisjonelle evalueringer

Distribusjonssimulering

Dekning

Bedre for risikoer med lav prevalens, men høy alvorlighetsgrad, som vi ønsker å sørge for at vi har dekning for

Bedre for å forstå spekteret av risikoer vi sannsynligvis vil se i distribusjonstrafikk

Representativitet / skjevhet

Fokusert på å evaluere målrettede tidligere eller forventede risikoer, selv for atferd som har ekstremt lav prevalens i utplassering

Representativ for risikoer som oppstår over en viss prevalens i gjeldende distribusjonstrafikk

Evalueringsbevissthet

Potensielt åpenbare testsignaler (f.eks. med syntetiske data) med mindre evalueringer opprettes med distribusjonsdata

Implementeringslignende kontekst ser ut til å redusere evalueringsbevisstheten betydelig

Anstrengelse

Tilpassede ledetekstdistribusjoner og oppsett krever betydelig mer manuell innsats

Krever en engangskostnad for infrastruktur, og gjenbruker deretter prefikser fra distribusjon og karakterer fra kjent uønsket atferd

Overordnet sammenligning mellom tradisjonelle evalueringer og distribusjonssimulering

Slik testet vi distribusjonssimulering

For å evaluere distribusjonssimulering forhåndsregistrerte vi prediksjoner for distribusjonsfrekvensen til 20 typer uønsket atferd for GPT‑5.4 Thinking. Vi kjørte også retrospektive studier på tvers av andre distribusjoner av Thinking-modeller i GPT‑5‑serien. Modellatferden vi analyserer, dekker både feiltilpasning og kategorier av forbudt innhold som vi har rapportert i systemkort (f.eks. at modellen lyver om verktøy, eller genererer forbudt seksuelt innhold). Selv om vi for disse resultatene bare sporer 20 kategorier av uønsket modellatferd og bare ser etter ny feiltilpasset atferd, er distribusjonssimulering en generell teknikk som kan brukes til å simulere enhver modellegenskap ved distribusjon.

Produksjonstrafikken vi brukte, kom også fra Thinking-modeller i GPT‑5‑serien. Før vi kjørte evalueringene våre, fjernet vi automatisk konto-tilknyttede identifikatorer og identifiserbar informasjon. I samsvar med personvernerklæringen vår analyserte vi bare ChatGPT‑trafikk fra brukere som tillater at dataene deres brukes til modellforbedringer. Vi rapporterer bare aggregerte funn fra disse evalueringene. Totalt analyserte vi omtrent 1,3 millioner avidentifiserte samtaler på tvers av distribusjoner fra GPT‑5 Thinking til GPT‑5.4, fra august 2025 til mars 2026.

Vi evaluerer kvaliteten på risikovurderingen før distribusjon som produseres av distribusjonssimulering, på tre hovedmåter:

  • Taksonomidekning: Avdekket revisjon etter lansering viktige feiltilpassede atferder som manglet i vår opprinnelige taksonomi for dårlig atferd?
  • Retningsnøyaktighet: Forutsa simuleringen riktig om utbredelsen ved distribusjon ville øke eller avta for kjente atferder?
  • Ratekalibrering: Var estimatene våre før distribusjon nær ratene vi senere observerte i distribusjon? Å oppnå god ratekalibrering krever mer enn retningsnøyaktighet, noe som gjør dette til den høyest mulige kvalitetsstandarden.

Vi måler også hvor godt modeller kan forstå at de er i en evaluering under distribusjonssimulering, og tester hvor robust metoden er overfor ulike former for distribusjonstrafikk og utfordrende innstillinger for verktøybruk.

Distribusjonssimulering utvider risikovurdering før distribusjon betydelig

På tvers av GPT‑5‑seriens Thinking-distribusjoner gjorde distribusjonssimulering det bedre enn baselines med utfordrende prompter i å fastslå faktisk risikorate, kunne avdekke kalkulatorhacking før lansering og virket potensielt umulig å skille fra distribusjon for modellen.

Oversikt over prediksjonene våre. For en visualisering av alle prediksjoner for Thinking-modelldistribusjoner i GPT‑5‑serien, se figur 2. Prediksjonene for GPT‑5.4 Thinking ble forhåndsregistrert, mens de andre var retroaktive prediksjoner. Aggregert hadde prediksjonene våre en median multiplikativ feil på 1,5x (f.eks. hvis raten for uønsket atferd er 10 per 100k, ville dette tilsvare å estimere en rate på 15 eller 6,67 per 100k). Selv om halefeilene i metoden vår kan være omtrent 10x større, forventer vi at de kan reduseres betydelig med ytterligere forbedringer i simuleringspipelinen vår, som diskutert nedenfor.

Diagram som viser prediksjoner med nøyaktig rate fra distribusjonssimulering for uønsket atferd ved distribusjon basert på tidligere distribusjonsdata.

Figur 2. Distribusjonssimuleringens frekvensprediksjoner av uønsket atferd ved distribusjon basert på tidligere distribusjonsdata. Notasjonen 5.1 → 5 betyr at vi trekker nye prefikser fra GPT‑5 med GPT‑5.1, det vil si simulerer distribusjonen av GPT‑5.1 basert på data fra GPT‑5. Den høyeste raten av feiltilpasset atferd var «kalkulatorhacking» i GPT‑5.1, som vi har omtalt tidligere(åpnes i et nytt vindu).

Sammenligning av prediksjoner fra distribusjonssimulering med baselines. De viktigste kategoriene å estimere riktig for risikovurderinger før distribusjon er de som har store endringer i forekomst etter at modellen er distribuert (f.eks. >= 1,5x). På dette delsettet er distribusjonssimulering vesentlig bedre enn baselines både til å forutsi om en bestemt uønsket atferd vil øke eller avta i utbredelse når en modell distribueres (figur 3, venstre), og til å estimere den nøyaktige forekomsten ved distribusjon (figur 3, høyre). Vi bruker to hovedbaselines: en baseline med utfordrende prompter som vi for tiden bruker til systemkort og lanseringsbeslutninger, og en naiv baseline der rater fra forrige distribusjon brukes som estimater for den nye modellen.

Figur 3. Distribusjonssimulering forutsier både retningen på forekomstendringer (venstre) og nøyaktige produksjonsrater (høyre) bedre enn statiske evalueringer.

Kilder til simuleringsfeil i pipelinen vår. Vi studerte også de nåværende feilkildene i pipelinen vår. Spesielt gjør store halefeil pipelinen mindre pålitelig for distribusjonsbeslutninger: Når man for eksempel ser en stor predikert økning i en bestemt type uønsket atferd, og man vet at pipelinen har selv sporadiske store feil, skaper det tvil om dette er et pålitelig estimat eller en artefakt fra pipelinen. Det finnes to hovedkilder til mulig feil:

  • Fidelitetsfeil i nytrekkingsmiljøet: For å estimere produksjonsrater nøyaktig må simuleringspipelinen vår være så realistisk som mulig. Dette er dels et ingeniørproblem (å trekke fra modellen med de samme pipelinene som brukes for produksjonstrafikk), og dels en interessant utfordring for verktøy som trenger lese-/skrivetilgang til eksterne ressurser som stadig endrer seg (f.eks. nettsøk eller samhandling med lokale filer). Vi kan isolere simuleringsfidelitetsfeilen ved å sammenligne prediksjoner fra en faktisk distribusjon og simuleringen av den (det vil si å simulere distribusjonen av den allerede distribuerte modellen).
  • Feil fra skift i promptfordeling: En stor bekymring med distribusjonssimulering er at enhver modelldistribusjon vil forårsake et fordelingsskift i inndata, særlig hvis brukere tilpasser seg nye muligheter i modellen. Vi isolerer promptfordelingsfeil ved å sammenligne estimater når distribusjonen simuleres med nylige prompter kontra prompter fra den realiserte distribusjonen.

Som vist i figur 4 finner vi at en stor andel av feilen i pipelinen vår – særlig for halefeil – for tiden skyldes simuleringsfidelitet. Dette er gode nyheter, siden vi forventer at simuleringsfidelitet generelt er enklere å forbedre enn å redusere skift i promptfordeling. Vi finner også at feil fra skift i promptfordeling kan reduseres ved å bruke de nyeste dataene fra forrige distribusjon. Mer informasjon finnes i forskningsartikkelen.

Figur 4: Fidelitet i nytrekkingsmiljøet ser ut til å være den største feilkilden i estimatene våre, særlig for de mest ekstreme feilene.

Automatisert revisjon fant den ene nye feiltilpasningen som ble innført i disse distribusjonene. I distribusjonsvinduet vi studerte, ville vår automatiserte revisjonspipeline basert på simulerte distribusjoner ha avdekket «kalkulatorhacking» før lansering, som var den eneste nye feiltilpasningen vi identifiserte i den analyserte ChatGPT‑trafikken. Kalkulatorhacking er en form for belønningshacking der modellen bruker et nettleserverktøy som kalkulator, samtidig som handlingen fremstilles som et søk. Dette betyr ikke at revisjon i stor skala vil fange opp alle nye feil, men det viser hvorfor realistiske kontekster betyr noe: De kan fremkalle atferd som smalere evalueringssett kanskje aldri avdekker direkte, selv om de ikke var til stede i den opprinnelige trafikken som ble brukt til å så simuleringen.

Redusere evalueringsbevissthet

En annen fordel med å bruke distribusjonslignende kontekster er at de kan redusere forvrengninger som oppstår når modeller gjenkjenner at de blir testet. I tidligere forskning har vi, i likhet med andre(åpnes i et nytt vindu), funnet at modeller ofte er klar over når de blir testet. For eksempel kan modeller resonnere i tankerekken sin om hva de blir testet på, hva en evaluator kan like, og – hvis de oppfører seg dårlig – om de vil bli tatt. Dette utgjør et problem for alignment-evalueringer: Hvis en modell bare oppfører seg bra fordi den tror den blir testet, hvordan bygger vi tillit til at den vil oppføre seg trygt når den får vite at den er distribuert?

Vi viser at distribusjonssimulering reduserer nivåene av evalueringsbevissthet som modeller utviser, betydelig sammenlignet med tradisjonelle evalueringer som ikke er basert på reelle distribusjonsdata. Vi måler evalueringsbevissthet på tre måter: ved å be en modell klassifisere om en trajektorie kom fra produksjon eller en evaluering, overvåke tankerekken for eksplisitte utsagn om å bli evaluert for alignment, samt for metagaming(åpnes i et nytt vindu): all resonnering om tilsyn. Simulert distribusjonstrafikk samsvarte tett med reell distribusjonstrafikk på tvers av alle tre målene. For eksempel merket GPT‑5.2 reell produksjonstrafikk som evalueringslignende 5,4 % av tiden og simulert trafikk 5,1 % av tiden, mens tradisjonelle evalueringer (som SWE-Bench eller MonorepoBench, som hovedsakelig består av syntetiske eksempler) ble klassifisert som evalueringer nesten 100 % av tiden.

Figur 5. Sammenligning av evalueringsbevissthet: Reell produksjonstrafikk og simulert trafikk viser lignende rater for evalueringsdeteksjon, verbalisert bevissthet om alignment-evaluering og metagaming, mens tradisjonelle evalueringsdatasett rapporterer mye høyere rater.

Verktøysimulering for agentiske trajektorier

For å teste om metoden kunne gå utover standard chatmoduser, studerte vi også simulering av distribusjoner for utfordrende innstillinger innen agentisk koding. Konkret bruker vi 120 000 interne agentiske trajektorier fra ansatte fra GPT‑5.4 til å simulere den interne distribusjonen av kodingsagenter basert på GPT‑5.5. Dette tjener to formål: Det viser hvordan distribusjonssimulering også kan brukes til risikovurdering av interne distribusjoner, og det demonstrerer at det er mulig å oppnå høy simuleringsfidelitet selv i agentiske innstillinger gjennom nøye verktøysimulering.

Ovenfor diskuterte vi at simuleringsfidelitet er en av hovedkildene til feil i vår nåværende pipeline. En av utfordringene med å gjøre distribusjonssimuleringer realistiske er at det krever at verktøy oppfører seg realistisk, selv når de trenger lese-/skrivetilgang til eksterne ressurser som stadig endrer seg (f.eks. nettsøk eller samhandling med lokale filer).

Dette er spesielt utfordrende for innstillinger som agentiske distribusjoner: En enkelt agent-trajektorie kan avhenge av hundrevis av verktøykall, lagerstatus, nettverkssvar eller forbigående feil. Dette gjør nytrekking med reell verktøytilgang både utfordrende og potensielt farlig. På bakgrunn av dette simulerer vi verktøykall med en annen LLM, i stedet for å bruke dem på levende systemer. Vi viser at det er avgjørende for realisme, og dermed estimeringskvalitet, å gi denne LLM-en ekstra muligheter.

Vi gir verktøysimulator-modellen den opprinnelige utrullingen i siste runde, lageret fra tidspunktet for samtalen, en database med par av verktøykall og svar, og skrivebeskyttede koblinger. I en test der en diskriminator prøvde å skille simulerte utrullinger fra reelle, forbedret realismen seg fra en vinningsrate på 11,6 % til 49,5 %, nær tilfeldighetsnivået på 50 %.

Figur 6: Man kan gjøre realismen ved nytrekking nesten umulig å skille fra reell sampling, selv i verktøytunge innstillinger, når verktøykall simuleres med økte muligheter.

Som ytterligere bevis på simuleringsfidelitet er feiltilpasningsratene omtrent innenfor feilmarginene når vi simulerer GPT‑5.4 Codex thinking-trafikk med GPT‑5.4. Til sammenligning var GPT‑5.5 mer feiltilpasset i de fleste kategorier i testingen vår før distribusjon.

Figur 7: Med verktøysimulering er atferdsratene for samtaler trukket på nytt med GPT‑5.4 og faktisk GPT‑5.4‑produksjonstrafikk ganske like – noe som indikerer høy fidelitet i nytrekkingsmiljøet. Se GPT‑5.5‑systemkortet(åpnes i et nytt vindu) for mer kontekst om kategoriene.

Disse resultatene tyder på at distribusjonssimulering kan utvides til komplekse agent-innstillinger når det omkringliggende verktøymiljøet simuleres med tilstrekkelig fidelitet.

WildChat og ekstern revisjon

Et naturlig spørsmål er om eksterne revisorer kan få noen av de samme fordelene uten tilgang til privat produksjonstrafikk. Vi testet dette med 100 000 WildChat-samtaler brukt som prefikser. WildChat var mindre nøyaktig enn nylige produksjonsdata fra OpenAI, men fortsatt informativt: Nylige produksjonsdata hadde lavere gjennomsnittlig multiplikativ feil enn WildChat (1,75× mot 2,44×), mens WildChat ofte holdt seg innenfor omtrent 3× av produksjonsratene og identifiserte den bedre modellen over tilfeldighetsnivå. Vi ser på evalueringer i WildChat-stil som et lovende supplement til utviklerdrevet distribusjonssimulering. Se dette tilhørende Alignment-blogginnlegget(åpnes i et nytt vindu) for flere resultater om dette punktet.

Begrensninger

Distribusjonssimulering er et supplement til, ikke en erstatning for, adversarielle evalueringer, red-teaming og målrettet analyse av halerisiko. Deteksjonen av enkelte typer uønsket modellatferd er avhengig av at tankerekken kan overvåkes: Hvis fremtidige modeller resonnerer mindre leselig, utelater viktige trinn eller lærer å skjule hensikt, kan det hende vi ikke kan oppdage disse formene for uønsket atferd. Videre, fordi produksjonsdata er private, har utviklere for tiden bedre tilgang til representative kontekster enn eksterne revisorer. Bedre offentlige datasett kan redusere dette gapet.

Distribusjonssimulering er mest nyttig for atferd som forekommer ofte nok til å dukke opp i samplede prefikser. En feil som forekommer én gang i ti millioner samtaler, vil neppe bli oppdaget i en kjøring med én million sampler, så adversarielle evalueringer, red-teaming og målrettet analyse av halerisiko er fortsatt nødvendig. Vi fokuserer for tiden på å simulere ett enkelt assistentsvar, siden vi i innledende eksperimenter ikke fant meningsfulle forbedringer i estimatene våre ved å simulere flere runder. Dette kan være et viktig område for å forbedre simuleringsfideliteten i fremtiden.

Metoden avhenger også av prefiksfordelingen – blandingen av samtaler som trekkes på nytt. Historisk trafikk samsvarer kanskje ikke med hvordan brukere samhandler med en mer kapabel modell etter en stor produktendring, ny verktøylansering, verdenshendelse eller sesongendring. Analyse i den fullstendige artikkelen tyder på at dette problemet kan avbøtes ved å bruke de nyeste tilgjengelige dataene.

Konklusjon

Distribusjonssimulering er en ny tilnærming til risikovurdering før distribusjon som hjelper frontier-laboratorier og evaluatorer med å forutsi hvordan språkmodeller kan oppføre seg i den virkelige verden og forstå risikoene de utgjør før distribusjon. Den utfyller eksisterende sikkerhetsevalueringer, red-teaming og målrettet analyse ved å legge til et mer produksjonslignende prediksjonslag som kan forbedre estimater av distribusjonsatferd, redusere effekter av evalueringsbevissthet og gjøre prediksjoner før distribusjon etterprøvbare etter lansering. Brukt sammen med tradisjonelle evalueringer kan distribusjonssimulering bidra til å gjøre modellrisikovurdering mer realistisk, mer kvantitativ og mer nyttig for distribusjonsbeslutninger.

Forfatter

OpenAI