Přeskoč na hlavní obsah
OpenAI

16. června 2026

Výzkum

Předpovídání chování modelu před vydáním simulací nasazení

Využití realistických kontextů konverzací k lepšímu odhadu nežádoucího chování modelu před vydáním.

Úvod

Před vydáním nového modelu musí laboratoře rozumět nejen tomu, co dokáže, ale i tomu, jak se pravděpodobně bude chovat při reálném používání, včetně toho, jaká nová rizika může přinést. S rostoucími schopnostmi je to ještě důležitější. V rámci bezpečnostního přezkumu před nasazením využíváme cílená vyhodnocení, red-teaming a další kontroly, abychom porozuměli chování modelu. Nyní jsme začali používat metodu simulace nasazení modelů ještě předtím, než k nim dojde; ta přidává doplňkový signál: náhled podobný nasazení, který ukazuje, jak se kandidátní model může chovat, než se dostane k uživatelům.

Simulace nasazení je metoda pro simulaci budoucího nasazení ještě předtím, než nastane. Děláme to tak, že v režimu chránícím soukromí přehráváme předchozí konverzace s novým kandidátním modelem. To nám umožňuje před vydáním zkoumat, jak nový model reaguje v realistických kontextech, včetně toho, zda se objevují nová nežádoucí chování a jak často se mohou vyskytovat.

Napříč několika nasazeními modelů Thinking řady GPT‑5 Simulace nasazení zlepšila naše odhady četnosti nežádoucího chování modelu, pomohla před vydáním odhalit nové formy nesouladu a pomohla snížit riziko, že modely dokážou poznat, že jsou testovány. Metodu jsme také použili na náročná agentní zavádění a ukázali, že může přesáhnout běžný chat do složitějších agentních prostředí zahrnujících používání nástrojů a že ji lze použít i k posouzení rizik před interními nasazeními modelů.

Poznatky ze Simulace nasazení jsme už využili během vývoje modelů k identifikaci slepých míst v tradičních vyhodnoceních apomáhat při návrhu mitigací a rozhodování o nasazení. Jak budeme zjednodušovat spouštění této pipeline, očekáváme, že v budoucím procesu vývoje modelů bude hrát větší roli.

Jak simulace nasazení funguje

Vyhodnocení před nasazením používaná napříč odvětvím obecně tvoří směs syntetických, ručně psaných nebo produkčních promptů záměrně vybraných tak, aby byly obtížné, vysoce závažné nebo adversariální. Tato vyhodnocení měla obecně dva provázané cíle: posoudit, jak model reaguje při zátěžovém testování v situacích s velmi malou šancí výskytu v provozu nasazení, a obecně pochopit nežádoucí chování modelu, včetně hledání nových nežádoucích chování a předpovídání jejich četností při nasazení.

Zatímco tradiční vyhodnocení zůstávají zásadní pro první cíl, simulace nasazení představuje významný krok vpřed u druhého cíle týkajícího se rizik mimo extrémní rizika (v našich experimentech nelze od našeho přístupu očekávat měření chování s četností nižší než 1 z 200 000 zpráv). Síla simulace nasazení spočívá v tom, že obchází některé základní problémy tradičních vyhodnocení:

  • Pokrytí: je obtížné mít jistotu, že evaluační prompty pokryjí všechny možné typy nežádoucího chování modelu. Měření nových typů nežádoucího chování vyžaduje tvorbu nových vyhodnocení a znalost toho, jaké újmy měřit. To může být časově i pracovně náročné a vyhodnocení se mohou časem saturovat.
  • Výběrová zkreslení: tradiční vyhodnocení jsou obecně vytvářena s ohledem na konkrétní nežádoucí chování modelu a vybírána způsoby, které zkreslují vůči kontextům, jež se už dříve vyskytly. To může snižovat vypovídací hodnotu jejich odhadů incidence takových chování v celé šíři distribučního rozdělení nasazení.
  • Rozpoznatelnost testů modely: modely jsou stále schopnější určit, že jsou testovány, což může zkreslit jejich chování a naše následná měření jejich bezpečnosti. Ačkoli mnoho tradičních vyhodnocení, která v OpenAI používáme, také pochází z produkčního provozu a tímto problémem netrpí, u mnoha tradičních vyhodnocení používaných v odvětví jde o běžnou obavu.

Hlavní technika, na které stojí simulací nasazení, je jednoduchá: vezmeme nedávné konverzace z nasazení, odstraníme původní odpověď asistenta ze staršího modelu a znovu ji vygenerujeme kandidátním modelem určeným k vydání. Dokončení vyhodnocujeme hledáním nových režimů selhání a odhadujeme četnost nežádoucího chování při nasazení podle četnosti v tomto rozdělení podobném nasazení. Stejná měření můžeme provádět po vydání na reálném provozu nasazení, což nám umožňuje ověřit naše prognózy provedené před nasazením.

Simulace nasazení výrazně zmírňuje tři výše uvedená omezení: zkreslení vzorkování řeší použitím rozdělení evaluačních promptů reprezentativního pro nedávné používání. Simulace nasazení s reprezentativními prompty může také zmírnit obavy z pokrytí: větší pokrytí nežádoucích chování modelu získáme prostě simulací většího provozu. Tento kompromis mezi výpočetním výkonem a pokrytím je důležitý, protože kvalita této osy posouzení rizik díky němu se rozšiřuje s výpočetním výkonem, nikoli s manuálním úsilím potřebným k tvorbě dalších vyhodnocení. Zdá se také, že modely nedokážou rozlišit mezi konverzacemi získanými simulací nasazení a reálným provozem nasazení.

Diagram znázorňující pipeline produkčního opakovaného vzorkování od produkčních konverzací přes opakované vzrorkování chránící soukromí, generování dokončení modelem, vyhodnocení až po odhady při nasazení.

Obrázek 1: Přehled našeho procesu simulace nasazení

Oblast

Tradiční vyhodnocení

Simulace nasazení

Pokrytí

Lepší pro rizika s nízkou prevalencí, ale vysokou závažností, u nichž se chceme ujistit, že je máme pokryta

Lepší pro pochopení spektra rizik, která pravděpodobně uvidíme v provozu nasazení

Reprezentativnost / zkreslení

Zaměřeno na vyhodnocování cílených minulých nebo předpovězených rizik, i u chování s extrémně nízkou prevalencí v nasazení

Reprezentativní pro rizika, která se v aktuálním provozu nasazení vyskytují nad určitou prevalencí

Povědomí o vyhodnocení

Potenciálně zjevné testovací informace (např. u syntetických dat), pokud vyhodnocení nejsou vytvořena z dat nasazení

Kontext podobný nasazení zřejmě výrazně zmírňuje povědomí o vyhodnocení

Úsilí

Vlastní distribuce promptů a nastavení vyžadují výrazně více manuální práce

Vyžaduje jednorázové náklady na infrastrukturu a poté znovu používá prefixy z nasazení a hodnotitele ze známých nežádoucích chování

Vysokoúrovňové porovnání tradičních vyhodnocení a simulace nasazení

Jak jsme simulaci nasazení testovali

Abychom simulaci nasazení vyhodnotili, předregistrovali jsme predikce četnosti 20 typů nežádoucího chování při nasazení pro GPT‑5.4 Thinking. Provedli jsme také retrospektivní studie na dalších nasazeních modelů Thinking řady GPT‑5. Chování modelů, která analyzujeme, pokrývají jak kategorie nesouladu, tak nepovoleného obsahu, o nichž informujeme v kartách systému (např. když model lže o nástrojích nebo generuje nepovolený sexuální obsah). Ačkoli u těchto výsledků sledujeme pouze 20 kategorií nežádoucího chování modelu a hledáme jen nová nevyrovnaná chování, simulace nasazení je obecná technika, kterou lze použít k simulaci jakékoli vlastnosti modelu při nasazení.

Produkční provoz, který jsme využili, pocházel také z modelů Thinking řady GPT‑5. Před spuštěním našich vyhodnocení jsme automaticky odstranili identifikátory propojené s účtem a identifikovatelné informace. V souladu s našimi zásadami ochrany soukromí jsme analyzovali pouze provoz ChatGPT od uživatelů, kteří dovolují používat svá data ke zlepšování modelů. Z těchto vyhodnocení uvádíme pouze agregovaná zjištění. Celkem jsme analyzovali přibližně 1,3 milionu anonymizovaných konverzací napříč nasazeními od GPT‑5 Thinking po GPT‑5.4, zahrnujícími období od srpna 2025 do března 2026.

Kvalitu posouzení rizik před nasazením vytvořeného simulací nasazení vyhodnocujeme třemi hlavními způsoby:

  • Pokrytí taxonomie: odhalil audit po vydání nějaká důležitá nevyrovnaná chování, která chyběla v naší původní taxonomii špatného chování?
  • Směrová přesnost: předpověděla simulace správně, zda se prevalence známých chování při nasazení zvýší nebo sníží?
  • Kalibrace míry: byly naše odhady před nasazením blízké mírám, které jsme později pozorovali v nasazení? Dosažení dobré kalibrace míry vyžaduje více než směrovou přesnost, takže jde o nejvyšší možný standard kvality.

Měříme také, do jaké míry modely dokážou během simulace nasazení poznat, že jsou hodnoceny, a testujeme, jak robustní je metoda vůči různým formám provozu nasazení a náročným prostředím používání nástrojů.

Simulace nasazení významně rozšiřuje posouzení rizik před nasazením

Napříč nasazeními modelů Thinking řady GPT‑5 Simulace nasazení překonala základní úroveň s náročnými prompty při určování skutečné míry rizika, dokázala před vydáním odhalit hackování kalkulačky a pro model se zdála potenciálně nerozlišitelná od nasazení.

Přehled našich predikcí. Vizualizaci všech predikcí pro nasazení modelů Thinking řady GPT‑5 najdete na obrázku 2. Predikce pro GPT‑5.4 Thinking byly zaznamenány předem, zatímco ostatní byly predikce zpětné. V agregátu měly naše predikce mediánovou multiplikativní chybu 1,5× (např. pokud je míra nežádoucího chování 10 ze 100 tisíc, odpovídalo by to odhadu míry 15 nebo 6,67 ze 100 tisíc). Ačkoli chyby v okrajových případech naší metody mohou být zhruba 10× větší, očekáváme, že je lze výrazně snížit dalšími zlepšeními našeho simulačního procesu, jak popisujeme níže.

Graf ukazující predikce přesných měr nežádoucího chování při nasazení pomocí simulace nasazení na základě dřívějších dat z nasazení.

Obrázek 2. Predikce četnosti nežádoucího chování při nasazení pomocí simulace nasazení na základě dřívějších dat z nasazení. Zápis 5.1 → 5 znamená, že znovu vzorkujeme prefixy z GPT‑5 pomocí GPT‑5.1, tedy simulujeme nasazení GPT‑5.1 na základě dat z GPT‑5. Nejvyšší míra nevyrovnaného chování byla „hackování kalkulačky“ v GPT‑5.1, o němž jsme diskutovali dříve(otevře se v novém okně).

Porovnání predikcí simulace nasazení se základní úrovní. Nejdůležitějšími kategoriemi, které je třeba správně odhadnout pro posouzení rizik před nasazením, jsou ty, u nichž po nasazení modelu dochází k velkým změnám incidence (např. ≥ 1,5×). Na této podmnožině je simulace nasazení podstatně lepší než základní úroveň jak v predikci, zda se prevalence určitého nežádoucího chování s nasazením modelu zvýší či sníží (obrázek 3 vlevo), tak v odhadu jeho přesné incidence při nasazení (obrázek 3 vpravo). Používáme dvě hlavní základní úrovně: základní úroveň náročné prompty, kterou v současnosti používáme pro karty systému a rozhodnutí o spuštění, a naivní základní úroveň využívající míry z předchozího nasazení jako odhady pro nový model.

Obrázek 3. Simulace nasazení předpovídá směr změn incidence (vlevo) i přesné produkční míry (vpravo) lépe než statická vyhodnocení.

Zdroje simulační chyby v našem procesu. Studovali jsme také současné zdroje chyb v našem procesu. Konkrétně velké chyby v okrajových oblastech snižují důvěryhodnost procesu pro rozhodování o nasazení: například když vidíme velký předpovězený nárůst nežádoucího chování určitého typu a víme, že proces má byť jen občas velké chyby, vyvolává to pochybnost, zda jde o spolehlivý odhad, nebo artefakt procesu. Existují dva hlavní zdroje možné chyby:

  • Chyba věrnosti prostředí pro opakovaném vzorkování: aby náš simulační proces přesně odhadoval produkční míry, musí být co nejrealističtější. Zčásti jde o vývojářský problém (vzorkování z modelu pomocí stejných procesů, které se používají pro produkční provoz) a zčásti o zajímavou výzvu pro nástroje, které potřebují přístup pro čtení/zápis k externím zdrojům, jež se neustále mění (např. webová vyhledávání nebo interakce s místními soubory). Chybu věrnosti simulace můžeme izolovat porovnáním predikcí ze skutečného nasazení a jeho simulace (tedy simulací nasazení již nasazeného modelu).
  • Chyba posunu distribuce promptů: hlavní obavou u simulace nasazení je, že nasazení jakéhokoli modelu způsobí distribuční posun vstupů, zejména pokud se uživatelé přizpůsobí novým možnostem modelu. Chybu distribuce promptů izolujeme porovnáním odhadů při simulaci nasazení pomocí nedávných promptů oproti promptům ze skutečně realizovaného nasazení.

Jak ukazuje obrázek 4, zjišťujeme, že velká část chyby v našem procesu – zejména u chyb v okrajových oblastech – je v současnosti způsobena věrností simulace. To je dobrá zpráva, protože očekáváme, že věrnost simulace bude obecně snazší zlepšit než snižovat posun distribuce promptů. Zjišťujeme také, že chybu posunu distribuce promptů lze snížit použitím nejnovějších dat z předchozího nasazení. Více podrobností najdete ve výzkumném článku.

Obrázek 4: Věrnost prostředí pro opakované vzorkování se zdá být největším zdrojem chyby v našich odhadech, zejména u nejextrémnějších chyb.

Automatizovaný audit našel jediný nový nesoulad zavedený v těchto nasazeních. V okně nasazení, které jsme studovali, by náš automatizovaný auditní proces založený na simulovaných nasazeních před vydáním odhalil „hackování kalkulačky“, což byl jediný nový nesoulad, který jsme v analyzovaném provozu ChatGPT identifikovali. Hackování kalkulačky je forma hackování odměny, při níž model používá nástroj prohlížeče jako kalkulačku, ale prezentuje tuto akci jako vyhledávání. To neznamená, že audit ve velkém měřítku zachytí každé nové selhání, ale ukazuje to, proč záleží na realistických kontextech: mohou vyvolat chování, která se v užších evaluačních sadách nemusí nikdy přímo objevit, i když nebyla přítomna v původním provozu použitém k nasetí simulace.

Snižování povědomí o vyhodnocení

Další výhodou použití kontextů podobných nasazení je, že mohou omezit zkreslení vznikající, když modely rozpoznají, že jsou testovány. V předchozím výzkumu jsme my i jiní(otevře se v novém okně) zjistili, že modely si často uvědomují, kdy jsou testovány. Modely například mohou ve svém myšlenkovém řetězci uvažovat o tom, na co jsou testovány, co by se hodnotiteli mohlo líbit, a – pokud se chovají špatně – zda budou přistiženy. To představuje problém pro vyhodnocení souladu: pokud se model chová dobře jen proto, že si myslí, že je testován, jak získáme důvěru, že se bude chovat bezpečně, jakmile zjistí, že byl nasazen?

Ukazujeme, že simulace nasazení podstatně snižuje úrovně povědomí o vyhodnocení, které modely vykazují, ve srovnání s tradičními vyhodnoceními, jež nejsou založena na reálných datech z nasazení. Povědomí o vyhodnocení měříme třemi způsoby: tím, že požádáme model, aby klasifikoval, zda trajektorie pochází z produkce nebo vyhodnocení, monitorováním myšlenkového řetězce pro explicitní výroky o tom, že je vyhodnocován z hlediska souladu, a také pro metagaming(otevře se v novém okně): jakékoli uvažování o dohledu. Simulovaný provoz nasazení se ve všech třech měřítkách těsně shodoval se skutečným provozem nasazení. Například GPT‑5.2 označil skutečný produkční provoz jako podobný vyhodnocení v 5,4 % případů a simulovaný provoz v 5,1 % případů, zatímco tradiční vyhodnocení (například SWE-Bench nebo MonorepoBench, tvořená převážně syntetickými příklady) byla klasifikována jako vyhodnocení téměř ve 100 % případů.

Obrázek 5. Porovnání povědomí o vyhodnocení: skutečný produkční provoz a simulovaný provoz vykazují podobné míry detekce vyhodnocení, verbalizovaného povědomí o vyhodnocení souladu a metagamingu, zatímco tradiční evaluační datové sady uvádějí mnohem vyšší míry.

Simulace nástrojů pro agentní trajektorie

Abychom otestovali, zda lze metodu rozšířit nad rámec standardních chatových režimů, zkoumali jsme také simulaci nasazení pro náročná prostředí agentního kódování. Konkrétně používáme 120 000 interních zaměstnaneckých agentních trajektorií z GPT‑5.4 k simulaci interního nasazení kódovacích agentů založených na GPT‑5.5. Slouží to dvěma účelům: ukazuje to, jak lze simulaci nasazení použít i k posouzení rizik interních nasazení, a dokládá to, že vysoké věrnosti simulace lze dosáhnout i v agentních prostředích díky pečlivé simulaci nástrojů.

Výše jsme uvedli, že věrnost simulace je jedním z hlavních zdrojů chyb v našem současném procesu. Jednou z výzev při vytváření realistických simulací nasazení je to, že nástroje se musí chovat realisticky, i když potřebují přístup pro čtení/zápis k externím zdrojům, které se neustále mění (např. webová vyhledávání nebo interakce s místními soubory).

To je obzvlášť náročné v prostředích, jako jsou agentní nasazení: jediná trajektorie agenta může záviset na stovkách volání nástrojů, stavu úložiště, síťových odpovědích nebo přechodných selháních. Opakované vzorkování se skutečným přístupem k nástrojům je tím náročné a potenciálně nebezpečné. S ohledem na to místo aplikování volání nástrojů na živé systémy tato volání simulujeme pomocí jiného LLM. Ukazujeme, že poskytnout tomuto LLM další možnosti je zásadní pro realističnost, a tedy i kvalitu odhadu.

Modelu simulátoru nástroje předáváme původní rollout závěrečného tahu, úložiště z doby konverzace, databázi dvojic volání nástrojů/odpověď a konektory pouze pro čtení. V testu, kde se diskriminátor snažil odlišit simulované rollouty od skutečných, se realističnost zlepšila z míry úspěšnosti 11,6 % na 49,5 %, tedy blízko náhodné úrovně 50 %.

Obrázek 6: Realističnost opakovaného vzorkování lze učinit téměř nerozlišitelnou od skutečného vzorkování i v prostředích silně využívajících nástroje, pokud se volání nástrojů simulují s rozšířenými možnostmi.

Jako další důkaz věrnosti simulace platí, že při simulaci provozu GPT‑5.4 Codex thinking pomocí GPT‑5.4 jsou míry nesouladu zhruba v mezích chybových intervalů. Naproti tomu v našem testování před nasazením byl GPT‑5.5 ve většině kategorií více nevyrovnaný.

Obrázek 7: Se simulací nástrojů jsou míry chování u konverzací znovu vzorkovaných pomocí GPT‑5.4 a skutečného produkčního provozu GPT‑5.4 velmi podobné – což naznačuje vysokou věrnost prostředí pro opakované vzorkování. Další kontext ke kategoriím najdete v kartě systému GPT‑5.5(otevře se v novém okně).

Tyto výsledky naznačují, že simulaci nasazení lze rozšířit na komplexní agentní prostředí, pokud je okolní prostředí nástrojů simulováno s dostatečnou věrností.

WildChat a externí audit

Přirozenou otázkou je, zda mohou externí auditoři získat některé ze stejných přínosů bez přístupu k soukromému produkčnímu provozu. Otestovali jsme to se 100 000 konverzacemi WildChat použitými jako prefixy. WildChat byl méně přesný než nedávná produkční data OpenAI, ale stále informativní: nedávná produkční data měla nižší průměrnou multiplikativní chybu než WildChat (1,75× oproti 2,44×), zatímco WildChat často zůstával zhruba do 3× produkčních měr a identifikoval lepší model s úspěšností nad úrovní náhody. Vyhodnocení ve stylu WildChat vnímáme jako slibný doplněk k Simulaci nasazení prováděné vývojáři. Další výsledky k tomuto bodu najdete v tomto doprovodném článku na blogu o souladu(otevře se v novém okně).

Omezení

Simulace nasazení je doplněk, nikoli náhrada adversariálních vyhodnocení, red-teamingu a cílené analýzy tailových rizik. Detekce některých nežádoucích chování modelu závisí na monitorovatelnosti myšlenkového řetězce: pokud budou budoucí modely uvažovat méně čitelně, vynechávat klíčové kroky nebo se naučí zastírat záměr, nemusíme být schopni tyto formy nežádoucího chování odhalit. Protože jsou produkční data soukromá, mají vývojáři v současnosti lepší přístup k reprezentativním kontextům než externí auditoři. Lepší veřejné datové sady by mohly tuto mezeru zmenšit.

Simulace nasazení je nejužitečnější pro chování, která se vyskytují dost často na to, aby se objevila ve vzorkovaných prefixech. Selhání, které nastane jednou v deseti milionech konverzací, se v běhu s milionem vzorků pravděpodobně neodhalí, takže adversariální vyhodnocení, red-teaming a cílená analýza tailových rizik zůstávají nezbytné. V současnosti se zaměřujeme na simulaci jedné odpovědi asistenta, protože v předběžných experimentech jsme nezjistili smysluplné zlepšení našich odhadů při simulaci více tahů. Do budoucna to může být důležitá oblast pro zlepšení věrnosti simulace.

Metoda také závisí na distribuci prefixů – směsi konverzací, které se znovu vzorkují. Historický provoz nemusí odpovídat tomu, jak uživatelé interagují se schopnějším modelem po významné změně produktu, vydání nového nástroje, světové události nebo sezónním posunu. Analýza v kompletním článku naznačuje, že tento problém lze zmírnit použitím nejnovějších dostupných dat.

Závěr

Simulace nasazení je nový přístup k posouzení rizik před nasazením, který pomáhá frontier laboratořím a hodnotitelům předpovídat, jak se jazykové modely mohou chovat v reálném světě, a porozumět rizikům, která představují před nasazením. Doplňuje stávající bezpečnostní vyhodnocení, red-teaming a cílenou analýzu tím, že přidává predikční vrstvu bližší produkci, která může zlepšit odhady chování při nasazení, snížit dopady povědomí o vyhodnocení a umožnit kontrolu predikcí před nasazením po vydání. Při použití spolu s tradičními vyhodnoceními může simulace nasazení pomoci učinit posuzování rizik modelů realističtějším, kvantitativnějším a užitečnějším pro rozhodnutí o nasazení.

Autor

OpenAI