Paghula sa paggawi ng modelo bago i-release sa pamamagitan ng pag-simulate ng deployment
Paggamit ng mga makatotohanang konteksto ng pag-uusap para mas matantiya ang di-kanais-nais na paggawi ng modelo bago i-release.
Bago i-release ang bagong modelo, kailangang maunawaan ng mga lab hindi lang kung ano ang kaya nitong gawin, kundi kung paano ito malamang na kumilos sa paggamit sa totoong mundo, kasama kung saan ito puwedeng magdulot ng mga bagong panganib. Mas nagiging mahalaga ito habang nadadagdagan ang mga kakayahan. Bilang bahagi ng aming pre-deployment safety review, gumagamit kami ng mga targeted evaluation, red-teaming, at iba pang pagsusuri para maunawaan ang gawi ng modelo. Nagsimula na kaming gumamit ng paraan para i-simulate ang mga deployment ng modelo bago mangyari ang mga ito, na nagdaragdag ng komplementaryong signal: isang preview na parang deployment kung paano maaaring kumilos ang kandidatong modelo bago ito makarating sa mga user.
Ang Simulation ng Deployment ay isang paraan para i-simulate ang isang deployment sa hinaharap bago ito mangyari. Ginagawa namin ito sa pamamagitan ng muling pagre-replay ng mga nakaraang pag-uusap sa paraang nagpoprotekta sa privacy gamit ang bagong kandidatong modelo. Pinapahintulutan kami nitong pag-aralan kung paano tumutugon ang bagong modelo sa makatotohanang mga konteksto bago i-release, kabilang kung may lumilitaw na mga bagong di-kanais-nais na paggawi at gaano kadalas maaaring lumitaw ang mga ito.
Sa maraming pag-deploy ng Thinking sa GPT‑5‑series, pinahusay ng Simulation ng Deployment ang aming mga pagtatantiya sa mga rate ng di-kanais-nais na paggawi ng modelo, nakatulong na matuklasan ang mga bagong anyo ng misalignment bago i-release, at nakatulong na mabawasan ang panganib na masabi ng mga modelo na sinusubok sila. Ini-apply din namin ang paraan sa mapanghamong mga agentic rollout, na nagpapakitang puwede itong lumampas sa karaniwang chat tungo sa mas kumplikadong mga setting ng agent na may paggamit ng tool, at magagamit din para sa pagtatasa ng panganib bago ang mga internal na deployment ng modelo.
Nagamit na namin ang mga insight mula sa Simulation ng Deployment sa pagbuo ng modelo para matukoy ang mga blind spot sa mga tradisyonal na pagsusuri at magbigay-impormasyon sa mga pagpapagaan at desisyon sa pag-deploy. Habang pinapadali namin ang pagpapatakbo ng pipeline, inaasahan naming gaganap ito ng mas malaking papel sa proseso ng pag-develop ng modelo sa hinaharap.
Ang mga pre-deployment evaluation na ginagamit sa buong industriya ay karaniwang binubuo ng pinaghalong synthetic, manu-manong isinulat, o mga prompt ng produksyon na sadyang pinili para maging mahirap, mataas ang kalubhaan, o magkasalungat. Karaniwang may dalawang magkakaugnay na layunin ang mga pagsusuri na ito: pagtatasa kung paano tumutugon ang modelo kapag nasubok sa stress sa mga sitwasyon na may napakaliit na posibilidad na mangyari sa deployment traffic, at pagkakaroon ng pangkalahatang pag-unawa sa mga hindi kanais-nais na paggawi ng modelo, kabilang ang paghahanap ng mga bagong hindi kanais-nais na paggawi at paghula sa mga dalas ng kanilang oras ng pag-deploy.
Bagaman nananatiling mahalaga ang mga tradisyonal na pagsusuri para sa unang layunin, ang Deployment Simulation ay kumakatawan sa isang mahalagang hakbang pasulong kaugnay ng pangalawang layunin para sa mga non-tail risk (sa aming mga eksperimento, hindi maaasahan na susukatin ng aming pamamaraan ang mga paggawing nangyayari nang may dalas na mas mababa sa 1 sa 200,000 mensahe). Ang kalakasan ng Deployment Simulation ay nagmumula sa pag-iwas sa ilang pangunahing hamon gamit ang mga tradisyunal na pagsusuri:
- Saklaw: mahirap maging kumpiyansa na masasaklaw ng mga evaluation prompt ang lahat ng posibleng uri ng di-kanais-nais na paggawi ng modelo. Ang pagsukat ng mga bagong uri ng di-kanais-nais na paggawi ay nangangailangan ng paggawa ng mga bagong pagsusuri, at pag-alam kung anong mga pinsala ang susukatin. Puwede itong mangailangan ng maraming oras at paggawa, at maaaring ma-saturate ang mga pagsusuri sa paglipas ng panahon.
- Mga bias sa pagpili: karaniwang binubuo ang mga tradisyunal na pagsusuri na nasa isip ang partikular na mga hindi kanais-nais na paggawi ng modelo, at pinipili sa paraang may bias patungo sa mga konteksto na dati nang nangyari. Maaaring dahil dito, mas hindi nagiging akmang basehan ang kanilang mga pagtatantya tungkol sa dalas ng mga ganitong paggawi sa kabuuang saklaw ng distribution ng deployment.
- Pagiging makikilala bilang mga pagsubok ayon sa mga modelo: mas nagiging kaya na ng mga modelo na matukoy kung sinusubok sila, na maaaring makapag-distort sa kanilang paggawi at sa mga susunod na sukat natin ng kanilang kaligtasan. Bagaman marami sa mga tradisyunal na evaluation na ginagamit namin sa OpenAI ay kinukuha rin mula sa production traffic at hindi nakakaranas ng ganitong isyu, isa itong karaniwang alalahanin para sa maraming tradisyunal na pagsusuri na ginagamit sa buong industriya.
Simple ang pangunahing teknik sa likod ng Simulation ng Deployment: kumukuha kami ng mga kamakailang pag-uusap mula sa deployment, inaalis ang orihinal na tugon ng assistant mula sa mas lumang modelo, at muling ginagawa ito gamit ang kandidatong modelong ire-release. Sinusuri namin ang mga completion sa pamamagitan ng paghahanap ng mga bagong failure mode, at tinatantiya ang dalas ng di-kanais-nais na paggawi sa oras ng deployment batay sa dalas sa distribusyong parang deployment na ito. Magagawa namin ang parehong mga pagsukat pagkatapos ng pag-release sa tunay na deployment traffic, na nagpapahintulot sa aming i-verify ang aming mga forecast bago ang deployment.
Malaki ang nababawasan ng Deployment Simulation sa tatlong limitasyong nakalista sa itaas: ang sampling bias ay tinutugunan sa pamamagitan ng paggamit ng distribusyon ng mga evaluation prompt na kumakatawan sa kamakailang paggamit. Ang Deployment Simulation na may mga representative na prompt ay maaari ring makabawas sa mga alalahanin tungkol sa saklaw: nakakakuha tayo ng mas malawak na saklaw ng mga hindi kanais-nais na pag-gawi ng modelo sa pamamagitan lamang ng pag-simulate ng mas maraming traffic. Mahalaga ang tradeoff na ito sa pagitan ng compute at coverage, dahil ginagawa nitong masukat ang kalidad ng axis na ito ng risk assessment gamit ang compute, sa halip na ang manu-manong pagsisikap na kinakailangan para bumuo ng mas maraming pagsusuri. Tila hindi rin nagagawang ihiwalay ng mga modelo ang mga pag-uusap na nagmumula sa deployment simulation at ang totoong deployment traffic.
Figure 1: Pangkalahatang-ideya ng aming pipeline ng Deployment Simulation
Larangan | Mga Tradisyonal na Pagsusuri | Deployment Simulation |
Coverage | Mas mahusay para sa mga panganib na mababa ang prevalence pero mataas ang kalubhaan na gusto naming siguraduhing mayroon kaming coverage para dito | Mas mainam para maunawaan ang saklaw ng mga panganib na malamang na makita natin sa deployment traffic |
Pagiging kinatawan / bias | Nakatuon sa pagsusuri ng mga naka-target na nakaraan o hinulaang panganib, kahit na para sa mga paggawii na may napakababang prevalence sa deployment | Kumakatawan sa mga panganib na nangyayari nang higit sa tiyak na prevalence sa kasalukuyang deployment traffic |
Evaluation awareness | Posibleng malinaw na mga cue ng test (hal., gamit ang synthetic data) maliban kung ginawa ang evals gamit ang deployment data | Mukhang malaki ang naitutulong ng deployment-like na konteksto sa pagbawas ng eval awareness |
Pagsisikap | Nangangailangan ng mas maraming manu-manong pagsisikap ang mga custom na distribusyon at setup ng prompt | Nangangailangan ng isang beses na gastos sa imprastraktura, at pagkatapos ay muling gumagamit ng mga prefix mula sa deployment at mga grader mula sa mga kilalang di-kanais-nais na paggawi |
Mataas na antas na paghahambing sa pagitan ng tradisyonal na pagsusuri at Deployment Simulation
Para masuri ang Deployment Simulation, nag-preregister kami ng mga hula para sa dalas ng deployment-time ng 20 uri ng hindi kanais-nais na paggawi para sa GPT‑5.4 Thinking. Nagsagawa rin kami ng mga retrospective na pag-aaral sa iba pang mga deployment ng mga Thinking model ng GPT‑5‑series. Ang mga paggawi ng modelo na aming sinusuri ay sumasaklaw sa parehong mga kategorya ng hindi pagkakahanay at hindi pinapayagang nilalaman na iniuulat namin sa mga system card (hal. nagsisinungaling ang modelo tungkol sa mga tool, o naglalabas ng hindi pinapayagang sekswal na nilalaman). Bagaman para sa mga resultang ito, 20 kategorya lamang ng hindi kanais-nais na paggawi ng modelo ang sinusubaybayan namin, at naghahanap lamang ng mga nobelang hindi magkatugmang paggawi, ang Deployment Simulation ay isang pangkalahatang pamamaraan na maaaring i-apply para gayahin ang anumang katangian ng modelo sa oras ng pag-deploy.
Mula rin sa mga Thinking model ng GPT‑5‑series ang production traffic na ginamit namin. Bago patakbuhin ang aming mga pagsusuri, awtomatiko naming inalis ang mga identifier na naka-link sa account at natutukoy na impormasyon. Alinsunod sa aming patakaran sa privacy, sinuri lang namin ang ChatGPT traffic mula sa mga user na pumapayag na gamitin ang kanilang data para sa mga pagpapahusay ng modelo. Mga pinagsama-samang natuklasan lang mula sa mga pagusuring ito ang iniuulat namin. Sa kabuuan, sinuri namin ang humigit-kumulang 1.3 milyong de-identified na pag-uusap sa mga deployment mula GPT‑5 Thinking hanggang GPT‑5.4, mula Agosto 2025 hanggang Marso 2026.
Sinusuri namin ang kalidad ng pagtatasa ng panganib bago ang deployment na ginawa ng Deployment Simulation sa tatlong pangunahing paraan:
- Saklaw ng taxonomy: may natuklasan ba ang auditing pagkatapos ng release na anumang mahahalagang di-naka-align na paggawi na wala sa aming paunang taxonomy ng masamang paggawi?
- Katumpakan ng direksyon: tama bang nahulaan ng simulation kung tataas o bababa ang prevalence ng deployment para sa mga kilalang paggawi?
- Pag-calibrate ng rate: malapit ba ang aming mga pagtatantya bago ang pag-deploy sa mga rate na aming naobserbahan kalaunan sa pag-deploy? Ang pagkamit ng mahusay na pag-calibrate ng rate ay nangangailangan ng higit pa sa katumpakan ng direksyon, na ginagawa itong pinakamataas na posibleng pamantayan ng kalidad.
Sinusukat din namin kung gaano natutukoy ng mga modelo na nasa pagsusuri sila sa panahon ng Deployment Simulation, at sinusubok kung gaano katatag ang paraan sa iba’t ibang anyo ng deployment traffic at sa mahihirap na setting ng paggamit ng tool.
Sa mga deployment ng GPT‑5‑series Thinking, nalampasan ng Simulation ng Deployment ang mga baseline ng challenging-prompt sa pagtukoy ng aktwal na rate ng panganib, nagawang matuklasan ang calculator hacking bago i-release, at lumitaw na posibleng hindi matukoy ng modelo ang pagkakaiba mula sa deployment.
Pangkalahatang-ideya ng aming mga prediksyon. Para sa visualization ng lahat ng prediksyon para sa mga pag-deploy ng Thinking model ng GPT‑5‑series, tingnan ang Figure 2. Sa kabuuan, ang aming mga prediksyon ay may median multiplicative error na 1.5x (halimbawa, kung ang rate ng hindi kanais-nais na paggawi ay 10 sa 100k, katumbas nito ang pagtataya ng 15 o 6.67 sa 100k). Bagaman maaaring humigit-kumulang 10x na mas malaki ang mga tail error ng aming paraan, inaasahan naming mababawasan nang malaki ang mga ito sa karagdagang pagpapahusay sa aming simulation pipeline, gaya ng tinalakay sa ibaba.
Figure 2. Simulation ng deployment: mga prediksyon sa dalas ng mga hindi kanais-nais na kilos habang naka-deploy, batay sa naunang data ng deployment. Ang notasyon na 5.1 → 5 ay nangangahulugang nagre-resample tayo ng mga prefix mula sa GPT‑5 gamit ang GPT‑5.1, ibig sabihin, sini-simulate natin ang deployment ng GPT‑5.1 gamit ang data mula sa GPT‑5.. Ang pinakamataas na rate ng hindi naka-align na pag-uugali ay ang tinatawag na “calculator hacking” sa GPT‑5.1, na napag-usapan na natin dati.(magbubukas sa bagong window).
Paghahambing ng mga prediksyon ng Deployment Simulation sa mga baseline. Ang pinakamahalagang kategorya na dapat tantyahin nang tama para sa mga pagtatasa ng panganib bago ang pag-deploy ay ang mga may malalaking pagbabago sa insidente pagkatapos ng pag-deploy ng modelo (hal. >= 1.5x). Sa subset na ito, ang Deployment Simulation ay mas mahusay kaysa sa mga baseline kapwa sa paghula kung ang partikular na hindi kanais-nais na paggawi ay tataas o bababa sa prevalence kasabay ng pag-deploy ng modelo (Figure 3, kaliwa), at sa pagtantya ng eksaktong insidente nito sa oras ng pag-deploy (Figure 3, kanan). Gumagamit kami ng dalawang pangunahing baseline: Ang mga Challenging Prompt baseline na kasalukuyang ginagamit namin para sa mga card ng system at desisyon sa paglulunsad, at ang naive baseline na gumagamit ng mga rate mula sa naunang deployment bilang mga pagtatantiya para sa bagong modelo.
Figure 3. Mas mahusay na hinuhulaan ng Deployment Simulation ang parehong direksyon ng mga pagbabago sa insidente (kaliwa) at eksaktong mga rate ng produksyon (kanan) kaysa sa mga static na pagsusuri.
Mga pinagmumulan ng simulation error sa aming pipeline. Pinag-aralan din namin ang kasalukuyang mga pinagmumulan ng error sa aming pipeline. Sa partikular, ginagawang hindi gaanong mapagkakatiwalaan ng malalaking tail error ang pipeline para sa mga desisyon sa deployment: halimbawa, kapag nakakakita ng malaking hinulaang pagtaas sa hindi kanais-nais na paggawi ng partikular na uri, kung kilala ang pipeline na mayroong kahit paminsan-minsang malalaking error, nagbubunga ito ng pagdududa kung maaasahang pagtatantya ito o artifact ng pipeline. Mayroong dalawang pangunahing pinagmumulan ng posibleng error:
- Error sa fidelity ng resampling environment: para matantya nang tumpak ang mga rate ng produksyon, kailangang maging makatotohanan hangga't maaari ang ating simulation pipeline. Bahagi ito ng isang problema sa engineering (pagkuha ng sample mula sa modelo gamit ang parehong mga pipeline na ginagamit para sa production traffic), at bahagi ng kawili-wiling hamon para sa mga tool na nangangailangan ng read/write access sa mga panlabas na mapagkukunan na patuloy na nagbabago (hal. mga paghahanap sa web o pakikipag-ugnayan sa mga lokal na file). Maaari nating ihiwalay ang simulation fidelity error sa pamamagitan ng paghahambing ng mga hula mula sa aktwal na deployment at simulation nito (ibig sabihin, paggaya sa deployment ng naka-deploy nang modelo).
- Error sa pagbabago ng distribusyon ng prompt: Isa sa mga pangunahing alalahanin sa Deployment Simulation ay ang katotohanang ang anumang deployment ng modelo ay puwedeng magdulot ng distributional shift sa mga input, lalo na kung mag-a-adjust o magbabago ang mga user batay sa mga bagong kakayahan o affordance ng modelo. Inihihiwalay namin ang prompt distribution error sa pamamagitan ng paghahambing ng mga pagtataya kapag sini-simulate ang deployment gamit ang mga kamakailang prompt kumpara sa mga prompt mula sa aktuwal na naobserbahang deployment.
Gaya ng makikita sa Figure 4, nalaman naming malaking bahagi ng error sa aming pipeline—lalo na para sa mga tail error—ay kasalukuyang dahil sa simulation fidelity. Magandang balita ito, dahil inaasahan naming karaniwang mas madaling pahusayin ang simulation fidelity kaysa bawasan ang prompt distribution shift. Nalaman din namin na maaaring mabawasan ang prompt distribution shift error sa paggamit ng pinakabagong data mula sa naunang deployment. Matatagpuan ang higit pang detalye sa research paper.
Figure 4: Mukhang ang fidelity ng resampling environment ang pinakamalaking pinagmumulan ng error sa aming mga pagtataya, lalo na para sa mga pinakamatitinding error.
Natagpuan ng automated auditing ang isang bagong misalignment na ipinakilala sa mga deployment na ito. Sa deployment window na pinag-aralan namin, natuklasan sana bago ilabas ng aming automated auditing pipeline batay sa mga simulated deployment ang “calculator hacking”, na siyang tanging bagong misalignment na natukoy namin sa sinuring ChatGPT traffic. Ang calculator hacking ay isang anyo ng reward hacking kung saan ginagamit ng modelo ang browser tool bilang calculator habang inilalarawan ang aksyon bilang search. Hindi ibig sabihin nito na makukuha ng malakihang auditing ang bawat bagong failure, pero ipinapakita nito kung bakit mahalaga ang makatotohanang mga konteksto: maaari silang magpalitaw ng mga paggawi na maaaring hindi kailanman direktang lumitaw sa mas makikitid na eval set, kahit wala ang mga ito sa orihinal na traffic na ginamit para simulan ang simulation.
Isa pang bentahe ng paggamit ng mga kontekstong parang deployment ay maaari nitong mabawasan ang mga distortion na lumilitaw kapag kinikilala ng mga modelo na sinusubok ang mga ito. Sa mga naunang pananaliksik, natuklasan namin, pati na rin ng iba pa(magbubukas sa bagong window) na kadalasang alam ng modelo kung kailan sila sinusubok. Halimbawa, maaaring mangatwiran ang mga modelo sa kanilang chain-of-thought kung saan sila sinusubok, kung ano ang magugustuhan ng evaluator, at – kung kumikilos sila nang mali – kung mahuhuli ba sila. Nagiging problema ito para sa mga alignment evaluation: kung maayos lang ang paggawi ng modelo dahil iniisip nitong sinusubok siya, paano natin mabubuo ang kumpiyansa na kikilos ito nang ligtas kapag nalaman na nito na naka-deploy na ito?
Ipinapakita namin na ang Deployment Simulation ay lubos na nakakabawas sa mga antas ng evaluation awareness na ipinapakita ng mga modelo kumpara sa mga tradisyonal na pagsusuri na hindi batay sa totoong data ng pag-deploy. Sinusukat namin ang evaluation awareness sa tatlong paraan: sa pamamagitan ng pagtatanong sa modelo na uriin kung ang trajectory ay nagmula sa produksyon o isang pagsusuri, pagsubaybay sa chain-of-thought para sa mga tahasang pahayag tungkol sa pagiging sinusuri para sa pagkakahanay, pati na rin para sa metagaming(magbubukas sa bagong window): anumang pangangatwiran tungkol sa pangangasiwa. Ang simulated deployment traffic ay malapit na tumugma sa aktuwal na deployment traffic sa lahat ng tatlong sukat. Halimbawa, sa GPT‑5.2, ang real production traffic ay na-label bilang “evaluation-like” sa 5.4% ng mga pagkakataon, habang ang simulated traffic ay 5.1%. Samantala, ang mga tradisyunal na evaluation (tulad ng SWE-Bench o MonorepoBench, na karamihan ay binubuo ng synthetic na halimbawa) ay halos 100% na natukoy bilang evaluation.
Figure 5. Paghahambing ng evaluation-awareness: Ipinapakita ng tunay na production traffic at simulated traffic ang magkatulad na rate sa eval detection, berbal na awareness ng pagsusuri ng alignment, at metagaming, samantalang mas mataas ang mga rate na naiuulat ng mga tradisyunal na evaluation dataset.
Para subukin kung maaaring lumampas ang paraan sa karaniwang mga chat mode, pinag-aralan din namin ang pag-simulate ng mga deployment para sa mahihirap na setting ng agentic coding. Sa partikular, gumagamit kami ng 120,000 internal na agentic trajectory ng empleyado mula sa GPT‑5.4 para i-simulate ang internal na deployment ng mga coding agent batay sa GPT‑5.5. Nagsisilbi ito ng dalawang layunin: ipinapakita nito kung paano magagamit din ang deployment simulation para sa risk assessment ng internal na deployment, at ipinapakita nitong posibleng gawing mataas ang simulation fidelity kahit sa mga agentic setting sa pamamagitan ng maingat na simulation ng tool.
Natalakay na natin sa itaas na ang simulation fidelity ay isa sa mga pangunahing pinagmumulan ng error sa ating kasalukuyang pipeline. Isa sa mga hamon sa paggawa ng mga deployment simulation na makatotohanan ay ang pangangailangan nito ng mga tool para kumilos sa makatotohanang paraan, kahit na kailangan nila ng read/write access sa panlabas na resources na patuloy na nagbabago (hal. mga paghahanap sa web o pakikipag-ugnayan sa mga lokal na file).
Lalo itong mahirap para sa mga setting gaya ng mga agentic deployment: puwedeng umasa ang isang trajectory ng agent sa daan-daang tool call, estado ng repository, tugon ng network, o pansamantalang failure. Ginagawa nitong parehong mahirap at potensyal na mapanganib ang resampling na may tunay na access sa tool. Dahil dito, sa halip na i-apply ang mga tool call sa mga live system, sini-simulate namin ang mga ito gamit ang isa pang LLM. Ipinapakita namin na mahalaga ang pagbibigay sa LLM na ito ng mga karagdagang affordance para maging mas makatotohanan ang simulation at, dahil dito, mas maging mahusay ang kalidad ng mga pagtataya.
Ibinibigay namin sa tool-simulator model ang orihinal na final-turn rollout, ang repository mula sa oras ng pag-uusap, ang database ng mga pares ng tool-call/response, at mga read-only connector. Sa test kung saan sinubukan ng discriminator na tukuyin ang na-simulate mula sa tunay na mga rollout, bumuti ang realism mula 11.6% win rate tungo sa 49.5%, malapit sa 50% na antas ng tsansa.
Figure 6: Maaaring halos hindi makilala ang realismo ng resampling sa totoong sampling kahit na sa mga setting na maraming tool kapag ginagaya ang mga tool call na may mas mataas na affordance.
Bilang karagdagang ebidensya ng simulation fidelity, kapag sini-simulate ang GPT‑5.4 Codex thinking traffic gamit ang GPT‑5.4, ang mga misalignment rate ay halos nasa loob ng mga error bar. Sa kabaligtaran, sa aming pre-deployment testing, mas hindi naka-align ang GPT‑5.5 sa karamihan ng mga kategorya.
Figure 7: Sa tool simulation, magkahawig ang mga rate ng paggawi para sa mga pag-uusap na muling na-sample gamit ang GPT‑5.4 at aktwal na GPT‑5.4 production traffic—na nagpapahiwatig ng mataas na fidelity ng resampling environment. Tingnan ang card ng system ng GPT‑5.5(magbubukas sa bagong window) para sa higit pang konteksto sa mga kategorya.
Iminumungkahi ng mga resultang ito na puwedeng umabot ang Deployment Simulation sa kumplikadong mga setting ng agent kapag sinimulate nang may sapat na fidelity ang nakapaligid na tool environment.
Isang natural na tanong kung makakakuha ba ang mga panlabas na auditor ng ilan sa parehong mga benepisyo nang walang access sa pribadong production traffic. Sinubok namin ito gamit ang 100,000 pag-uusap sa WildChat bilang mga prefix. Hindi gaanong tumpak ang WildChat kaysa sa kamakailang production data ng OpenAI, pero kapaki-pakinabang pa rin: mas mababa ang average multiplicative error ng kamakailang production data kaysa WildChat (1.75× vs. 2.44×), habang madalas nanatili ang WildChat sa loob ng humigit-kumulang 3× ng production rate at natukoy ang mas mahusay na modelo sa mga rate na higit sa tsansa. Nakikita namin ang mga pagsusuring estilong WildChat bilang magandang pandagdag sa Deployment Simulation na pinapatakbo ng developer. Tingnan ang kasamang blogpost ng Alignment(magbubukas sa bagong window) na ito para sa higit pang resulta sa puntong ito.
Ang Deployment Simulation ay pandagdag sa, hindi kapalit para sa, adversarial evaluation, red-teaming, at naka-target na tail-risk analysis. Ang pagtuklas ng ilang hindi kanais-nais na paggawi ng modelo ay umaasa sa namo-monitor na chain-of-thought: kung ang mga hinaharap na modelo ay mangangatuwiran nang hindi gaanong malinaw, aalisin ang mga pangunahing hakbang, o matutunang itago ang layunin, maaaring hindi natin matukoy ang mga ganitong uri ng hindi kanais-nais na paggawi. Higit pa rito, dahil pribado ang data ng produksyon, ang mga developer ay kasalukuyang may mas malakas na access sa mga kinatawang konteksto kaysa sa mga external na auditor. Puwedeng paliitin ng mas mahusay na mga pampublikong dataset ang puwang na iyon.
Pinakamapakinabang ang Deployment Simulation para sa mga paggawi na sapat ang dalas ng paglitaw para makita sa mga na-sample na prefix. Ang pagkabigo na nangyayari nang isang beses sa sampung milyong pag-uusap ay malamang na hindi matutuklasan sa isang milyong sample na pag-run, kaya ang mga adversarial evaluation, red-teaming, at targeted tail-risk analysis ay nananatiling kinakailangan. Kasalukuyan kaming nakatuon sa pag-simulate ng isang assistant response, dahil sa mga paunang eksperimento, hindi kami nakakita ng mga makabuluhang pagpapabuti sa aming mga pagtatantya sa pamamagitan ng pag-simulate ng maraming turn. Maaaring mahalagang aspeto ito para sa pagpapabuti ng simulation fidelity sa hinaharap.
Nakadepende rin ang paraan sa distribusyon ng prefix—ang pinaghalong mga pag-uusap na muling sina-sample. Maaaring hindi tumugma ang historical traffic sa kung paano nakikipag-ugnayan ang mga user sa mas may kakayahang modelo pagkatapos ng malaking pagbabago sa produkto, bagong release ng tool, kaganapan sa mundo, o seasonal shift. Iminumungkahi ng pagsusuri sa buong paper na mababawasan ang isyung ito sa paggamit ng pinakabagong available na data.
Ang Deployment Simulation ay isang bagong paraan ng pre-deployment risk assessment na tumutulong sa mga frontier lab at evaluator na mahulaan kung paano maaaring kumilos ang mga language model sa totoong mundo at maunawaan ang mga panganib na puwedeng idulot ng mga ito bago pa man i-deploy. Nagsisilbi itong pandagdag sa mga umiiral na safety evaluation, red-teaming, at mga nakatuong pagsusuri sa pamamagitan ng pagdaragdag ng mas kahawig ng aktuwal na production environment na layer ng prediksyon. Nakakatulong ito para mapahusay ang mga pagtataya ng paggawii ng modelo sa deployment, mabawasan ang epekto ng evaluation awareness, at gawing masusuri ang mga pre-deployment na prediksyon pagkatapos ng pag-release. Kapag ginamit kasabay ng mga tradisyunal na pagsusuri, makakatulong ang Deployment Simulation para gawing mas makatotohanan, mas nasusukat, at mas kapaki-pakinabang ang pagtatasa ng panganib ng modelo para sa mga desisyon tungkol sa deployment.


