Memprediksi prilaku model sadurunge rilis kanthi nyimulasi deployment
Nggunakake konteks obrolan realistis kanggo luwih apik ngira prilaku model sing ora dikarepake sadurunge rilis.
Sadurunge ngrilis model anyar, laboratorium kudu paham ora mung apa sing bisa ditindakake, nanging uga kepiye kemungkinan prilakune ing panggunaan nyata, kalebu ing endi bisa nggawa risiko anyar. Iki dadi luwih penting nalika kapabilitas saya mundhak. Minangka bagean saka tinjauan keamanan pra-deployment, kita nggunakake evaluasi terarah, red-teaming, lan pamriksa liyane kanggo mangerteni prilaku model. Saiki kita wis miwiti nggunakake cara kanggo nyimulasi deployment model sadurunge kedadeyan, sing nambah sinyal pelengkap: pratinjau kaya deployment babagan kepiye calon model bisa tumindak sadurunge tekan panganggo.
Simulasi Deployment yaiku cara kanggo nyimulasi deployment mbesuk sadurunge kedadeyan. Kita nindakake kanthi muter maneh obrolan sadurunge kanthi cara sing njaga privasi nganggo calon model anyar. Iki ngidini kita nyinaoni kepiye model anyar nanggapi ing konteks realistis sadurunge rilis, kalebu apa prilaku ora dikarepake anyar muncul lan sepira kerepe bisa katon.
Ing pirang-pirang deployment Thinking seri GPT‑5, Simulasi Deployment ningkatake perkiraan tingkat prilaku model sing ora dikarepake, mbantu nemokake wujud misalignment anyar sadurunge rilis, lan mbantu nyuda risiko model bisa ngerti yen lagi dites. Kita uga ngetrapake cara iki marang rollout agentic sing angel, nuduhake yen iki bisa ngluwihi chat standar menyang setelan agen sing luwih kompleks sing kalebu panggunaan alat, lan uga bisa digunakake kanggo penilaian risiko sadurunge deployment model internal.
Kita wis nggunakake wawasan saka Simulasi Deployment sajrone pangembangan model kanggo ngenali titik wuta ing evaluasi tradisional lan menehi informasi kanggo mitigasi lan keputusan deployment. Nalika pipeline iki digawe luwih gampang dijalanke, kita ngarepake perane bakal luwih gedhe ing proses pangembangan model mbesuk.
Evaluasi pra-deployment sing digunakake ing industri umume dumadi saka campuran prompt sintetis, ditulis manual, utawa produksi sing sengaja dipilih amarga angel, tingkat keruwetan dhuwur, utawa adversarial. Evaluasi iki umume duwe rong tujuan sing gegandhengan: menilai kepiye model nanggapi nalika dites tekanan ing kahanan sing kemungkinan cilik banget kedadeyan ing lalu lintas deployment, lan entuk pemahaman umum babagan prilaku model sing ora dikarepake, kalebu nemokake prilaku anyar sing ora dikarepake lan memprediksi frekuensine nalika deployment.
Sanajan evaluasi tradisional tetep penting kanggo tujuan pisanan, Simulasi Deployment minangka langkah maju gedhe kanggo tujuan kapindho tumrap risiko non-tail (ing eksperimen kita, pendekatan kita ora bisa diarepake kanggo ngukur prilaku sing kedadeyan kanthi frekuensi kurang saka 1 saben 200.000 pesen). Kekuwatan Simulasi Deployment asalé saka ngindhari sawetara tantangan inti ing evaluasi tradisional:
- Cakupan: angel kanggo yakin yen prompt evaluasi bakal nyakup kabeh jinis prilaku model sing ora dikarepake. Ngukur jinis anyar prilaku sing ora dikarepake mbutuhake nggawe evaluasi anyar, lan ngerti cilaka apa sing kudu diukur. Iki bisa mbutuhake wektu lan tenaga akeh, lan evaluasi bisa jenuh suwe-suwe.
- Bias pilihan: evaluasi tradisional umume dibangun kanthi mikirake prilaku model ora dikarepake tartamtu, dipilih kanthi cara sing condhong marang konteks sing wis kedadeyan sadurunge. Iki bisa nggawe perkiraane kurang informatif babagan insidensi prilaku kasebut ing saindenging distribusi deployment.
- Bisa dikenali model minangka tes: model saya bisa nemtokake yen lagi dites, sing bisa ngowahi prilakune lan pangukuran turunan kita babagan keamanane. Sanajan akeh evaluasi tradisional sing digunakake ing OpenAI uga dijupuk saka lalu lintas produksi lan ora ngalami masalah iki, iki dadi keprihatinan umum kanggo akeh evaluasi tradisional ing industri.
Teknik utama ing mburi Simulasi Deployment iku prasaja: kita njupuk obrolan anyar saka deployment, mbusak tanggapan asisten asli saka model lawas, banjur ngasilake maneh nganggo calon model sing bakal dirilis. Kita ngevaluasi completion kanthi nggoleki mode kegagalan anyar, lan ngira frekuensi prilaku ora dikarepake nalika deployment adhedhasar frekuensi ing distribusi kaya deployment iki. Kita bisa nindakake pangukuran sing padha sawise rilis ing lalu lintas deployment nyata, supaya bisa validasi ramalan pra-deployment.
Simulasi Deployment kanthi signifikan ngurangi telung watesan ing ndhuwur: bias sampling ditangani kanthi nggunakake distribusi prompt evaluasi sing makili panggunaan anyar. Simulasi Deployment nganggo prompt representatif uga bisa ngurangi keprihatinan babagan cakupan: kita entuk cakupan luwih gedhe kanggo prilaku model sing ora dikarepake kanthi mung nyimulasi lalu lintas luwih akeh. Tukar-ganti antarane komputasi lan cakupan iki penting, amarga nggawe kualitas sumbu penilaian risiko iki skala karo komputasi, dudu usaha manual sing dibutuhake kanggo nggawe evaluasi luwih akeh. Model uga katon ora bisa mbedakake antarane obrolan sing dipikolehi liwat simulasi deployment lan lalu lintas deployment nyata.
Gambar 1: Ringkesan pipeline Simulasi Deployment kita
Area | Evaluasi Tradisional | Simulasi Deployment |
Cakupan | Luwih apik kanggo risiko prevalensi endhek nanging keruwetan dhuwur sing pengin kita pastikake ana cakupane | Luwih apik kanggo mangerteni spektrum risiko sing kemungkinan bakal katon ing lalu lintas deployment |
Representativitas / bias | Fokus kanggo ngevaluasi risiko masa lalu utawa risiko prediksi sing dituju, sanajan kanggo prilaku sing prevalensine banget endhek ing deployment | Makili risiko sing kedadeyan ngluwihi prevalensi tartamtu ing lalu lintas deployment saiki |
Kesadaran evaluasi | Isyarat tes sing bisa ketok (umpamane nganggo data sintetis) kajaba eval digawe nganggo data deployment | Konteks kaya deployment katon ngurangi kesadaran eval kanthi signifikan |
Usaha | Distribusi prompt lan setup khusus mbutuhake usaha manual sing luwih akeh banget | Mbutuhake biaya infrastruktur sepisan, banjur nggunakake maneh prefiks saka deployment lan grader saka prilaku ora dikarepake sing wis dikenal |
Perbandingan tingkat dhuwur antarane evaluasi tradisional lan Simulasi Deployment
Kanggo ngevaluasi Simulasi Deployment, kita pra-registrasi prediksi kanggo frekuensi 20 jinis prilaku ora dikarepake nalika deployment kanggo GPT‑5.4 Thinking. Kita uga nindakake studi retrospektif ing deployment liyane saka model Thinking seri GPT‑5. Prilaku model sing dianalisis nyakup misalignment lan kategori konten sing ora diidini sing wis kita laporake ing kertu sistem (umpamane model ngapusi babagan alat, utawa ngasilake konten seksual sing ora diidini). Sanajan kanggo asil iki kita mung nglacak 20 kategori prilaku model sing ora dikarepake, lan mung nggoleki prilaku ora selaras sing anyar, Simulasi Deployment iku teknik umum sing bisa ditrapake kanggo nyimulasi properti model apa wae nalika deployment.
Lalu lintas produksi sing kita manfaatake uga saka model Thinking seri GPT‑5. Sadurunge nindakake evaluasi, kita kanthi otomatis mbusak pengenal sing gegandhengan karo akun lan informasi sing bisa ngenali wong. Miturut kebijakan privasi kita, kita mung nganalisis lalu lintas ChatGPT saka panganggo sing ngidini datane digunakake kanggo perbaikan model. Kita mung nglaporake temuan agregat saka evaluasi iki. Total, kita nganalisis kira-kira 1,3 yuta obrolan sing wis dihapus identitase ing deployment GPT‑5 Thinking nganti GPT‑5.4, saka Agustus 2025 nganti Maret 2026.
Kita ngevaluasi kualitas penilaian risiko pra-deployment sing diasilake Simulasi Deployment kanthi telung cara utama:
- Cakupan taksonomi: apa audit sawise rilis nemokake prilaku ora selaras penting sing ora ana ing taksonomi prilaku ala awal kita?
- Akurasi arah: apa simulasi kanthi bener memprediksi apa prevalensi deployment bakal mundhak utawa mudhun kanggo prilaku sing wis dikenal?
- Kalibrasi tingkat: apa perkiraan pra-deployment kita cedhak karo tingkat sing mengko diamati ing deployment? Nggawe kalibrasi tingkat sing apik mbutuhake luwih saka akurasi arah, mula iki dadi standar kualitas paling dhuwur.
Kita uga ngukur sepira model bisa ngerti yen lagi ana ing evaluasi sajrone Simulasi Deployment, lan nguji sepira tangguh cara iki marang macem-macem wujud lalu lintas deployment lan setelan panggunaan alat sing tantangane angel.
Ing deployment Thinking seri GPT‑5, Simulasi Deployment ngungguli baseline prompt tantangan kanggo nemtokake tingkat risiko nyata, bisa nemokake peretasan kalkulator sadurunge rilis, lan katon bisa uga ora bisa dibedakake saka deployment dening model.
Ringkesan prediksi kita. Kanggo visualisasi kabeh prediksi kanggo deployment model Thinking seri GPT‑5, delengen Gambar 2. Prediksi kanggo GPT‑5.4 Thinking wis pra-registrasi, dene liyane minangka prediksi retrospektif. Secara agregat, prediksi kita duwe galat multiplikatif median 1,5x (umpamane yen tingkat prilaku ora dikarepake 10 saben 100k, iki cocog karo perkiraan tingkat 15 utawa 6,67 saben 100k). Sanajan galat tail saka cara kita bisa kira-kira 10x luwih gedhe, kita ngarepake bisa dikurangi kanthi signifikan liwat perbaikan luwih lanjut marang pipeline simulasi kita, kaya dirembug ing ngisor iki.
Gambar 2. Prediksi frekuensi Simulasi Deployment tumrap prilaku ora dikarepake nalika deployment adhedhasar data deployment sadurunge. Notasi 5.1 → 5 nuduhake manawa kita nyampling ulang prefiks saka GPT‑5 nganggo GPT‑5.1, yaiku nyimulasi deployment GPT‑5.1 adhedhasar data saka GPT‑5. Tingkat prilaku ora selaras paling dhuwur yaiku “peretasan kalkulator” ing GPT‑5.1, sing wis kita rembug sadurunge(mbukak ing jendhela anyar).
Mbandhingake prediksi Simulasi Deployment karo baseline. Kategori paling penting kanggo diperkirakake kanthi bener kanggo penilaian risiko pra-deployment yaiku sing ngalami owah-owahan insidensi gedhe sawise deployment model (umpamane >= 1,5x). Ing subset iki, Simulasi Deployment luwih apik tinimbang baseline, loro-lorone kanggo memprediksi apa prilaku ora dikarepake tartamtu bakal mundhak utawa mudhun prevalensine karo deployment model (Gambar 3, kiwa), lan kanggo ngira insidensi pas nalika deployment (Gambar 3, tengen). Kita nggunakake loro baseline utama: baseline Challenging Prompts sing saiki digunakake kanggo kertu sistem lan keputusan peluncuran, lan baseline naif sing nggunakake tingkat saka deployment sadurunge minangka perkiraan kanggo model anyar.
Gambar 3. Simulasi Deployment memprediksi arah owah-owahan insidensi (kiwa) lan tingkat produksi sing pas (tengen) luwih apik tinimbang eval statis.
Sumber galat simulasi ing pipeline kita. Kita uga nyinaoni sumber galat saiki ing pipeline kita. Mligi, galat tail sing gedhe nggawe pipeline kurang bisa dipercaya kanggo keputusan deployment: contone, nalika ndeleng prediksi kenaikan gedhe ing prilaku ora dikarepake jinis tartamtu, yen pipeline dikenal kadang duwe galat gedhe, iki nuwuhake keraguan apa iki perkiraan sing andal utawa artefak saka pipeline. Ana loro sumber utama galat sing bisa kedadeyan:
- Galat kesetiaan lingkungan resampling: kanggo ngira tingkat produksi kanthi akurat, pipeline simulasi kita kudu serealistis mungkin. Iki sebagian masalah rekayasa (nyampling saka model nganggo pipeline sing padha karo sing digunakake kanggo lalu lintas produksi), lan sebagian tantangan menarik kanggo alat sing butuh akses maca/tulis menyang sumber daya eksternal sing terus owah (umpamane telusuran web utawa interaksi karo berkas lokal). Kita bisa ngisolasi galat kesetiaan simulasi kanthi mbandhingake prediksi saka deployment nyata lan simulasine (yaiku, nyimulasi deployment model sing wis dideploy).
- Galat pergeseran distribusi prompt: keprihatinan utama ing Simulasi Deployment yaiku deployment model apa wae bakal nyebabake pergeseran distribusi input, utamane yen panganggo adaptasi karo affordance model anyar. Kita ngisolasi galat distribusi prompt kanthi mbandhingake perkiraan nalika nyimulasi deployment nganggo prompt anyar vs prompt saka deployment sing wis kedadeyan.
Kaya katon ing Gambar 4, kita nemokake yen bagean gedhe saka galat ing pipeline kita–utamane kanggo galat tail–saiki amarga kesetiaan simulasi. Iki kabar apik, amarga kita ngarepake kesetiaan simulasi umume luwih gampang ditingkatake tinimbang ngurangi pergeseran distribusi prompt. Kita uga nemokake yen galat pergeseran distribusi prompt bisa dikurangi kanthi nggunakake data paling anyar saka deployment sadurunge. Rincian liyane bisa ditemokake ing makalah riset.
Gambar 4: Kesetiaan lingkungan resampling katon dadi sumber galat paling gedhe ing perkiraan kita, utamane kanggo galat sing paling ekstrem.
Audit otomatis nemokake siji misalignment anyar sing dikenalake ing deployment iki. Ing jendhela deployment sing kita sinaoni, pipeline audit otomatis adhedhasar deployment simulasi mesthi bakal nemokake “peretasan kalkulator” sadurunge rilis, yaiku siji-sijine misalignment anyar sing kita identifikasi ing lalu lintas ChatGPT sing dianalisis. Peretasan kalkulator yaiku wujud reward hacking sing kalebu model nggunakake alat browser minangka kalkulator nalika nampilake tumindak kasebut minangka telusuran. Iki ora ateges audit skala gedhe bakal nangkep saben kegagalan anyar, nanging nuduhake kenapa konteks realistis penting: konteks bisa micu prilaku sing ora tau muncul langsung ing set eval sing luwih sempit, sanajan prilaku kasebut ora ana ing lalu lintas asli sing digunakake kanggo miwiti simulasi.
Kauntungan liyane saka nggunakake konteks kaya deployment yaiku bisa ngurangi distorsi sing muncul nalika model ngerti yen lagi dites. Ing riset sadurunge, kita uga pihak liya(mbukak ing jendhela anyar) nemokake yen model kerep sadar nalika lagi dites. Contone, model bisa nganggo nalar ing ranté pikiran babagan apa sing lagi dites, apa sing disenengi evaluator, lan – yen tumindake salah – apa bakal ketangkep. Iki dadi masalah kanggo evaluasi alignment: yen model mung tumindak apik amarga mikir lagi dites, kepiye kita mbangun keyakinan yen bakal tumindak aman nalika ngerti yen wis dideploy?
Kita nuduhake yen Simulasi Deployment kanthi substansial ngurangi tingkat kesadaran evaluasi sing dituduhake model dibandhingake evaluasi tradisional sing ora adhedhasar data deployment nyata. Kita ngukur kesadaran evaluasi kanthi telung cara: kanthi njaluk model nglasifikasi apa trajektori asalé saka produksi utawa evaluasi, ngawasi ranté pikiran kanggo pernyataan eksplisit babagan dievaluasi kanggo alignment, uga kanggo metagaming(mbukak ing jendhela anyar): nalar apa wae babagan pengawasan. Lalu lintas deployment simulasi cocog cedhak karo lalu lintas deployment nyata ing telung ukuran kasebut. Contone, GPT‑5.2 menehi label lalu lintas produksi nyata minangka kaya evaluasi 5,4% wektu lan lalu lintas simulasi 5,1% wektu, dene evaluasi tradisional (kayata SWE-Bench utawa MonorepoBench, sing utamane kasusun saka conto sintetis) diklasifikasi minangka evaluasi meh 100% wektu.
Gambar 5. Perbandingan kesadaran evaluasi: lalu lintas produksi nyata lan lalu lintas simulasi nuduhake tingkat sing mirip kanggo deteksi eval, kesadaran evaluasi alignment sing diucapake, lan metagaming, dene dataset eval tradisional nglaporake tingkat sing luwih dhuwur.
Kanggo nguji apa cara iki bisa ngluwihi mode chat standar, kita uga nyinaoni simulasi deployment kanggo setelan coding agentic sing tantangane angel. Mligi, kita nggunakake 120.000 trajektori agentic karyawan internal saka GPT‑5.4 kanggo nyimulasi deployment internal agen coding adhedhasar GPT‑5.5. Iki nduweni loro tujuan: nuduhake kepiye simulasi deployment uga bisa digunakake kanggo penilaian risiko kanggo deployment internal, lan nuduhake yen kesetiaan simulasi bisa digawe dhuwur sanajan ing setelan agentic liwat simulasi alat sing ati-ati.
Ing ndhuwur kita wis ngrembug yen kesetiaan simulasi iku salah siji sumber utama galat ing pipeline saiki. Salah siji tantangan kanggo nggawe simulasi deployment realistis yaiku alat kudu tumindak kanthi cara realistis, sanajan butuh akses maca/tulis menyang sumber daya eksternal sing terus owah (umpamane telusuran web utawa interaksi karo berkas lokal).
Iki utamane angel kanggo setelan kayata deployment agentic: siji trajektori agen bisa gumantung marang atusan panggilan alat, kahanan gudang kode, tanggapan jaringan, utawa kegagalan sementara. Iki nggawe resampling nganggo akses alat nyata dadi angel lan bisa mbebayani. Mula, tinimbang ngetrapake panggilan alat menyang sistem langsung, kita nyimulasi nganggo LLM liyane. Kita nuduhake yen menehi affordance ekstra marang LLM iki penting kanggo realisme lan mulane kualitas perkiraan.
Kita menehi model simulator alat rollout final-turn asli, gudang kode saka wektu obrolan, basis data pasangan panggilan/tanggapan alat, lan konektor mung-waca. Ing tes nalika diskriminator nyoba mbedakake rollout simulasi saka sing nyata, realisme mundhak saka tingkat menang 11,6% dadi 49,5%, cedhak karo tingkat peluang 50%.
Gambar 6: Realisme resampling bisa digawe meh ora bisa dibedakake saka sampling nyata sanajan ing setelan akeh alat nalika nyimulasi panggilan alat nganggo affordance sing ditambah.
Minangka bukti tambahan kesetiaan simulasi, nalika nyimulasi lalu lintas thinking GPT‑5.4 Codex nganggo GPT‑5.4, tingkat misalignment kira-kira ana ing jeruji galat. Kosok baline, ing uji pra-deployment kita GPT‑5.5 luwih ora selaras ing sebagian besar kategori.
Gambar 7: Kanthi simulasi alat, tingkat prilaku kanggo obrolan sing disampling ulang nganggo GPT‑5.4 lan lalu lintas produksi GPT‑5.4 nyata cukup mirip – nuduhake kesetiaan lingkungan resampling sing dhuwur. Delengen kertu sistem GPT‑5.5(mbukak ing jendhela anyar) kanggo konteks liyane babagan kategori.
Asil iki nuduhake yen Simulasi Deployment bisa ngluwihi menyang setelan agen kompleks nalika lingkungan alat sakupenge disimulasi kanthi kesetiaan cukup.
Pitakon alami yaiku apa auditor eksternal bisa entuk sawetara manfaat sing padha tanpa akses menyang lalu lintas produksi pribadi. Kita nguji iki nganggo 100.000 obrolan WildChat sing digunakake minangka prefiks. WildChat kurang akurat tinimbang data produksi OpenAI paling anyar, nanging tetep informatif: data produksi anyar duwe galat multiplikatif rata-rata luwih endhek tinimbang WildChat (1,75× vs. 2,44×), dene WildChat kerep tetep ing kisaran kira-kira 3× saka tingkat produksi lan ngenali model sing luwih apik ing tingkat luwih dhuwur tinimbang peluang. Kita ndeleng evaluasi gaya WildChat minangka pelengkap sing menjanjikan kanggo Simulasi Deployment sing dijalanke pangembang. Delengen blogpost Alignment(mbukak ing jendhela anyar) pendamping iki kanggo asil liyane babagan poin iki.
Simulasi Deployment iku pelengkap, dudu pangganti, kanggo evaluasi adversarial, red-teaming, lan analisis risiko tail sing terarah. Deteksi sawetara prilaku model sing ora dikarepake gumantung marang kemampuan ngawasi ranté pikiran: yen model mbesuk bernalar kurang cetha, ngilangake langkah kunci, utawa sinau ndhelikake niat, kita bisa uga ora bisa ndeteksi wujud prilaku ora dikarepake iki. Salajengipun, amarga data produksi iku pribadi, pangembang saiki duwe akses luwih kuwat menyang konteks representatif tinimbang auditor eksternal. Dataset publik sing luwih apik bisa nyempitake celah kasebut.
Simulasi Deployment paling migunani kanggo prilaku sing cukup kerep kedadeyan nganti muncul ing prefiks sampel. Kegagalan sing kedadeyan sepisan ing sepuluh yuta obrolan ora mungkin ditemokake ing run siji yuta sampel, mula evaluasi adversarial, red-teaming, lan analisis risiko tail sing terarah tetep perlu. Saiki kita fokus nyimulasi siji tanggapan asisten, amarga ing eksperimen awal kita ora nemokake perbaikan bermakna marang perkiraan kanthi nyimulasi pirang-pirang giliran. Iki bisa dadi area penting kanggo ningkatake kesetiaan simulasi ing mangsa ngarep.
Cara iki uga gumantung marang distribusi prefiks—campuran obrolan sing disampling ulang. Lalu lintas historis bisa uga ora cocog karo cara panganggo sesambungan karo model sing luwih mumpuni sawise owah-owahan produk gedhe, rilis alat anyar, kedadeyan donya, utawa pergeseran musiman. Analisis ing makalah lengkap nuduhake yen masalah iki bisa dikurangi kanthi nggunakake data paling anyar sing kasedhiya.
Simulasi deployment iku pendekatan anyar kanggo penilaian risiko pra-deployment sing mbantu lab tercanggih lan evaluator memprediksi kepiye model basa bisa tumindak ing donya nyata lan mangerteni risiko sing ditimbulake sadurunge deployment. Iki nglengkapi evaluasi keamanan, red-teaming, lan analisis terarah sing wis ana kanthi nambah lapisan prediksi sing luwih mirip produksi sing bisa ningkatake perkiraan prilaku deployment, ngurangi efek kesadaran evaluasi, lan nggawe prediksi pra-deployment bisa dipriksa sawise rilis. Digunakake bebarengan karo evaluasi tradisional, Simulasi Deployment bisa mbantu nggawe penilaian risiko model luwih realistis, luwih kuantitatif, lan luwih migunani kanggo keputusan deployment.


