Memprediksi perilaku model sebelum rilis dengan mensimulasikan deployment
Menggunakan konteks percakapan realistis untuk mengestimasi perilaku model yang tidak diinginkan sebelum rilis dengan lebih baik.
Sebelum merilis model baru, lab perlu memahami bukan hanya apa yang dapat dilakukannya, tetapi juga bagaimana model itu kemungkinan berperilaku dalam penggunaan dunia nyata, termasuk di mana ia mungkin menimbulkan risiko baru. Hal ini menjadi semakin penting seiring meningkatnya kemampuan. Sebagai bagian dari tinjauan keselamatan pradeployment, kami memanfaatkan evaluasi terarah, red-teaming, dan pemeriksaan lain untuk memahami perilaku model. Kami kini mulai menggunakan metode untuk mensimulasikan deployment model sebelum terjadi, yang menambahkan sinyal pelengkap: pratinjau mirip deployment tentang bagaimana model kandidat dapat berperilaku sebelum mencapai pengguna.
Simulasi Deployment adalah metode untuk mensimulasikan deployment masa depan sebelum terjadi. Kami melakukannya dengan memutar ulang percakapan sebelumnya secara menjaga privasi menggunakan model kandidat baru. Ini memungkinkan kami mempelajari bagaimana model baru merespons dalam konteks realistis sebelum rilis, termasuk apakah perilaku baru yang tidak diinginkan muncul dan seberapa sering perilaku itu dapat muncul.
Di berbagai deployment Thinking seri GPT‑5, Simulasi Deployment meningkatkan estimasi kami atas tingkat perilaku model yang tidak diinginkan, membantu memunculkan bentuk ketidakselarasan baru sebelum rilis, dan membantu mengurangi risiko bahwa model dapat mengetahui bahwa mereka sedang diuji. Kami juga menerapkan metode ini pada peluncuran agentik yang menantang, menunjukkan bahwa metode ini dapat melampaui chat standar ke pengaturan agen yang lebih kompleks yang melibatkan penggunaan alat, dan juga dapat digunakan untuk penilaian risiko sebelum deployment model internal.
Kami telah menggunakan wawasan dari Simulasi Deployment selama pengembangan model untuk mengidentifikasi titik buta dalam evaluasi tradisional dan menginformasikan mitigasi serta keputusan deployment. Seiring kami membuat pipeline lebih mudah dijalankan, kami memperkirakan metode ini akan memainkan peran lebih besar dalam proses pengembangan model di masa depan.
Evaluasi pradeployment yang digunakan di seluruh industri umumnya terdiri dari campuran prompt sintetis, ditulis manual, atau produksi yang sengaja dipilih karena sulit, berkeparahan tinggi, atau adversarial. Evaluasi ini umumnya memiliki dua tujuan yang saling terkait: menilai bagaimana model merespons ketika diuji tekan dalam situasi yang sangat kecil kemungkinannya terjadi dalam traffic deployment, dan memperoleh pemahaman umum tentang perilaku model yang tidak diinginkan, termasuk menemukan perilaku tidak diinginkan yang baru dan memprediksi frekuensinya saat deployment.
Walaupun evaluasi tradisional tetap krusial untuk tujuan pertama, Simulasi Deployment merupakan langkah maju yang signifikan terkait tujuan kedua untuk risiko non-ekor (dalam eksperimen kami, pendekatan kami tidak dapat diharapkan mengukur perilaku yang terjadi dengan frekuensi kurang dari 1 dalam 200.000 pesan). Kekuatan Simulasi Deployment berasal dari kemampuannya menghindari beberapa tantangan inti pada evaluasi tradisional:
- Cakupan: sulit untuk yakin bahwa prompt evaluasi akan mencakup semua kemungkinan jenis perilaku model yang tidak diinginkan. Mengukur jenis baru perilaku tidak diinginkan memerlukan pembuatan evaluasi baru, dan mengetahui bahaya apa yang harus diukur. Ini dapat memakan banyak waktu dan tenaga, dan evaluasi dapat jenuh seiring waktu.
- Bias seleksi: evaluasi tradisional umumnya dibangun dengan perilaku model tertentu yang tidak diinginkan dalam pikiran, dipilih dengan cara yang bias terhadap konteks yang telah terjadi sebelumnya. Hal ini dapat membuat estimasinya kurang informatif tentang kejadian perilaku semacam itu di seluruh luas distribusi deployment.
- Dapat dikenali sebagai tes oleh model: model semakin mampu menentukan bahwa mereka sedang diuji, yang dapat mendistorsi perilakunya dan pengukuran hilir kami atas keselamatannya. Walaupun banyak evaluasi tradisional yang kami gunakan di OpenAI juga diambil dari traffic produksi dan tidak mengalami masalah ini, hal ini merupakan kekhawatiran umum bagi banyak evaluasi tradisional yang digunakan di seluruh industri.
Teknik utama di balik Simulasi Deployment sederhana: kami mengambil percakapan terbaru dari deployment, menghapus respons asisten asli dari model lama, lalu membuatnya ulang dengan model kandidat yang akan dirilis. Kami mengevaluasi completion dengan mencari mode kegagalan baru, dan memperkirakan frekuensi perilaku tidak diinginkan saat deployment berdasarkan frekuensi dalam distribusi mirip deployment ini. Kami dapat melakukan pengukuran yang sama setelah rilis pada traffic deployment nyata, sehingga memungkinkan kami memvalidasi prakiraan pradeployment kami.
Simulasi Deployment secara signifikan memitigasi tiga keterbatasan yang tercantum di atas: bias sampling ditangani dengan menggunakan distribusi prompt evaluasi yang merepresentasikan penggunaan terbaru. Simulasi Deployment dengan prompt representatif juga dapat memitigasi kekhawatiran tentang cakupan: kami memperoleh cakupan yang lebih besar atas perilaku model yang tidak diinginkan hanya dengan mensimulasikan lebih banyak traffic. Tradeoff antara komputasi dan cakupan ini penting, karena membuat kualitas sumbu penilaian risiko ini berskala dengan komputasi, bukan dengan upaya manual yang diperlukan untuk membangun lebih banyak evaluasi. Model juga tampaknya tidak dapat membedakan antara percakapan yang diperoleh melalui simulasi deployment dan traffic deployment nyata.
Gambar 1: Ikhtisar pipeline Simulasi Deployment kami
Area | Evaluasi Tradisional | Simulasi Deployment |
Cakupan | Lebih baik untuk risiko berprevalensi rendah tetapi berkeparahan tinggi yang ingin kami pastikan tercakup | Lebih baik untuk memahami spektrum risiko yang kemungkinan kami lihat dalam traffic deployment |
Representativitas / bias | Berfokus pada evaluasi risiko masa lalu atau prediksi yang ditargetkan, bahkan untuk perilaku yang prevalensinya sangat rendah dalam deployment | Representatif untuk risiko yang terjadi di atas prevalensi tertentu dalam traffic deployment saat ini |
Kesadaran evaluasi | Isyarat tes yang berpotensi jelas (misalnya, dengan data sintetis) kecuali evaluasi dibuat dengan data deployment | Konteks mirip deployment tampaknya secara signifikan memitigasi kesadaran evaluasi |
Upaya | Distribusi prompt dan setup khusus membutuhkan upaya manual yang jauh lebih besar | Memerlukan biaya infrastruktur satu kali, lalu menggunakan ulang prefiks dari deployment dan penilai dari perilaku tidak diinginkan yang diketahui |
Perbandingan tingkat tinggi antara evaluasi tradisional dan Simulasi Deployment
Untuk mengevaluasi Simulasi Deployment, kami mendaftarkan sebelumnya prediksi frekuensi saat deployment untuk 20 jenis perilaku tidak diinginkan bagi GPT‑5.4 Thinking. Kami juga menjalankan studi retrospektif di berbagai deployment lain dari model Thinking seri GPT‑5. Perilaku model yang kami analisis mencakup kategori ketidakselarasan dan konten yang tidak diizinkan yang telah kami laporkan dalam kartu sistem (misalnya model berbohong tentang alat, atau menghasilkan konten seksual yang tidak diizinkan). Walaupun untuk hasil ini kami hanya melacak 20 kategori perilaku model yang tidak diinginkan, dan hanya mencari perilaku tidak selaras yang baru, Simulasi Deployment adalah teknik umum yang dapat diterapkan untuk mensimulasikan properti model apa pun saat deployment.
Traffic produksi yang kami manfaatkan juga berasal dari model Thinking seri GPT‑5. Sebelum menjalankan evaluasi, kami secara otomatis menghapus pengenal yang tertaut akun dan informasi yang dapat diidentifikasi. Sesuai dengan kebijakan privasi kami, kami hanya menganalisis traffic ChatGPT dari pengguna yang mengizinkan data mereka digunakan untuk peningkatan model. Kami hanya melaporkan temuan agregat dari evaluasi ini. Secara total, kami menganalisis sekitar 1,3 juta percakapan yang telah dideidentifikasi di seluruh deployment GPT‑5 Thinking hingga GPT‑5.4, mencakup Agustus 2025 hingga Maret 2026.
Kami mengevaluasi kualitas penilaian risiko pradeployment yang dihasilkan oleh Simulasi Deployment dalam tiga cara utama:
- Cakupan taksonomi: apakah audit pascarilis memunculkan perilaku tidak selaras penting yang hilang dari taksonomi awal perilaku buruk kami?
- Akurasi arah: apakah simulasi memprediksi dengan benar apakah prevalensi deployment akan meningkat atau menurun untuk perilaku yang diketahui?
- Kalibrasi tingkat: apakah estimasi pradeployment kami dekat dengan tingkat yang kemudian kami amati dalam deployment? Mencapai kalibrasi tingkat yang baik membutuhkan lebih dari sekadar akurasi arah, sehingga ini menjadi standar kualitas tertinggi yang mungkin.
Kami juga mengukur sejauh mana model dapat mengetahui bahwa mereka berada dalam evaluasi selama Simulasi Deployment, dan menguji seberapa tangguh metode ini terhadap berbagai bentuk traffic deployment serta pengaturan penggunaan alat yang menantang.
Di berbagai deployment Thinking seri GPT‑5, Simulasi Deployment mengungguli baseline prompt menantang dalam menentukan tingkat risiko aktual, mampu memunculkan peretasan kalkulator sebelum rilis, dan tampaknya berpotensi tidak dapat dibedakan dari deployment oleh model.
Ikhtisar prediksi kami. Untuk visualisasi semua prediksi bagi deployment model Thinking seri GPT‑5, lihat Gambar 2. Prediksi untuk GPT‑5.4 Thinking didaftarkan sebelumnya, sementara yang lain adalah prediksi retroaktif. Secara agregat, prediksi kami memiliki median galat multiplikatif 1,5x (misalnya jika tingkat perilaku tidak diinginkan adalah 10 dalam 100 ribu, ini akan setara dengan estimasi tingkat 15 atau 6,67 dalam 100 ribu). Walaupun galat ekor metode kami dapat sekitar 10x lebih besar, kami memperkirakan galat tersebut dapat dikurangi secara signifikan dengan peningkatan lebih lanjut pada pipeline simulasi kami, seperti dibahas di bawah.
Gambar 2. Prediksi frekuensi Simulasi Deployment atas perilaku tidak diinginkan saat deployment berdasarkan data deployment sebelumnya. Notasi 5.1 → 5 menunjukkan bahwa kami mengambil ulang sampel prefiks dari GPT‑5 dengan GPT‑5.1, yaitu mensimulasikan deployment GPT‑5.1 berdasarkan data dari GPT‑5. Tingkat tertinggi perilaku yang tidak selaras adalah “peretasan kalkulator” di GPT‑5.1, yang telah kami bahas sebelumnya(terbuka di jendela baru).
Membandingkan prediksi Simulasi Deployment dengan baseline. Kategori terpenting untuk diestimasi dengan benar dalam penilaian risiko pradeployment adalah kategori yang memiliki perubahan besar dalam kejadian setelah deployment model (misalnya >= 1,5x). Pada subset ini, Simulasi Deployment jauh lebih baik daripada baseline baik dalam memprediksi apakah perilaku tidak diinginkan tertentu akan meningkat atau menurun prevalensinya dengan deployment model (Gambar 3, kiri), maupun dalam mengestimasi kejadian tepatnya saat deployment (Gambar 3, kanan). Kami menggunakan dua baseline utama: baseline Prompt Menantang yang saat ini kami gunakan untuk kartu sistem dan keputusan peluncuran, serta baseline naif yang menggunakan tingkat dari deployment sebelumnya sebagai estimasi untuk model baru.
Gambar 3. Simulasi Deployment memprediksi arah perubahan kejadian (kiri) dan tingkat produksi tepat (kanan) lebih baik daripada evaluasi statis.
Sumber galat simulasi dalam pipeline kami. Kami juga mempelajari sumber galat saat ini dalam pipeline kami. Secara khusus, galat ekor yang besar membuat pipeline kurang dapat dipercaya untuk keputusan deployment: misalnya, ketika melihat peningkatan besar yang diprediksi pada perilaku tidak diinginkan dari jenis tertentu, jika pipeline diketahui kadang memiliki galat besar, muncul keraguan apakah ini estimasi yang andal atau artefak pipeline. Ada dua sumber utama galat yang mungkin terjadi:
- Galat fidelitas lingkungan pengambilan ulang sampel: untuk mengestimasi tingkat produksi secara akurat, pipeline simulasi kami perlu serealistis mungkin. Ini sebagian merupakan masalah rekayasa (sampling dari model menggunakan pipeline yang sama dengan traffic produksi), dan sebagian merupakan tantangan menarik untuk alat yang memerlukan akses baca/tulis ke sumber daya eksternal yang terus berubah (misalnya pencarian web atau berinteraksi dengan file lokal). Kami dapat mengisolasi galat fidelitas simulasi dengan membandingkan prediksi dari deployment aktual dan simulasinya (yaitu, mensimulasikan deployment model yang sudah dideploy).
- Galat pergeseran distribusi prompt: kekhawatiran utama dengan Simulasi Deployment adalah bahwa deployment model apa pun akan menyebabkan pergeseran distribusi pada input, terutama jika pengguna beradaptasi dengan affordance model baru. Kami mengisolasi galat distribusi prompt dengan membandingkan estimasi saat mensimulasikan deployment menggunakan prompt terbaru vs prompt dari deployment yang terealisasi.
Seperti terlihat pada Gambar 4, kami menemukan bahwa sebagian besar galat dalam pipeline kami—terutama untuk galat ekor—saat ini disebabkan oleh fidelitas simulasi. Ini kabar baik, karena kami memperkirakan fidelitas simulasi umumnya lebih mudah ditingkatkan daripada mengurangi pergeseran distribusi prompt. Kami juga menemukan bahwa galat pergeseran distribusi prompt dapat dikurangi dengan menggunakan data paling baru dari deployment sebelumnya. Detail lebih lanjut dapat ditemukan dalam makalah riset.
Gambar 4: Fidelitas lingkungan pengambilan ulang sampel tampaknya menjadi sumber galat terbesar dalam estimasi kami, terutama untuk galat paling ekstrem.
Audit otomatis menemukan satu ketidakselarasan baru yang diperkenalkan dalam deployment ini. Dalam jendela deployment yang kami pelajari, pipeline audit otomatis kami berdasarkan deployment simulasi akan memunculkan “peretasan kalkulator” sebelum rilis, yang merupakan satu-satunya ketidakselarasan baru yang kami identifikasi dalam traffic ChatGPT yang dianalisis. Peretasan kalkulator adalah bentuk reward hacking yang melibatkan model menggunakan alat browser sebagai kalkulator sambil menyajikan tindakan itu sebagai pencarian. Ini tidak berarti audit skala besar akan menangkap setiap kegagalan baru, tetapi menunjukkan mengapa konteks realistis penting: konteks tersebut dapat memunculkan perilaku yang mungkin tidak pernah muncul langsung dalam set evaluasi yang lebih sempit, meskipun tidak ada dalam traffic asli yang digunakan untuk menyemai simulasi.
Keunggulan lain dari menggunakan konteks mirip deployment adalah bahwa konteks tersebut dapat mengurangi distorsi yang muncul ketika model mengenali bahwa mereka sedang diuji. Dalam penelitian sebelumnya, kami maupun pihak lain(terbuka di jendela baru) menemukan bahwa model sering menyadari ketika mereka sedang diuji. Misalnya, model dapat bernalar dalam rantai pemikiran mereka tentang apa yang sedang diuji, apa yang mungkin disukai evaluator, dan—jika mereka berperilaku buruk—apakah mereka akan tertangkap. Ini menimbulkan masalah bagi evaluasi penyelarasan: jika model hanya berperilaku baik karena mengira sedang diuji, bagaimana kita membangun keyakinan bahwa ia akan berperilaku aman setelah mengetahui bahwa ia telah dideploy?
Kami menunjukkan bahwa Simulasi Deployment secara substansial mengurangi tingkat kesadaran evaluasi yang ditunjukkan model dibandingkan dengan evaluasi tradisional yang tidak didasarkan pada data deployment nyata. Kami mengukur kesadaran evaluasi dalam tiga cara: dengan meminta model mengklasifikasikan apakah suatu trajektori berasal dari produksi atau evaluasi, memantau rantai pemikiran untuk pernyataan eksplisit tentang sedang dievaluasi untuk penyelarasan, serta untuk metagaming(terbuka di jendela baru): penalaran apa pun tentang pengawasan. Traffic deployment simulasi sangat cocok dengan traffic deployment nyata di ketiga ukuran. Misalnya, GPT‑5.2 melabeli traffic produksi nyata sebagai mirip evaluasi 5,4% dari waktu dan traffic simulasi 5,1% dari waktu, sementara evaluasi tradisional (seperti SWE-Bench atau MonorepoBench, yang terutama terdiri dari contoh sintetis) diklasifikasikan sebagai evaluasi hampir 100% dari waktu.
Gambar 5. Perbandingan kesadaran evaluasi: traffic produksi nyata dan traffic simulasi menunjukkan tingkat serupa untuk deteksi evaluasi, kesadaran evaluasi penyelarasan yang diungkapkan, dan metagaming, sementara dataset evaluasi tradisional melaporkan tingkat yang jauh lebih tinggi.
Untuk menguji apakah metode ini dapat melampaui mode chat standar, kami juga mempelajari simulasi deployment untuk pengaturan pengodean agentik yang menantang. Secara khusus, kami menggunakan 120.000 trajektori agentik karyawan internal dari GPT‑5.4 untuk mensimulasikan deployment internal agen pengodean berbasis GPT‑5.5. Ini memiliki dua tujuan: menunjukkan bagaimana simulasi deployment juga dapat digunakan untuk penilaian risiko pada deployment internal, dan menunjukkan bahwa fidelitas simulasi yang tinggi mungkin dicapai bahkan dalam pengaturan agentik melalui simulasi alat yang cermat.
Di atas kami membahas bahwa fidelitas simulasi adalah salah satu sumber utama galat dalam pipeline kami saat ini. Salah satu tantangan dalam membuat simulasi deployment realistis adalah bahwa ini mengharuskan alat bertindak secara realistis, bahkan ketika alat memerlukan akses baca/tulis ke sumber daya eksternal yang terus berubah (misalnya pencarian web atau berinteraksi dengan file lokal).
Ini terutama menantang untuk pengaturan seperti deployment agentik: satu trajektori agen dapat bergantung pada ratusan panggilan alat, status repositori, respons jaringan, atau kegagalan sementara. Ini membuat pengambilan ulang sampel dengan akses alat nyata menjadi menantang sekaligus berpotensi berbahaya. Mengingat hal ini, alih-alih menerapkan panggilan alat ke sistem live, kami mensimulasikannya dengan LLM lain. Kami menunjukkan bahwa memberi LLM ini affordance tambahan sangat penting untuk realisme dan karenanya kualitas estimasi.
Kami memberi model simulator alat rollout giliran akhir asli, repositori dari waktu percakapan, basis data pasangan panggilan alat/respons, dan konektor baca-saja. Dalam pengujian ketika diskriminator mencoba membedakan rollout simulasi dari yang nyata, realisme meningkat dari tingkat kemenangan 11,6% menjadi 49,5%, mendekati tingkat peluang 50%.
Gambar 6: Realisme pengambilan ulang sampel dapat dibuat hampir tidak dapat dibedakan dari sampling nyata bahkan dalam pengaturan yang banyak menggunakan alat ketika mensimulasikan panggilan alat dengan affordance yang ditingkatkan.
Sebagai bukti tambahan fidelitas simulasi, saat mensimulasikan traffic thinking GPT‑5.4 Codex dengan GPT‑5.4, tingkat ketidakselarasannya kurang lebih berada dalam bilah galat. Sebaliknya, dalam pengujian pradeployment kami, GPT‑5.5 lebih tidak selaras di sebagian besar kategori.
Gambar 7: Dengan simulasi alat, tingkat perilaku untuk percakapan yang diambil ulang sampelnya dengan GPT‑5.4 dan traffic produksi GPT‑5.4 aktual cukup mirip—menunjukkan fidelitas lingkungan pengambilan ulang sampel yang tinggi. Lihat kartu sistem GPT‑5.5(terbuka di jendela baru) untuk konteks lebih lanjut tentang kategorinya.
Hasil ini menunjukkan bahwa Simulasi Deployment dapat meluas ke pengaturan agen yang kompleks ketika lingkungan alat di sekitarnya disimulasikan dengan fidelitas yang memadai.
Pertanyaan alami adalah apakah auditor eksternal dapat memperoleh sebagian manfaat yang sama tanpa akses ke traffic produksi privat. Kami menguji ini dengan 100.000 percakapan WildChat yang digunakan sebagai prefiks. WildChat kurang akurat dibandingkan data produksi terbaru OpenAI, tetapi tetap informatif: data produksi terbaru memiliki galat multiplikatif rata-rata lebih rendah daripada WildChat (1,75× vs. 2,44×), sementara WildChat sering tetap dalam kisaran sekitar 3× dari tingkat produksi dan mengidentifikasi model yang lebih baik pada tingkat di atas peluang. Kami melihat evaluasi bergaya WildChat sebagai pelengkap yang menjanjikan untuk Simulasi Deployment yang dijalankan developer. Lihat postingan blog Alignment(terbuka di jendela baru) pendamping ini untuk hasil lebih lanjut tentang poin ini.
Simulasi Deployment adalah pelengkap, bukan pengganti, evaluasi adversarial, red-teaming, dan analisis risiko ekor terarah. Deteksi beberapa perilaku model yang tidak diinginkan bergantung pada keterpantauan rantai pemikiran: jika model masa depan bernalar dengan kurang terbaca, menghilangkan langkah kunci, atau belajar mengaburkan niat, kami mungkin tidak dapat mendeteksi bentuk perilaku tidak diinginkan ini. Selain itu, karena data produksi bersifat privat, developer saat ini memiliki akses yang lebih kuat ke konteks representatif daripada auditor eksternal. Dataset publik yang lebih baik dapat mempersempit kesenjangan itu.
Simulasi Deployment paling berguna untuk perilaku yang cukup sering terjadi sehingga muncul dalam prefiks yang disampel. Kegagalan yang terjadi sekali dalam sepuluh juta percakapan kemungkinan tidak akan ditemukan dalam run satu juta sampel, sehingga evaluasi adversarial, red-teaming, dan analisis risiko ekor terarah tetap diperlukan. Saat ini kami berfokus pada simulasi satu respons asisten, karena dalam eksperimen awal kami tidak menemukan peningkatan bermakna pada estimasi kami dengan mensimulasikan beberapa giliran. Ini mungkin menjadi area penting untuk meningkatkan fidelitas simulasi di masa depan.
Metode ini juga bergantung pada distribusi prefiks—campuran percakapan yang diambil ulang sampelnya. Traffic historis mungkin tidak cocok dengan cara pengguna berinteraksi dengan model yang lebih mampu setelah perubahan produk besar, rilis alat baru, peristiwa dunia, atau pergeseran musiman. Analisis dalam makalah lengkap menunjukkan bahwa masalah ini dapat dimitigasi dengan menggunakan data paling baru yang tersedia.
Simulasi deployment adalah pendekatan baru untuk penilaian risiko pradeployment yang membantu lab frontier dan evaluator memprediksi bagaimana model bahasa dapat berperilaku di dunia nyata dan memahami risiko yang ditimbulkannya sebelum deployment. Pendekatan ini melengkapi evaluasi keselamatan, red-teaming, dan analisis terarah yang sudah ada dengan menambahkan lapisan prediksi yang lebih mirip produksi yang dapat meningkatkan estimasi perilaku deployment, mengurangi efek kesadaran evaluasi, dan membuat prediksi pradeployment dapat diperiksa setelah rilis. Digunakan bersama evaluasi tradisional, Simulasi Deployment dapat membantu membuat penilaian risiko model lebih realistis, lebih kuantitatif, dan lebih berguna untuk keputusan deployment.


