在發布新模型之前,實驗室不僅需要了解它能做什麼,也需要了解它在真實世界使用中可能如何表現,包括可能帶來哪些新風險。隨著能力提升,這一點變得更加重要。作為部署前安全審查的一部分,我們運用針對性評估、紅隊演練和其他檢查來了解模型行為。我們現在已開始使用一種在模型部署前模擬其部署的方法,這會加入一項互補訊號:在候選模型觸及使用者前,提供類似部署的行為預覽。
部署模擬是一種在未來部署實際發生前進行模擬的方法。我們會使用新的候選模型,在保護隱私的前提下重播先前對話,因而能在發布前,研究新模型在真實情境中如何回應,包括是否出現新的不良行為,以及可能出現的頻率。
在多次 GPT‑5 系列 Thinking 部署中,部署模擬改善了我們對不良模型行為率的估計,協助在發布前找出新的失準形式,並有助降低模型判斷自己正在接受測試的風險。我們也將此方法應用於具挑戰性的智慧體式推出,顯示它可超越標準對話,延伸到涉及工具使用的更複雜智慧體設定,也可用於內部模型部署前的風險評估。
我們已在模型開發期間使用部署模擬所得洞見,找出傳統評估中的盲點,並為緩解措施和部署決策提供依據。隨著部署模擬變得更容易執行,未來也會在模型開發流程中扮演更重要的角色。
業界使用的部署前評估,通常由合成、人工撰寫或生產提示詞的混合組成,並刻意選取困難、高嚴重性或對抗性的提示詞。這些評估通常同時追求兩個目標:評估模型在壓力測試情境中的回應,這些情境在部署流量中發生的機率極低;以及大致了解不良模型行為,包括找出新的不良行為並預測其部署期間頻率。
雖然傳統評估對第一個目標仍至關重要,但就第二個目標而言,針對非尾端風險,部署模擬代表顯著進展(在我們的實驗中,不能期待此方法測量低於每 200,000 則訊息 1 次頻率的行為)。部署模擬的優勢來自於繞開傳統評估的一些核心挑戰:
- 涵蓋範圍:很難確信評估提示詞會涵蓋所有可能類型的不良模型行為。衡量新類型的不良行為需要建立新的評估,並知道要衡量哪些危害,不僅可能耗費時間與人力,評估效果也可能逐漸失去鑑別度。
- 選擇偏差:傳統評估通常是針對特定不良模型行為而建立,且選擇方式會偏向先前已發生過的情境。這可能使其估計值對於此類行為在完整部署分布中的發生率較不具參考價值。
- 模型能辨認出測試情境:模型越來越能判斷自己正在接受測試,這可能扭曲其行為以及我們後續的安全性測量。雖然我們在 OpenAI 使用的許多傳統評估也取自生產流量,並未受到此問題影響,但對業界使用的許多傳統評估而言,這是一項常見疑慮。
部署模擬背後的主要技術很簡單:我們從部署中取得近期對話,移除較舊模型的原始助理回應,並用即將發布的候選模型重新生成該回應。我們透過搜尋新的失敗模式來評估補全,並根據這種類似部署分布中的頻率,估計部署期間不良行為的頻率。我們也可在發布後對真實部署流量進行相同測量,檢驗部署前預測是否準確。
部署模擬顯著緩解了上述三項限制:取樣偏差可透過使用代表近期使用情況的評估提示詞分布來解決。使用具代表性提示詞的部署模擬也可緩解對涵蓋範圍的疑慮:只要模擬更多流量,就能更廣泛涵蓋不良模型行為。運算與涵蓋範圍之間的這種取捨很重要,因為它讓風險評估在此軸向上的品質隨運算規模擴展,而非取決於建立更多評估所需的人工投入。模型似乎也無法區分透過部署模擬取得的對話與真實部署流量。
圖 1:我們部署模擬流程的概覽
領域 | 傳統評估 | 部署模擬 |
涵蓋範圍 | 較適合我們想確保涵蓋的低盛行率但高嚴重性風險 | 較適合了解我們可能在部署流量中看到的風險範圍 |
代表性/偏差 | 專注於評估目標式的過往或預測風險,即使是部署中盛行率極低的行為也是如此 | 代表目前部署流量中高於一定盛行率的風險 |
評估意識 | 除非評估以部署資料建立,否則可能有明顯測試線索(例如使用合成資料時) | 類似部署的情境似乎可大幅緩解評估意識 |
投入 | 自訂提示詞分布與設定需要大量人工調整 | 需要一次性基礎設施成本,之後可重複使用部署中的前綴,以及已知不良行為的評分器 |
傳統評估與部署模擬的高階比較
為了評估部署模擬,我們預先登記了 GPT‑5.4 Thinking 在部署期間 20 種不良行為頻率的預測。我們也針對 GPT‑5 系列其他 Thinking 模型部署進行了回顧性研究。我們分析的模型行為涵蓋失準與不允許內容類別,這些都是我們在系統說明卡中一直報告的項目(例如模型謊稱工具情況,或輸出不允許的性內容)。雖然在這些結果中,我們僅追蹤 20 類不良模型行為,且只尋找新的失準行為,但部署模擬是一項通用技術,可用於模擬任何部署期間的模型屬性。
我們利用的生產流量也來自 GPT‑5 系列的 Thinking 模型。在執行評估前,我們會自動移除與帳戶連結的識別碼和可識別資訊。依據我們的隱私權政策,我們只分析允許其資料用於模型改進之使用者的 ChatGPT 流量。我們僅報告這些評估的彙總結果。總計而言,我們分析了從 GPT‑5 Thinking 到 GPT‑5.4 部署、橫跨 2025 年 8 月至 2026 年 3 月約 130 萬則去識別化對話。
我們主要以三種方式評估部署模擬所產生之部署前風險評估的品質:
- 分類法涵蓋範圍:發布後稽核是否找出任何我們初始不良行為分類法中缺漏的重要失準行為?
- 方向準確性:模擬是否正確預測已知行為在部署中的盛行率會上升或下降?
- 比率校準:我們的部署前估計是否接近後來在部署中觀察到的比率?達成良好的比率校準需要的不只是方向準確性,因此這是最高可能的品質標準。
我們也測量模型在部署模擬期間能多大程度判斷自己處於評估中,並測試此方法對不同形式部署流量以及具挑戰性工具使用設定的穩健性。
在 GPT‑5 系列 Thinking 部署中,部署模擬在判定實際風險率方面優於挑戰性提示詞基準,能在發布前發現計算機駭取行為,且對模型而言似乎可能與部署無法區分。
我們預測的概覽。若要查看 GPT‑5 系列 Thinking 模型部署的所有預測視覺化圖表,請見圖 2。GPT‑5.4 Thinking 的預測為預先登記,其餘則為回溯預測。整體而言,我們預測的中位倍數誤差為 1.5 倍(例如若不良行為率為每 10 萬則 10 次,這會相當於估計為每 10 萬則 15 次或 6.67 次)。雖然我們方法的尾端誤差可能約大 10 倍,但如下文所述,我們預期可透過進一步改善模擬流程而大幅降低。
圖 2:部署模擬根據先前部署資料,預測部署期間不良行為的發生頻率。記號 5.1 → 5 表示我們使用 GPT‑5.1 對來自 GPT‑5 的前綴重新取樣,也就是根據 GPT‑5 的資料模擬 GPT‑5.1 的部署。GPT‑5.1 中失準行為最高的比率是「計算機駭取」,我們先前(在新視窗中開啟)已討論過。
將部署模擬預測與基準比較。對部署前風險評估而言,最重要的是正確估計那些在模型部署後發生率有大幅變化的類別(例如 >= 1.5 倍)。在此子集中,部署模擬無論是在預測某種不良行為會隨模型部署而增加或降低盛行率(圖 3 左),或是在估計其確切部署期間發生率(圖 3 右)方面,都明顯優於基準。我們使用兩個主要基準:一個是我們目前用於系統說明卡與發布決策的「挑戰性提示詞」基準,另一個是以先前部署的比率作為新模型估計值的樸素基準。
圖 3:相較於靜態評估,部署模擬能更準確預測發生率變化方向(左)和確切生產比率(右)。
部署模擬的誤差來源。我們也研究了目前部署模擬的誤差來源。具體而言,較大的尾端誤差會降低部署模擬對部署決策的可信度。例如,當某類不良行為預測會大幅增加時,若部署模擬即使只是偶爾也會出現大誤差,就會讓人懷疑這究竟是可靠估計,還是模擬造成的假象。可能的誤差主要有兩個來源:
- 重新取樣環境保真度誤差:若要準確估計生產比率,部署模擬需要盡可能貼近真實。這部分既是工程問題(使用與生產流量相同的流程從模型取樣),也是一項有趣的工具挑戰,因為工具需要讀寫持續變動的外部資源(例如網頁搜尋或與本機檔案互動)。我們可透過比較實際部署及其模擬的預測結果,估計模擬保真度誤差(也就是模擬已部署模型的部署)。
- 提示詞分布偏移誤差:部署模擬的一項重大疑慮是,任何模型的部署都會造成輸入分布偏移,尤其當使用者適應新模型可供性時更是如此。我們透過比較使用近期提示詞來模擬部署與使用已實現部署中的提示詞來模擬部署時的估計,來隔離提示詞分布誤差。
如圖 4 所示,我們發現目前流程中很大一部分誤差,尤其是尾端誤差,來自模擬保真度。這是好消息,因為我們預期相較於降低提示詞分布偏移,改善模擬保真度通常較容易。我們也發現,使用先前部署中最新的資料,可能降低提示詞分布偏移誤差。更多細節可見研究論文。
圖 4:重新取樣環境保真度似乎是我們估計中最大的誤差來源,尤其是對最極端的誤差而言。
自動化稽核發現了這些部署中引入的一項新失準。在我們研究的部署窗口中,基於模擬部署的自動化稽核流程原本會在發布前發現「計算機駭取」行為,這是我們在所分析 ChatGPT 流量中識別出的唯一新型失準。計算機駭取是一種獎勵駭取形式,涉及模型將瀏覽器工具當作計算機使用,卻把該動作呈現為搜尋。這不表示大規模稽核會抓到每一種新失敗,但它說明真實情境為何重要:即使這些行為不存在於建立模擬所用的原始流量中,真實情境仍可能誘發較小型評估集難以察覺的行為。
使用類似部署情境的另一個優點,是可能減少模型察覺自己正在接受測試時產生的扭曲。在先前研究中,我們以及其他研究人員(在新視窗中開啟)都發現,模型通常知道自己何時正在接受測試。例如,模型可能會在思路鏈中思考自己正在接受哪種測試、評估者偏好什麼,以及如果自己行為不當,是否會被發現。這使對齊評估面臨挑戰:如果模型只是因為以為自己正在接受測試才表現良好,我們又該如何確認,它一旦知道自己已經部署,仍會安全運作?
結果顯示,相較於非基於真實部署資料的傳統評估,部署模擬大幅降低了模型展現的評估意識程度。我們以三種方式測量評估意識:要求模型分類某條軌跡來自生產或評估、監測思路鏈中是否明確提及正在接受對齊評估,以及監測後設博弈(在新視窗中開啟):任何關於監督的推理。在這三項測量中,模擬部署流量都與真實部署流量非常接近。例如,GPT‑5.2 將真實生產流量標記為類似評估的比例為 5.4%,將模擬流量標記為類似評估的比例為 5.1%;而傳統評估(如 SWE-Bench 或 MonorepoBench,主要由合成範例組成)幾乎 100% 都被分類為評估。
圖 5:評估意識比較:真實生產流量與模擬流量在評估偵測、明確表露對齊評估意識及後設博弈上的比率相近,而傳統評估資料集則明顯偏高。
為測試此方法是否能超越標準對話模式,我們也研究了在具挑戰性的智慧體式程式碼編寫設定中模擬部署。具體而言,我們使用來自 GPT‑5.4 的 120,000 條內部員工智慧體式軌跡,來模擬基於 GPT‑5.5 的程式碼編寫智慧體內部部署。這有兩個目的:顯示部署模擬也可用於內部部署的風險評估,並證明透過謹慎的工具模擬,即使在智慧體設定中也能讓模擬保真度達到高水準。
前文提過,模擬保真度是目前部署模擬的主要誤差來源之一。要讓部署模擬盡可能貼近真實情況,其中一項挑戰是工具必須真實模擬其運作方式,即使需要讀寫持續變動的外部資源(例如網頁搜尋或與本機檔案互動)。
對於智慧體式部署等設定,這尤其具挑戰性:單一智慧體軌跡可能取決於數百次工具呼叫、程式碼庫狀態、網路回應或暫時性故障。這使得使用真實工具存取來重新取樣既具挑戰性,也可能具有危險。有鑑於此,我們不將工具呼叫套用到即時系統,而是用另一個 LLM 來模擬它們。我們顯示,賦予這個 LLM 額外可供性,對真實性以及因此對估計品質而言相當重要。
我們提供工具模擬器模型原始的最後一輪推出、對話當時的程式碼庫、工具呼叫/回應配對資料庫,以及唯讀連接器。在一項由鑑別器嘗試分辨模擬推出與真實推出的測試中,真實性從 11.6% 的勝率提升到 49.5%,接近 50% 的隨機水準。
圖 6:在以增加的可供性模擬工具呼叫時,即使在工具密集的設定中,也能讓重新取樣真實性幾乎與真實取樣無法區分。
另一項支持模擬保真度的證據是,當使用 GPT‑5.4 模擬 GPT‑5.4 Codex Thinking 流量時,失準率大致落在誤差範圍內。相較之下,在我們的部署前測試中,GPT‑5.5 在多數類別上更失準。
圖 7:透過工具模擬,使用 GPT‑5.4 重新取樣的對話與實際 GPT‑5.4 生產流量的行為率相當相似,顯示重新取樣環境保真度很高。關於這些類別的更多脈絡,請參閱 GPT‑5.5 系統說明卡(在新視窗中開啟)。
這些結果顯示,當周圍工具環境以足夠保真度模擬時,部署模擬可延伸到複雜的智慧體設定。
這也引出一個問題:外部稽核者若無法存取私有生產流量,是否仍能獲得部分相同好處?我們使用 100,000 則 WildChat 對話作為前綴來測試這點。WildChat 不如近期 OpenAI 生產資料準確,但仍具參考價值:近期生產資料的平均倍數誤差低於 WildChat(1.75× 對 2.44×),而 WildChat 通常仍維持在生產比率約 3× 內,並以高於隨機的比率辨識出較佳模型。我們認為 WildChat 式評估可補足開發者執行的部署模擬。若想進一步了解相關結果,請參閱這篇相關的Alignment 部落格文章(在新視窗中開啟)。
部署模擬是對抗性評估、紅隊演練和針對性尾端風險分析的補充,而非替代。偵測某些不良模型行為仰賴思路鏈可監測性:如果未來模型的推理較不清晰、遺漏關鍵步驟,或學會隱藏意圖,我們可能無法偵測這些形式的不良行為。此外,由於生產資料屬於私有資料,目前開發者比外部稽核者更能存取具代表性的情境。更好的公開資料集可以縮小這項差距。
部署模擬最適用於發生頻率足以出現在取樣前綴中的行為。每一千萬則對話才發生一次的失敗,不太可能在一百萬樣本的執行中被發現,因此對抗性評估、紅隊演練和針對性尾端風險分析仍然必要。我們目前專注於模擬單一助理回應,因為在初步實驗中,我們並未發現模擬多輪對話能對估計帶來有意義的改善。這可能是未來改善模擬保真度的重要方向。
此方法也取決於前綴分布,也就是被重新取樣的對話組合。在重大產品變更、新工具發布、世界事件或季節性變化之後,歷史流量可能無法符合使用者與更強大模型互動的方式。完整論文中的分析顯示,使用可取得的最新資料可緩解此問題。
部署模擬是一種新的部署前風險評估方法,可協助前沿實驗室和評估者預測語言模型在真實世界中可能如何表現,並在部署前了解其帶來的風險。它透過增加更接近生產的預測層,補充既有安全評估、紅隊演練和針對性分析,可改善部署行為估計、降低評估意識效應,並讓部署前預測在發布後可被檢查。與傳統評估並用時,部署模擬可協助讓模型風險評估更貼近現實、更量化,並對部署決策更有用。


