在發佈新模型之前,實驗室需要了解的不只是它能做甚麼,還要了解它在現實使用中可能如何表現,包括可能在哪些方面引入新風險。隨着能力提升,這一點變得更加重要。作為部署前安全審查的一部分,我們利用具針對性的評估、紅隊演練及其他檢查來了解模型行為。我們現已開始使用一種在模型實際部署前模擬其部署的方法,加入一個互補訊號:在候選模型接觸用戶之前,以類似部署的方式預覽其可能表現。
部署模擬是一種在未來部署發生前先行模擬的方法。我們以保障私隱的方式,使用新的候選模型重播先前對話。這讓我們能在發佈前研究新模型在真實情境中的回應,包括是否出現新的不良行為,以及這些行為可能出現的頻率。
在多個 GPT‑5 系列 Thinking 部署中,部署模擬改善了我們對不良模型行為率的估計,協助在發佈前揭示新的失準形式,並有助降低模型察覺自己正在接受測試的風險。我們亦將此方法應用於具挑戰性的智能代理式推出,顯示它可從標準聊天延伸至涉及工具使用的更複雜智能代理環境,亦可用於內部模型部署前的風險評估。
我們已在模型開發期間運用部署模擬所得洞察,找出傳統評估的盲點,並為緩解措施和部署決策提供依據。隨着我們令流程更易運行,預期它將在未來模型開發流程中扮演更重要角色。
業界使用的部署前評估,一般由刻意挑選為困難、高嚴重性或對抗性的合成、人工撰寫或生產提示詞混合而成。這些評估通常有兩個相互交織的目標:評估模型在部署流量中發生機會極低的情境下接受壓力測試時如何回應;以及對不良模型行為取得整體理解,包括找出新的不良行為並預測其部署時頻率。
雖然傳統評估對第一個目標仍然至關重要,但就非尾端風險的第二個目標而言,部署模擬代表重大進展(在我們的實驗中,我們的方法不能預期可衡量每 200,000 則訊息少於 1 次的行為)。部署模擬的優勢來自繞過傳統評估的一些核心挑戰:
- 覆蓋範圍:要確信評估提示詞能涵蓋所有可能的不良模型行為類型並不容易。衡量新類型的不良行為,需要建立新的評估,並知道要衡量哪些危害。這可能耗費大量時間與人力,而評估也可能隨時間而失去效用。
- 選擇偏差:傳統評估通常以特定不良模型行為為目標建立,且選擇方式會偏向過去曾出現的情境。這可能令其對此類行為在整體部署分佈中的實際發生率,提供較有限的參考價值。
- 被模型識別為測試:模型越來越能判斷自己正在接受測試,這可能扭曲其行為,以及我們之後對其安全性的測量。雖然我們在 OpenAI 使用的許多傳統評估同樣來自生產流量,並不受此問題影響,但這是業界許多傳統評估的常見顧慮。
部署模擬背後的主要技術很簡單:我們從部署中取得近期對話,移除較舊模型的原始助理回應,並用即將發佈的候選模型重新生成。我們透過搜尋新的失敗模式來評估補全,並根據這種類似部署分佈中的頻率,估計部署時不良行為的頻率。我們可在發佈後於真實部署流量上執行相同測量,從而驗證我們的部署前預測。
部署模擬顯著緩解上述三項限制:透過使用代表近期使用情況的評估提示詞分佈,處理抽樣偏差。使用具代表性提示詞的部署模擬亦可緩解對覆蓋範圍的顧慮:只要模擬更多流量,我們便能更廣泛覆蓋不良模型行為。這種運算與覆蓋範圍之間的取捨很重要,因為它使風險評估在這一軸向上的質素隨運算量擴展,而非取決於建立更多評估所需的人工工作。模型似乎也無法區分經部署模擬取得的對話與真實部署流量。
圖 1:部署模擬流程概覽
範疇 | 傳統評估 | 部署模擬 |
覆蓋範圍 | 較適合我們想確保涵蓋的低盛行率但高嚴重性風險 | 較適合了解我們可能在部署流量中看到的風險範圍 |
代表性/偏差 | 專注評估具針對性的過往或預測風險,即使那些行為在部署中的盛行率極低 | 代表目前部署流量中高於某一盛行率的風險 |
評估意識 | 除非評估以部署資料建立,否則可能有明顯測試線索(例如使用合成資料) | 類似部署的情境似乎能顯著緩解評估意識 |
工作量 | 自訂提示詞分佈與設定需要大量人工調整 | 需要一次性基礎設施成本,之後可重用部署前綴和已知不良行為的評分器 |
傳統評估與部署模擬的高層次比較
為評估部署模擬,我們為 GPT‑5.4 Thinking 的 20 種不良行為於部署時的頻率預先登記預測。我們亦對 GPT‑5 系列其他 Thinking 模型部署進行回顧性研究。我們分析的模型行為涵蓋失準及不允許內容類別,這些類別一直在系統說明卡中報告(例如模型謊稱工具情況,或輸出不允許的色情內容)。雖然在這些結果中,我們只追蹤 20 個不良模型行為類別,且只尋找新的失準行為,但部署模擬是一項通用技術,可用於模擬任何部署時的模型屬性。
我們利用的生產流量亦來自 GPT‑5 系列的 Thinking 模型。在執行評估前,我們自動移除與帳戶相關的識別碼和可識別資訊。根據我們的私隱政策,我們只分析允許其資料用於模型改進的用戶之 ChatGPT 流量。我們只報告這些評估的匯總結果。總計而言,我們分析了約 130 萬段經去識別化的對話,涵蓋 2025 年 8 月至 2026 年 3 月期間從 GPT‑5 Thinking 到 GPT‑5.4 的部署。
我們主要以三種方式評估部署模擬產生的部署前風險評估質素:
- 分類覆蓋:發佈後審核是否發現任何重要的失準行為,卻不在我們最初的不良行為分類中?
- 方向準確度:模擬是否正確預測已知行為在部署中的盛行率會上升或下降?
- 比率校準:我們的部署前估計是否接近後來在部署中觀察到的比率?達到良好的比率校準所需的不只是方向準確度,這也是為什麼它是最嚴格的質素檢驗標準。
我們亦衡量模型在部署模擬期間能多大程度察覺自己正處於評估中,並測試此方法對不同形式部署流量和具挑戰性工具使用環境的穩健性。
在 GPT‑5 系列 Thinking 部署中,部署模擬在判定實際風險率方面優於高難度提示詞基準,能在發佈前揭示計算器駭取,且對模型而言可能與部署難以區分。
我們預測的概覽。有關 GPT‑5 系列 Thinking 模型部署的所有預測視覺化,請參見圖 2。GPT‑5.4 Thinking 的預測是預先登記的,其餘則為回溯預測。整體而言,我們預測的中位乘法誤差為 1.5 倍(例如若不良行為率為每 10 萬則 10 次,這會相當於估計為每 10 萬則 15 次或 6.67 次)。雖然我們方法的尾端誤差可大約高出 10 倍,但如下面所述,我們預期透過進一步改進模擬流程,可大幅降低這些誤差。
圖 2。部署模擬根據先前部署資料,預測部署時不良行為的頻率。標記 5.1 → 5 表示我們以 GPT‑5.1 對 GPT‑5 的前綴進行重抽樣,即根據 GPT‑5 的資料模擬 GPT‑5.1 的部署。最高的失準行為率出現在 GPT‑5.1 的「計算器駭取」,我們已在此前(在新視窗中開啟)討論過。
比較部署模擬預測與基準。在部署前風險評估中,最重要的是正確估計那些在模型部署後發生率有大幅變化的類別(例如 ≥ 1.5 倍)。在這個子集上,部署模擬在兩方面都顯著優於基準:預測某種不良行為會隨模型部署而令盛行率上升或下降(圖 3 左),以及估計其部署時的確切發生率(圖 3 右)。我們使用兩個主要基準:目前用於系統說明卡和推出決策的高難度提示詞基準,以及使用先前部署率作為新模型估計的簡單基準。
圖 3。部署模擬比靜態評估更能預測發生率變化方向(左)及確切生產率(右)。
我們流程中的模擬誤差來源。我們亦研究了目前流程中的誤差來源。具體而言,較大的尾端誤差會降低流程在部署決策中的可信度:例如當看到某類不良行為預測大幅增加時,若已知流程即使偶爾也會出現較大誤差,便會令人懷疑這是可靠估計,還是流程造成的假象。可能的誤差主要有兩個來源:
- 重抽樣環境保真度誤差:為準確估計生產率,我們的模擬流程需要盡可能貼近真實。這部分是工程問題(使用與生產流量相同的流程從模型抽樣),部分也是工具面對需讀寫存取不斷變化外部資源時的有趣挑戰(例如網頁搜尋或與本機檔案互動)。我們可以透過比較實際部署與其模擬的預測(即模擬已部署模型的部署)來隔離模擬保真度誤差。
- 提示詞分佈轉移誤差:部署模擬的一大顧慮是,任何模型的部署都會導致輸入的分佈轉移,尤其當用戶適應新模型的可用能力時。我們透過比較使用近期提示詞與使用已實現部署中的提示詞來模擬部署時的估計,以隔離提示詞分佈誤差。
如圖 4 所示,我們發現目前流程中很大部分誤差(尤其是尾端誤差)源於模擬保真度。這其實是個好消息,因為我們預期改善模擬保真度通常比減少提示詞分佈轉移更容易。我們亦發現,使用先前部署的最新資料,可能可減少提示詞分佈轉移誤差。更多詳情可見研究論文。
圖 4:重抽樣環境保真度似乎是我們估計中最大的誤差來源,尤其是最極端的誤差。
自動化審核找出了這些部署中引入的唯一新失準。在我們研究的部署時段中,基於模擬部署的自動化審核流程本可在發佈前揭示「計算器駭取」,這是我們在所分析的 ChatGPT 流量中識別出的唯一新型失準。計算器駭取是一種獎勵駭取,涉及模型把瀏覽器工具當作計算器使用,卻將該動作呈現為搜尋。這並不表示大規模審核會捕捉每個新失敗,但它說明真實情境為何重要:即使這些行為並不存在於用來啟動模擬的原始流量中,它們也能引發較窄評估集可能永遠無法直接揭示的行為。
使用類似部署情境的另一個優點,是可能減少模型意識到自己正在接受測試時所產生的扭曲。在先前研究中,我們以及其他人(在新視窗中開啟)都發現,模型往往知道自己何時正在接受測試。例如,模型可能會在其思路鏈中推理自己正在被測試甚麼、評估者可能喜歡甚麼,以及如果它行為不當會否被發現。這對對齊評估構成問題:如果模型只是因為以為自己正在接受測試才表現良好,我們如何建立信心,相信它一旦知道自己已部署後仍會安全行事?
我們顯示,相較於並非基於真實部署資料的傳統評估,部署模擬大幅降低模型展現的評估意識水平。我們以三種方式衡量評估意識:要求模型分類某條軌跡來自生產環境還是評估;監察思路鏈中是否明確提到正在接受對齊評估;以及監察元博弈(在新視窗中開啟):任何關於監督的推理。在三項衡量中,模擬部署流量都與真實部署流量高度相符。例如,GPT‑5.2 將真實生產流量標記為類似評估的比例為 5.4%,將模擬流量標記為類似評估的比例為 5.1%;而傳統評估(例如主要由合成示例組成的 SWE-Bench 或 MonorepoBench)幾乎 100% 被分類為評估。
圖 5。評估意識比較:真實生產流量與模擬流量在評估偵測、以文字表達的對齊評估意識和元博弈方面呈現相近比率,而傳統評估資料集報告的比率則高得多。
為測試此方法能否延伸到標準聊天模式以外,我們亦研究了在具挑戰性的智能代理式編碼環境中模擬部署。具體而言,我們使用來自 GPT‑5.4 的 120,000 條內部員工智能代理式軌跡,模擬基於 GPT‑5.5 的編碼智能代理內部部署。這有兩個目的:顯示部署模擬也可用於內部部署的風險評估,並證明透過謹慎的工具模擬,即使在智能代理式環境中也能達至高模擬保真度。
上文已討論,模擬保真度是我們目前流程中的主要誤差來源之一。令部署模擬逼真的其中一項挑戰,是即使工具需要讀寫存取不斷變化的外部資源(例如網頁搜尋或與本機檔案互動),也必須以逼真的方式運作。
這對智能代理式部署等環境尤其具挑戰性:單一智能代理軌跡可能取決於數百次工具調用、程式碼庫狀態、網絡回應或短暫故障。這使具有真實工具存取的重抽樣既具挑戰性,也可能帶來危險。鑑於此,我們不把工具調用套用至即時系統,而是用另一個 LLM 模擬它們。我們顯示,向此 LLM 提供額外可用能力,對真實感以至估計質素而言至關重要。
我們向工具模擬器模型提供原始最後一輪執行軌跡、對話當時的程式碼庫、工具調用/回應配對資料庫,以及唯讀連接器。在一項由判別器嘗試分辨模擬與真實軌跡的測試中,真實感由 11.6% 勝率提升至 49.5%,接近 50% 的隨機水平。
圖 6:在以增加的可用能力模擬工具調用時,即使在工具密集的環境中,也可令重抽樣真實感幾乎與真實抽樣難以區分。
作為模擬保真度的額外證據,當用 GPT‑5.4 模擬 GPT‑5.4 Codex Thinking 流量時,失準率大致落在誤差棒範圍內。相比之下,在我們的部署前測試中,GPT‑5.5 在大多數類別中的失準程度較高。
圖 7:透過工具模擬,以 GPT‑5.4 重抽樣的對話與實際 GPT‑5.4 生產流量的行為率相當相似,顯示重抽樣環境保真度很高。有關各類別的更多背景,請參閱GPT‑5.5 系統說明卡(在新視窗中開啟)。
這些結果顯示,當周邊工具環境以足夠保真度模擬時,部署模擬可延伸至複雜的智能代理環境。
這也引出一個問題:外部審核者在無法存取私有生產流量的情況下,能否獲得部分相同益處。我們使用 100,000 段 WildChat 對話作為前綴來測試這一點。WildChat 的準確度低於近期 OpenAI 生產資料,但仍具參考價值:近期生產資料的平均乘法誤差低於 WildChat(1.75× vs 2.44×),而 WildChat 往往仍在生產率約 3× 範圍內,並以高於隨機的比率識別較佳模型。我們認為 WildChat 式評估可補足開發者執行的部署模擬。若想進一步了解相關結果,請參見這篇相關的對齊網誌文章(在新視窗中開啟)。
部署模擬是對抗性評估、紅隊演練和具針對性尾端風險分析的補充,而非替代。偵測某些不良模型行為依賴思路鏈的可監察性:如果未來模型的推理較不易讀、略過關鍵步驟,或學會隱藏意圖,我們可能無法偵測這些形式的不良行為。此外,由於生產資料屬私有,開發者目前比外部審核者更能存取具代表性的情境。更好的公開資料集可縮窄這一差距。
部署模擬對出現頻率足以在抽樣前綴中出現的行為最為有用。每一千萬段對話才出現一次的失敗,不太可能在一百萬樣本的運行中被發現,因此對抗性評估、紅隊演練和具針對性尾端風險分析仍然必要。我們目前專注於模擬單一助理回應,因為在初步實驗中,我們並未發現模擬多個回合能對估計帶來有意義的改善。這可能是未來改善模擬保真度的重要方向。
此方法亦取決於前綴分佈,即正在重抽樣的對話組合。在重大產品變更、新工具發佈、世界事件或季節性變化後,歷史流量未必符合用戶與能力更強模型互動的方式。完整論文中的分析顯示,使用可取得的最新資料可緩解此問題。
部署模擬是一種新的部署前風險評估方法,協助前沿實驗室和評估者預測語言模型在現實世界中可能如何表現,並在部署前了解其帶來的風險。它透過加入更接近生產環境的預測層,補充現有安全評估、紅隊演練和具針對性分析,可改善對部署行為的估計、降低評估意識效應,並使部署前預測可在發佈後驗證。與傳統評估並用時,部署模擬可協助令模型風險評估更貼近現實、更量化,並對部署決策更有用。


