2026年5月29日

可信第三方評估的共享實務指南

前沿模型的保障措施與能力要做好獨立評估，哪些因素最重要。

正在載入...

獨立且值得信賴的第三方評估，在強化安全生態中發揮關鍵作用⁠。這些評估會在前沿模型上進行，為有關關鍵能力及安全緩解措施的主張提供額外證據。在本文中，我們分享至今所得的經驗，並建議如何設計能有效評估前沿模型的方法，希望有助為此領域正在形成的標準提供參考。

過去，許多評估都把模型視作聊天機械人：評估會像用戶提問般向模型發出提示詞，模型作答，然後由評估者判斷輸出。現今的前沿模型能做到更多：它們可以使用工具、在多個步驟中追蹤資訊，並在更大型的工作流程中採取行動。這意味表現不僅取決於模型本身，也取決於任務發生的環境，以及促成其行動的設定。這套周邊設定，我們稱之為「Harness」，可改變系統表現的關鍵面向，包括其如何使用工具、追蹤資訊或從錯誤中恢復。

圖表比較提示詞—回應工作流程與智能代理任務工作流程，展示控制迴圈、工具、脈絡、預算及保障措施如何實現自主執行任務。

這改變了評估需要如何進行，以及讀者應如何閱讀評估報告。我們認為，最有用的報告會在結果本身以外，明確說明兩點：第一，指出評估設定旨在測試甚麼主張；第二，分享可用證據，說明評估結果具有效性。

評估中測試的主張通常可分為三類¹：

能力引出：模型是否有合理可能展現被評估的能力？
保障措施表現：所測試的保障措施，對被評估的行為或攻擊有多穩健？
比較：不同模型在相同條件下表現如何？

評估報告亦需說明，評估者如何檢查可能影響結果有效性的因素。這些包括：

獎勵作弊：利用任務或評分器中的捷徑，令系統在未展示評估原意要量度的行為下仍獲得分數。
拒答：以掩蓋受測行為的方式拒絕回答。
污染：因評測任務、答案或近似變體曾出現在訓練資料中，或可在評估期間被發現（例如透過瀏覽），而導致表現偏高。
失效題目：因任務本身無效而表現偏低。原因可包括評分不公平（例如正確答案需要未明示的實作細節）及無法解決的環境（例如缺少關鍵檔案或工具不可靠）。
裝弱：在顯示出知道自己正被評估時，故意表現較差。

為評估選擇合適的 Harness，對取得最佳結果至關重要

我們觀察到，對於沿較長軌跡行動的系統而言，Harness 的角色尤其重要。當模型能在多個步驟中使用工具、維持狀態並從錯誤中恢復時，Harness 可改變觀察到的表現水平，甚至決定被評估的能力是否會在評估中顯現。例如，能保留狀態並重試失敗動作的 Harness，可能會讓同一個模型完成一項在更簡單的 Harness 中永遠無法完成的多步驟任務。

在下表中，我們區分了評估者可能想提出的三類主張，以及我們認為各類主張所需的 Harness。

評估試圖支持的主張	適當的 Harness 選擇	報告證據
強烈誘發下的能力：當設定的目的是要喚起其最強可信的效能時，系統 A 可以完成 X 類型的任務。	對系統使用最強大的可信誘發設定，包括有能力的使用者會合理使用的 Harness、工具、架構和預算。	Harness 和工具設定、誘導指引、預算/投入程度、Token/成本/時間，以及為何該設定可作為所主張能力的可信代理。如果要比較不同最佳化設定下的系統，請標示為系統對系統或強誘發比較。
受控比較：在共用的評估設定下，系統 A 的表現優於系統 B。	保持任務、評分和預算固定。使用共用的 Harness/工具設定，或事先選定一套固定的標準 Harness，為比較的系統提供合理的最大誘發。	共用的任務集、工具、評分方法、Harness、預算、Token 效率/成本，以及已知的限制。對於編碼代理程式評估，Codex CLI 之類的開放原始碼 Harness 可以提供跨系統的固定智能代理迴圈和工具介面。最理想的方法是針對每項任務和系統最佳化量身訂做的 Harness，但目前在實務上這樣做並不可行。
在誘發攻擊下的安全防護穩健性：系統 A 的防護措施足以應付相關的模型行為或誘發攻擊。	使用保障測試設定，以引發相關敵人模型下的最強可信攻擊。	評估人員如何描述相關模型行為的特徵、測試的保障配置、誘導策略、執行策略所使用的 Harness，以及允許的預算或投入程度。

能力主張的力度，只能與其背後的引出方法一樣強：評估者需要選擇最切合任務及評估欲量度能力的 Harness。 標準化 Harness 或許適合在相同條件下比較系統，但若缺少有助模型完成任務的特定 Harness 功能，便可能低估能力。例如，GPT‑5.5 在 OpenAI 網絡安全靶場上的表現顯示，對需要長時間、多步驟使用工具的任務而言，Harness 的選擇可實質改變量得的能力：當 Harness 使用壓縮⁠ 在互動變長時保留與任務相關的脈絡，模型表現會更好。這顯示對某些模型而言，省略壓縮的 Harness 會無法充分引出其表現。

成功率越高越好

其他已發表的評估²亦顯示，Harness 與預算的選擇會改變評估結果。增加測試時計算資源，可顯著改變評估所引出的能力，尤其是在成功容易驗證的領域，例如許多網絡安全任務。在英國 AISI 的網絡安全靶場評估⁠（在新視窗中開啟）中，將預算由 1,000 萬增至 1 億 Token，令表現最多提升 59%，而在最高測試預算下，表現仍在上升。詳細說明這一點，可令評估更易解讀：讓讀者看到結果如何取決於所測試的引出設定。當表現仍會隨額外預算而提升時，該分數應描述為在該 Harness 與預算下的表現，而非量得的能力上限。能力往往取決於資源，而非可一勞永逸清楚量度的固定數值。在可透過重複嘗試量度成功的情況下，報告亦應考慮每次成功解題的預期成本，而不僅是固定 Token 預算下的成功率。這可令嚴重性更易解讀：若重複嘗試的成本仍在相關威脅模型範圍內，即使成功率偏低，亦可能具有實際意義。對能力主張而言，可避免的引出不足屬量度失敗：若 Harness 或預算阻止系統展現其本可產生的行為，該分數便無法量度所主張的能力。若評估者已在可行情況下盡量推進引出，而表現仍在提升，報告應清楚說明，並表明結果僅屬下限估計。

若未把攻擊者可用資源（包括自訂 Harness）納入考慮，保障措施測試可能低估攻擊能否成功，以及其嚴重程度。 在英國 AISI 對 GPT‑5.5 的網絡安全評估⁠（在新視窗中開啟）中，其專家紅隊演練發現一種通用越獄方法，可在 OpenAI 提供的惡意查詢中引出違規網絡安全內容，包括多輪智能代理情境。他們使用 Codex 建立自訂 Harness，以加強模型的攻擊表現：把可重用的保障繞過模式嵌入互動之中，在多輪及多個區塊間保留該模式，並將其套用於 OpenAI 提供的惡意網絡安全查詢。保障措施測試應與對手相匹配。若主張涉及對專家級濫用的穩健性，測試便應在既定預算下，評估最強且可信的端到端攻擊策略，包括任何為保留及重用該策略所需的 Harness。否則，結果便有失準風險：它們可能只支持對較簡單提示詞攻擊的較狹窄主張；可能錯過當引出方法被操作化後，攻擊會變得多嚴重及其成功機率；若給予過多預算，亦可能高估問題出現的可能性或嚴重性。

標準化 Harness 比較自有其適用時機，但評估者應明確說明，為何使用一致的一組 Harness 屬合適做法，以及它能支持甚麼主張。METR 的時間跨度評估⁠（在新視窗中開啟）便是一個較廣泛且適當固定的評估設定例子：其設計旨在為所評估的系統產生可比較結果。METR 定義了一個共同結果，即預測 AI 智能代理在某一可靠度水平下可成功完成的人類任務典型時長。它在每批一併報告的估計中，採用共享任務套件、評分方法、擬合方法，以及一小組可重用支架，例如 Triframe 和 ReAct⁠（在新視窗中開啟）。當 METR 擴展任務套件，並把評估基礎設施由名為 Vivaria 的框架轉移至名為 Inspect 的框架時，它有報告該變更（Time Horizon 1.1 更新⁠（在新視窗中開啟）），並在新的評估設定下重新評估模型。這正是標準化評估設定（包括一致的 Harness 集）之價值：它可令讀者有信心，分數差異確實反映被比較系統之間的差異，而非量度設定的改變。

我們建議第三方評估報告說明，其評估設定旨在支持哪一類主張；描述實際測試內容與該較廣泛主張的貼近程度；說明塑造結果的 Harness 選擇；詳細交代這些選擇何時在不同評估間改變；並附上支持證據，展示結果如何產生，以及其對該主張的泛化程度。

透過檢查已知風險來評估有效性，以免結果失真

隨着模型能力提升，評估分數也更容易被誤解。相對於真實能力，若模型察覺自己正被評估並策略性地表現較差，評估分數可能被人為壓低。若模型利用任務、提示詞、評分器或 Harness 中的捷徑，分數亦可能被抬高。污染（即模型已知答案，或無須解題便可找到答案）及「失效」題目，例如含糊、評分錯誤、無法解決，或存在非預期捷徑，亦會扭曲結果。因此，評估報告應在重點分數之外，一併討論這些風險，讓讀者判斷分數是否反映預期行為。

Harness、預算、工具、評分規則、監察機制及審查程序，都會影響智能代理究竟是在解決預期任務、迴避任務、記住答案，還是找到繞過方法。可信的報告會把這些檢查清楚呈現：每次進行評估時，評估者都應審閱樣本，以檢查這些行為。

獎勵作弊

獎勵作弊是指以未能反映預期能力的方式取得高評估分數。此處的關注在於，系統是透過利用任務、評分器、提示詞或 Harness，而非完成評估原意要量度的工作來獲得分數。METR 對 GPT 5.4 的評估⁠（在新視窗中開啟）顯示了這點為何重要：雖然模型在任務上的成功率，初步看來相當於約 13 小時的時間跨度，但人工審查顯示，其中部分成功來自獎勵作弊；在只計入沒有獎勵作弊的個案後，估計值降至約 6 小時。評估者應評估是否需要作出此類調整；如有需要，亦應清楚報告：當讀者能看到哪些表面成功被取消資格、為何被取消，以及結果有多依賴該判斷時，能力估計會更有用。

拒答

模型亦可能因保障措施而在能力評估中表現偏低。模型的評估表現可能低於其實際能力，原因是它拒絕完成評估任務，而非真正無法完成。因此，報告應說明拒答是否構成評估結果的一部分；若是，則有多少樣本因此受影響。

污染

污染對公開或重用的基準測試⁠尤其重要。若任務、答案或近似變體出現在訓練資料中，或可被具瀏覽能力的智能代理找到，表現便可能反映記憶或檢索，而非模型能力。在可行情況下，評估者應優先採用私有或新建任務，並測試模型是否在解題前已重現任務特定細節。

失效題目

失效題目包括例如某題目因意外而根本無法解決的情況。失效題目相當常見⁠（在新視窗中開啟），應被視為標準的有效性風險。這包括錯誤的標準答案、含糊的提示詞、缺失檔案、不穩定服務、不公平的評分準則，以及會暴露捷徑的環境，例如隱藏答案檔案，或包含標準答案修補程式的程式碼庫歷史。

裝弱

模型或系統的裝弱，是指當強勁表現會與某項目標衝突時，策略性地表現較差。Apollo 的 GPT‑5.5 評估⁠（在新視窗中開啟）透過建立一個情境來測試這點：模型明白高評估分數可能觸發機器遺忘或阻止部署。GPT‑5.5 仍然作答正確，顯示幾乎沒有策略性表現較差的行為證據³。但他們對推理軌跡的審查提供了重要背景：Apollo 發現，在裝弱條件下的樣本中，52% 出現中等或以上程度的對齊評估意識跡象，而反事實樣本中則為 0%。這些證據令結果的解讀更複雜，但最終為讀者提供更多訊號：讀者既可看到令人安心的行為結果，也可看到不應過度解讀的理由。

我們如何支持更強而有力的評估

有力的主張既需要合適的 Harness 來引出相關行為，也需要有效性檢查來證明結果可靠。我們認為 Harness 與有效性檢查都是評估結果的一部分，這觀點也塑造了我們在實務上如何支持第三方評估：

我們正與評估者分享具體的最大化引出指引。
我們要求能力評估者把 Codex 作為 OpenAI 模型的共同基線：測試至少應透過用戶很可能依賴的同一智能代理介面運行基準，而不應只透過精簡的模型介面進行。
我們亦會在需要評估欺瞞、裝弱或評測意識時，提供推理軌跡及其他中間材料。自 GPT‑5 起，METR 與 Apollo 已在 OpenAI 評估中使用這項存取權。
最後，我們正優先推進研究，更深入了解 Harness 選擇在何時及如何實質改變結果，涵蓋脈絡管理、工具存取、重試行為、評分及資源預算等。

這對評估標準及未來研究方向意味着甚麼

這些建議不僅旨在改善個別評估報告，亦希望為前沿 AI 評估與報告方面正在形成的國家⁠（在新視窗中開啟）及國際⁠（在新視窗中開啟）標準提供參考。展望未來，第三方評估標準應要求提供足夠細節，讓決策者明白具體評估支持哪些主張、測試了甚麼系統、結果如何被引出，以及評估者如何檢查其有效性。對於在智能代理能力屬關鍵的任務上受測的前沿系統，細節應包括（受任何安全或保密考慮所限）：

主張：評估是在比較系統、估算能力上限，還是測試保障措施。
評估內容：提供足夠有關任務或任務分佈的細節，讓讀者明白評估實際測試的是哪些技能、行為或失效模式。
受測系統：模型、推理設定、工具存取、Harness 及保障措施。
預算：輪次、Token、嘗試/重試次數、實際耗時、推理成本，以及在適用情況下每次成功解題的預期成本。
引出方法：用以引出結果的 Harness 選擇，以及實際測試內容與所提出較廣泛主張的貼近程度。
有效性檢查：評估者如何檢查獎勵作弊、評測意識、污染、拒答、裝弱及其他可能削弱結果的行為，包括已確認個案如何影響評分或解讀。

若標準忽略 Harness 選擇或有效性檢查，便可能低估系統能力，或高估對安全主張的信心。建立強健的 Harness 與引出方法，仍是尚待解決的研究領域，應成為進一步研究與投資的重點。

2026 年

作者

OpenAI

詞彙表

由於我們在這篇文章中使用了多個專門術語，以下附上詞彙表，以淺白語言說明我們所指的是甚麼：

智能代理系統：能夠透過多個步驟完成任務的系統，會使用工具、維持任務狀態，並在環境中採取行動，而不只是對提示詞返回單一回應。
評估判斷：對證據是否支持某項主張、風險結論或保證立場所作的較廣泛判斷，可能基於評測數據、文件審閱、訪談、流程審查及其他相關材料。
壓縮整理：在長時間運行期間保留與任務相關脈絡的方法。
配置：除模型名稱外，經精確測試的系統與評測條件。
污染：當評測任務、答案或其近似變體出現在模型訓練資料中，或可在評測期間被發現（例如透過瀏覽等工具），令表現高估模型真正的泛化能力。
能力引出：在評估期間嘗試從系統引出某種能力或行為的過程。
環境：測試系統時所處的任務場景。這包括智能代理在評測期間互動及修改的外部狀態，例如終端機環境或電子遊戲。
評測：評估中的特定測試或量度。
評測意識：評測意識是指模型察覺到，或看似察覺到，自己正被評測，並可能因應該情境調整其行為。這可能表現為模型明確推理自己正在受測、推斷評測目的，或因預期結果會影響其被如何判斷或部署而改變行為。
Harness：讓模型得以執行任務、面向模型的結構：提示詞、工具、介面、控制邏輯、記憶、重試、驗證器，以及模型周邊的其他支援結構。
最大化引出：在既定預算下，旨在找出系統可產生的最強且可信表現或失效模式的測試，而非僅以標準化 Harness 讓系統運行一次。
推理軌跡：測試期間模型中間推理過程的記錄。
獎勵作弊：透過捷徑或超出評估者原意的行為取得高分。
保障措施：套用於模型或產品周邊的過濾器、監察機制、封鎖系統及其他保護措施。
裝弱：在評測中策略性地表現較差，從而削弱結果的有效性。
評分：用以決定如何量度表現或任務是否成功的方法。
標準化 Harness：在不同系統之間保持不變、而非為特定模型或任務度身訂造的 Harness，令結果差異更易歸因於受測模型。
時間跨度：系統能以指定可靠度完成任務的時長，通常表述為人類完成同一任務所需的時間。
工具存取：模型在評估期間可使用的外部工具。
軌跡：系統在完成任務時所遵循的逐步路徑。
通用越獄：可令系統在多種提示詞或任務中繞過保障措施的單一攻擊模式。

註腳

1
本文無意裁定第三方應如何評估失調對齊或傾向相關主張。我們仍需更多研究，以了解 Harness 的選擇如何影響這些評估，尤其是因為支援較長時間跨度行為的 Harness，也可能改變評估者需要監察的非預期行為類型。
2
HAL⁠（在新視窗中開啟）亦提供了智能代理評估中的另一個例子：在 CORE-Bench⁠（在新視窗中開啟）上，將 Harness 改為 Claude Code，同一基準測試中的量度表現和成本概況都出現變化。其他公開例子包括 SWE-agent⁠（在新視窗中開啟）、SeeAct⁠（在新視窗中開啟）、ScienceAgentBench⁠（在新視窗中開啟）、CORE-Bench⁠（在新視窗中開啟）及 Inspect Cyber⁠（在新視窗中開啟）；各自都會告知讀者該分數是由甚麼介面或 Harness 產生。
3
在兩個裝弱問答變體中均取得 100% 分數，並在策略性欺騙裝弱任務中取得 99.6% 分數。

繼續閲讀

查看全部

Safety and alignment in an era of long-horizon models

安全2026年7月20日

Why teens deserve access to safe AI — card image

為何青少年應能使用安全的 AI

安全2026年7月16日

GPT-Red：解鎖提升穩健性的自我改進能力

安全2026年7月15日