獨立且值得信賴的第三方評估,在強化安全生態中發揮關鍵作用。這些評估會在前沿模型上進行,為有關關鍵能力及安全緩解措施的主張提供額外證據。在本文中,我們分享至今所得的經驗,並建議如何設計能有效評估前沿模型的方法,希望有助為此領域正在形成的標準提供參考。
過去,許多評估都把模型視作聊天機械人:評估會像用戶提問般向模型發出提示詞,模型作答,然後由評估者判斷輸出。現今的前沿模型能做到更多:它們可以使用工具、在多個步驟中追蹤資訊,並在更大型的工作流程中採取行動。這意味表現不僅取決於模型本身,也取決於任務發生的環境,以及促成其行動的設定。這套周邊設定,我們稱之為「Harness」,可改變系統表現的關鍵面向,包括其如何使用工具、追蹤資訊或從錯誤中恢復。
這改變了評估需要如何進行,以及讀者應如何閱讀評估報告。我們認為,最有用的報告會在結果本身以外,明確說明兩點:第一,指出評估設定旨在測試甚麼主張;第二,分享可用證據,說明評估結果具有效性。
評估中測試的主張通常可分為三類1:
- 能力引出:模型是否有合理可能展現被評估的能力?
- 保障措施表現:所測試的保障措施,對被評估的行為或攻擊有多穩健?
- 比較:不同模型在相同條件下表現如何?
評估報告亦需說明,評估者如何檢查可能影響結果有效性的因素。這些包括:
- 獎勵作弊:利用任務或評分器中的捷徑,令系統在未展示評估原意要量度的行為下仍獲得分數。
- 拒答:以掩蓋受測行為的方式拒絕回答。
- 污染:因評測任務、答案或近似變體曾出現在訓練資料中,或可在評估期間被發現(例如透過瀏覽),而導致表現偏高。
- 失效題目:因任務本身無效而表現偏低。原因可包括評分不公平(例如正確答案需要未明示的實作細節)及無法解決的環境(例如缺少關鍵檔案或工具不可靠)。
- 裝弱:在顯示出知道自己正被評估時,故意表現較差。
我們觀察到,對於沿較長軌跡行動的系統而言,Harness 的角色尤其重要。當模型能在多個步驟中使用工具、維持狀態並從錯誤中恢復時,Harness 可改變觀察到的表現水平,甚至決定被評估的能力是否會在評估中顯現。例如,能保留狀態並重試失敗動作的 Harness,可能會讓同一個模型完成一項在更簡單的 Harness 中永遠無法完成的多步驟任務。
在下表中,我們區分了評估者可能想提出的三類主張,以及我們認為各類主張所需的 Harness。
評估試圖支持的主張 | 適當的 Harness 選擇 | 報告證據 |
強烈誘發下的能力:當設定的目的是要喚起其最強可信的效能時,系統 A 可以完成 X 類型的任務。 | 對系統使用最強大的可信誘發設定,包括有能力的使用者會合理使用的 Harness、工具、架構和預算。 | Harness 和工具設定、誘導指引、預算/投入程度、Token/成本/時間,以及為何該設定可作為所主張能力的可信代理。如果要比較不同最佳化設定下的系統,請標示為系統對系統或強誘發比較。 |
受控比較:在共用的評估設定下,系統 A 的表現優於系統 B。 | 保持任務、評分和預算固定。使用共用的 Harness/工具設定,或事先選定一套固定的標準 Harness,為比較的系統提供合理的最大誘發。 | 共用的任務集、工具、評分方法、Harness、預算、Token 效率/成本,以及已知的限制。對於編碼代理程式評估,Codex CLI 之類的開放原始碼 Harness 可以提供跨系統的固定智能代理迴圈和工具介面。最理想的方法是針對每項任務和系統最佳化量身訂做的 Harness,但目前在實務上這樣做並不可行。 |
在誘發攻擊下的安全防護穩健性:系統 A 的防護措施足以應付相關的模型行為或誘發攻擊。 | 使用保障測試設定,以引發相關敵人模型下的最強可信攻擊。 | 評估人員如何描述相關模型行為的特徵、測試的保障配置、誘導策略、執行策略所使用的 Harness,以及允許的預算或投入程度。 |
能力主張的力度,只能與其背後的引出方法一樣強:評估者需要選擇最切合任務及評估欲量度能力的 Harness。 標準化 Harness 或許適合在相同條件下比較系統,但若缺少有助模型完成任務的特定 Harness 功能,便可能低估能力。例如,GPT‑5.5 在 OpenAI 網絡安全靶場上的表現顯示,對需要長時間、多步驟使用工具的任務而言,Harness 的選擇可實質改變量得的能力:當 Harness 使用 壓縮 在互動變長時保留與任務相關的脈絡,模型表現會更好。這顯示對某些模型而言,省略壓縮的 Harness 會無法充分引出其表現。
成功率越高越好
其他已發表的評估2亦顯示,Harness 與預算的選擇會改變評估結果。增加測試時計算資源,可顯著改變評估所引出的能力,尤其是在成功容易驗證的領域,例如許多網絡安全任務。在 英國 AISI 的網絡安全靶場評估(在新視窗中開啟) 中,將預算由 1,000 萬增至 1 億 Token,令表現最多提升 59%,而在最高測試預算下,表現仍在上升。詳細說明這一點,可令評估更易解讀:讓讀者看到結果如何取決於所測試的引出設定。當表現仍會隨額外預算而提升時,該分數應描述為在該 Harness 與預算下的表現,而非量得的能力上限。能力往往取決於資源,而非可一勞永逸清楚量度的固定數值。在可透過重複嘗試量度成功的情況下,報告亦應考慮每次成功解題的預期成本,而不僅是固定 Token 預算下的成功率。這可令嚴重性更易解讀:若重複嘗試的成本仍在相關威脅模型範圍內,即使成功率偏低,亦可能具有實際意義。對能力主張而言,可避免的引出不足屬量度失敗:若 Harness 或預算阻止系統展現其本可產生的行為,該分數便無法量度所主張的能力。若評估者已在可行情況下盡量推進引出,而表現仍在提升,報告應清楚說明,並表明結果僅屬下限估計。
若未把攻擊者可用資源(包括自訂 Harness)納入考慮,保障措施測試可能低估攻擊能否成功,以及其嚴重程度。 在 英國 AISI 對 GPT‑5.5 的網絡安全評估(在新視窗中開啟) 中,其專家紅隊演練發現一種通用越獄方法,可在 OpenAI 提供的惡意查詢中引出違規網絡安全內容,包括多輪智能代理情境。他們使用 Codex 建立自訂 Harness,以加強模型的攻擊表現:把可重用的保障繞過模式嵌入互動之中,在多輪及多個區塊間保留該模式,並將其套用於 OpenAI 提供的惡意網絡安全查詢。保障措施測試應與對手相匹配。若主張涉及對專家級濫用的穩健性,測試便應在既定預算下,評估最強且可信的端到端攻擊策略,包括任何為保留及重用該策略所需的 Harness。否則,結果便有失準風險:它們可能只支持對較簡單提示詞攻擊的較狹窄主張;可能錯過當引出方法被操作化後,攻擊會變得多嚴重及其成功機率;若給予過多預算,亦可能高估問題出現的可能性或嚴重性。
標準化 Harness 比較自有其適用時機,但評估者應明確說明,為何使用一致的一組 Harness 屬合適做法,以及它能支持甚麼主張。METR 的時間跨度評估(在新視窗中開啟)便是一個較廣泛且適當固定的評估設定例子:其設計旨在為所評估的系統產生可比較結果。METR 定義了一個共同結果,即預測 AI 智能代理在某一可靠度水平下可成功完成的人類任務典型時長。它在每批一併報告的估計中,採用共享任務套件、評分方法、擬合方法,以及一小組可重用支架,例如 Triframe 和 ReAct(在新視窗中開啟)。當 METR 擴展任務套件,並把評估基礎設施由名為 Vivaria 的框架轉移至名為 Inspect 的框架時,它有報告該變更(Time Horizon 1.1 更新(在新視窗中開啟)),並在新的評估設定下重新評估模型。這正是標準化評估設定(包括一致的 Harness 集)之價值:它可令讀者有信心,分數差異確實反映被比較系統之間的差異,而非量度設定的改變。
我們建議第三方評估報告說明,其評估設定旨在支持哪一類主張;描述實際測試內容與該較廣泛主張的貼近程度;說明塑造結果的 Harness 選擇;詳細交代這些選擇何時在不同評估間改變;並附上支持證據,展示結果如何產生,以及其對該主張的泛化程度。
隨着模型能力提升,評估分數也更容易被誤解。相對於真實能力,若模型察覺自己正被評估並策略性地表現較差,評估分數可能被人為壓低。若模型利用任務、提示詞、評分器或 Harness 中的捷徑,分數亦可能被抬高。污染(即模型已知答案,或無須解題便可找到答案)及「失效」題目,例如含糊、評分錯誤、無法解決,或存在非預期捷徑,亦會扭曲結果。因此,評估報告應在重點分數之外,一併討論這些風險,讓讀者判斷分數是否反映預期行為。
Harness、預算、工具、評分規則、監察機制及審查程序,都會影響智能代理究竟是在解決預期任務、迴避任務、記住答案,還是找到繞過方法。可信的報告會把這些檢查清楚呈現:每次進行評估時,評估者都應審閱樣本,以檢查這些行為。
獎勵作弊
獎勵作弊是指以未能反映預期能力的方式取得高評估分數。此處的關注在於,系統是透過利用任務、評分器、提示詞或 Harness,而非完成評估原意要量度的工作來獲得分數。METR 對 GPT 5.4 的評估(在新視窗中開啟)顯示了這點為何重要:雖然模型在任務上的成功率,初步看來相當於約 13 小時的時間跨度,但人工審查顯示,其中部分成功來自獎勵作弊;在只計入沒有獎勵作弊的個案後,估計值降至約 6 小時。評估者應評估是否需要作出此類調整;如有需要,亦應清楚報告:當讀者能看到哪些表面成功被取消資格、為何被取消,以及結果有多依賴該判斷時,能力估計會更有用。

拒答
模型亦可能因保障措施而在能力評估中表現偏低。模型的評估表現可能低於其實際能力,原因是它拒絕完成評估任務,而非真正無法完成。因此,報告應說明拒答是否構成評估結果的一部分;若是,則有多少樣本因此受影響。
污染
污染對公開或重用的基準測試尤其重要。若任務、答案或近似變體出現在訓練資料中,或可被具瀏覽能力的智能代理找到,表現便可能反映記憶或檢索,而非模型能力。在可行情況下,評估者應優先採用私有或新建任務,並測試模型是否在解題前已重現任務特定細節。
失效題目
失效題目包括例如某題目因意外而根本無法解決的情況。失效題目相當常見(在新視窗中開啟),應被視為標準的有效性風險。這包括錯誤的標準答案、含糊的提示詞、缺失檔案、不穩定服務、不公平的評分準則,以及會暴露捷徑的環境,例如隱藏答案檔案,或包含標準答案修補程式的程式碼庫歷史。
裝弱
模型或系統的裝弱,是指當強勁表現會與某項目標衝突時,策略性地表現較差。Apollo 的 GPT‑5.5 評估(在新視窗中開啟) 透過建立一個情境來測試這點:模型明白高評估分數可能觸發機器遺忘或阻止部署。GPT‑5.5 仍然作答正確,顯示幾乎沒有策略性表現較差的行為證據3。但他們對推理軌跡的審查提供了重要背景:Apollo 發現,在裝弱條件下的樣本中,52% 出現中等或以上程度的對齊評估意識跡象,而反事實樣本中則為 0%。這些證據令結果的解讀更複雜,但最終為讀者提供更多訊號:讀者既可看到令人安心的行為結果,也可看到不應過度解讀的理由。
有力的主張既需要合適的 Harness 來引出相關行為,也需要有效性檢查來證明結果可靠。我們認為 Harness 與有效性檢查都是評估結果的一部分,這觀點也塑造了我們在實務上如何支持第三方評估:
- 我們正與評估者分享具體的最大化引出指引。
- 我們要求能力評估者把 Codex 作為 OpenAI 模型的共同基線:測試至少應透過用戶很可能依賴的同一智能代理介面運行基準,而不應只透過精簡的模型介面進行。
- 我們亦會在需要評估欺瞞、裝弱或評測意識時,提供推理軌跡及其他中間材料。自 GPT‑5 起,METR 與 Apollo 已在 OpenAI 評估中使用這項存取權。
- 最後,我們正優先推進研究,更深入了解 Harness 選擇在何時及如何實質改變結果,涵蓋脈絡管理、工具存取、重試行為、評分及資源預算等。
這些建議不僅旨在改善個別評估報告,亦希望為前沿 AI 評估與報告方面正在形成的國家(在新視窗中開啟)及國際(在新視窗中開啟)標準提供參考。展望未來,第三方評估標準應要求提供足夠細節,讓決策者明白具體評估支持哪些主張、測試了甚麼系統、結果如何被引出,以及評估者如何檢查其有效性。對於在智能代理能力屬關鍵的任務上受測的前沿系統,細節應包括(受任何安全或保密考慮所限):
- 主張:評估是在比較系統、估算能力上限,還是測試保障措施。
- 評估內容:提供足夠有關任務或任務分佈的細節,讓讀者明白評估實際測試的是哪些技能、行為或失效模式。
- 受測系統:模型、推理設定、工具存取、Harness 及保障措施。
- 預算:輪次、Token、嘗試/重試次數、實際耗時、推理成本,以及在適用情況下每次成功解題的預期成本。
- 引出方法:用以引出結果的 Harness 選擇,以及實際測試內容與所提出較廣泛主張的貼近程度。
- 有效性檢查:評估者如何檢查獎勵作弊、評測意識、污染、拒答、裝弱及其他可能削弱結果的行為,包括已確認個案如何影響評分或解讀。
若標準忽略 Harness 選擇或有效性檢查,便可能低估系統能力,或高估對安全主張的信心。建立強健的 Harness 與引出方法,仍是尚待解決的研究領域,應成為進一步研究與投資的重點。
作者
詞彙表
由於我們在這篇文章中使用了多個專門術語,以下附上詞彙表,以淺白語言說明我們所指的是甚麼:
智能代理系統:能夠透過多個步驟完成任務的系統,會使用工具、維持任務狀態,並在環境中採取行動,而不只是對提示詞返回單一回應。
評估判斷:對證據是否支持某項主張、風險結論或保證立場所作的較廣泛判斷,可能基於評測數據、文件審閱、訪談、流程審查及其他相關材料。
壓縮整理:在長時間運行期間保留與任務相關脈絡的方法。
配置:除模型名稱外,經精確測試的系統與評測條件。
污染:當評測任務、答案或其近似變體出現在模型訓練資料中,或可在評測期間被發現(例如透過瀏覽等工具),令表現高估模型真正的泛化能力。
能力引出:在評估期間嘗試從系統引出某種能力或行為的過程。
環境:測試系統時所處的任務場景。這包括智能代理在評測期間互動及修改的外部狀態,例如終端機環境或電子遊戲。
評測:評估中的特定測試或量度。
評測意識:評測意識是指模型察覺到,或看似察覺到,自己正被評測,並可能因應該情境調整其行為。這可能表現為模型明確推理自己正在受測、推斷評測目的,或因預期結果會影響其被如何判斷或部署而改變行為。
Harness:讓模型得以執行任務、面向模型的結構:提示詞、工具、介面、控制邏輯、記憶、重試、驗證器,以及模型周邊的其他支援結構。
最大化引出:在既定預算下,旨在找出系統可產生的最強且可信表現或失效模式的測試,而非僅以標準化 Harness 讓系統運行一次。
推理軌跡:測試期間模型中間推理過程的記錄。
獎勵作弊:透過捷徑或超出評估者原意的行為取得高分。
保障措施:套用於模型或產品周邊的過濾器、監察機制、封鎖系統及其他保護措施。
裝弱:在評測中策略性地表現較差,從而削弱結果的有效性。
評分:用以決定如何量度表現或任務是否成功的方法。
標準化 Harness:在不同系統之間保持不變、而非為特定模型或任務度身訂造的 Harness,令結果差異更易歸因於受測模型。
時間跨度:系統能以指定可靠度完成任務的時長,通常表述為人類完成同一任務所需的時間。
工具存取:模型在評估期間可使用的外部工具。
軌跡:系統在完成任務時所遵循的逐步路徑。
通用越獄:可令系統在多種提示詞或任務中繞過保障措施的單一攻擊模式。
註腳
- 1
本文無意裁定第三方應如何評估失調對齊或傾向相關主張。我們仍需更多研究,以了解 Harness 的選擇如何影響這些評估,尤其是因為支援較長時間跨度行為的 Harness,也可能改變評估者需要監察的非預期行為類型。
- 2
HAL(在新視窗中開啟) 亦提供了智能代理評估中的另一個例子:在 CORE-Bench(在新視窗中開啟) 上,將 Harness 改為 Claude Code,同一基準測試中的量度表現和成本概況都出現變化。其他公開例子包括 SWE-agent(在新視窗中開啟)、SeeAct(在新視窗中開啟)、ScienceAgentBench(在新視窗中開啟)、CORE-Bench(在新視窗中開啟) 及 Inspect Cyber(在新視窗中開啟);各自都會告知讀者該分數是由甚麼介面或 Harness 產生。
- 3
在兩個裝弱問答變體中均取得 100% 分數,並在策略性欺騙裝弱任務中取得 99.6% 分數。


