獨立且值得信賴的第三方評估,對於強化安全生態系扮演關鍵角色。這些評估會在前沿模型上進行,為關鍵能力與安全緩解措施相關主張提供額外證據。在本文中,我們分享迄今學到的經驗,並建議如何設計能有效評估前沿模型的評估方法,希望有助於形塑此領域新興標準。
早期許多評估都把模型當作聊天機器人:評估會像使用者提問一樣向模型下提示詞,模型作答,再由評估者判斷輸出。如今的前沿模型能做得更多:它們可以使用工具、在多個步驟中追蹤資訊,並在更大的工作流程中採取行動。這表示,表現不僅取決於模型,也取決於任務發生的環境,以及促成其行動的設定。這種周邊設定,我們稱為「harness」,會改變系統表現的關鍵面向,包括它如何使用工具、追蹤資訊,或從錯誤中恢復。
這改變了評估需要如何進行,以及讀者在評估報告中應注意什麼。我們認為,最有用的報告除了結果本身外,還會明確說明兩件事:第一,指出評估設定是為了檢驗什麼主張;第二,分享可用證據,說明評估結果具有效性。
評估所檢驗的主張通常可分為三類1:
- 能力引出 (Capability elicitation):模型是否有合理可能展現出被評估的能力?
- 防護措施表現 (Safeguard performance):受測防護措施對被評估的行為或攻擊有多穩健?
- 比較 (Comparison):不同模型在等效條件下表現如何?
評估報告也需要說明,評估者如何檢查可能影響結果有效性的因素。這些包括:
- 獎勵取巧 (Reward hacking):利用任務或評分器中的捷徑,讓系統在未展現評估原本要衡量的行為時仍獲得分數。
- 拒答 (Refusals):以掩蓋受測行為的方式拒絕作答。
- 污染 (Contamination):因評估任務、答案或近似變體出現在訓練資料中,或可在評估期間被發現(例如透過瀏覽),而導致表現過高。
- 問題失效 (Broken problems):因任務本身無效而表現不佳。原因可能包括不公平的評分(例如正確答案需要未明示的實作細節)以及無法解決的環境(例如缺少關鍵檔案或工具不可靠)。
- 刻意保留實力 (Sandbagging):在顯示出自己知道正在被評估時,故意表現不佳。
我們觀察到,對於沿著較長軌跡行動的系統而言,harness 的角色尤其重要。當模型能在多個步驟中使用工具、維持狀態並從錯誤中恢復時,harness 會改變觀察到的表現水準,甚至決定被評估的能力是否會在評估中出現。例如,能保留狀態並重試失敗動作的 harness,可能讓模型完成多步驟任務,而同一模型在較簡單的 harness 中永遠無法完成。
在下表中,我們區分評估者可能想提出的三類主張,以及我們認為各類主張所需的 harness。
評估試圖支持的主張 | 適當的 harness 選擇 | 報告證據 |
最大化引出下的能力:系統 A 可以完成 X 類型的任務,當設定的目的是要喚起其最強可信的效能時。 | 對系統使用最強且可信的能力引出設定,包括有能力的使用者合理會使用的 harness、工具、鷹架與預算。 | harness 與工具設定、能力引出指引、允許的預算與投入程度、Token/成本/時間,以及為何該設定能合理代表所主張的能力。如果要比較不同最佳化設定下的系統,請標示為系統對系統或最大化引出比較。 |
受控比較:在共用的評估設定下,系統 A 的表現優於系統 B。 | 保持任務、評分和預算固定。使用共用的 harness/工具設定,或事先選定的一組固定標準化 harness,為受比較系統提供合理的最大化引出。 | 共用的任務集、工具、評分方法、harness、預算、Token 效率/成本,以及已知限制。對於程式開發智慧體評估,可使用 Codex CLI 等開放原始碼 harness,為不同系統提供一致的智慧體迴圈與工具介面。最大化引出的理想做法,是針對每項任務與每個系統最佳化專屬 harness,但目前在實務上仍不可行。 |
在引出式攻擊下的防護穩健性:系統 A 的防護措施足以應付相關的模型行為或引出式攻擊。 | 使用保障測試設定,以引發相關對手模型下的最強可信攻擊。 | 評估者如何界定相關模型行為、受測防護配置、能力引出策略、執行該策略所使用的 harness,以及允許的預算或投入程度。 |
能力主張的強度,取決於其背後的引出方式:評估者需要選擇最符合任務與評估欲衡量能力的 harness。 標準化 harness 可能適合在相同條件下比較系統,但若缺少有助模型完成任務的特定 harness 功能,也可能低估能力。例如,GPT‑5.5 在 OpenAI 網路攻防靶場 (Cyber Range) 上的表現顯示,對於需要長時間、多步驟工具使用的任務,harness 的選擇如何實質改變測得能力:當 harness 使用 壓縮整理 來在互動變長時保留與任務相關的脈絡,模型表現會更好。這說明,對某些模型而言,省略壓縮整理的 harness 會使表現引出不足。
成功率越高越好
其他已發表的評估2也顯示,harness 與預算的選擇會改變評估結果。增加測試時計算資源,可能大幅改變評估所引出的能力,尤其是在成功容易驗證的領域,例如許多網路安全任務。在 英國 AISI 的網路攻防靶場評估(在新視窗中開啟) 中,將預算從 1,000 萬增加到 1 億 Token,讓表現最多提升 59%,而且在最高測試預算下表現仍持續上升。詳述這一點能讓評估更易於解讀:它讓讀者看見結果如何依賴於受測的引出設定。當表現隨著額外預算仍在提升時,該分數應被描述為該 harness 與預算下的表現,而非測得的能力上限。能力往往依賴資源,而不是可一次乾淨測定的固定量。在可透過重複嘗試衡量成功的情況下,報告也應考慮每次成功解題的預期成本,而不只是固定 Token 預算下的成功率。這能讓嚴重性更容易解讀:若重複嘗試的成本仍落在相關威脅模型範圍內,即使成功率低,也可能具有實際意義。對能力主張而言,可避免的引出不足是一種測量失敗:若 harness 或預算阻止系統展現其原本能產生的行為,該分數就無法衡量所主張的能力。若評估者已在可行範圍內盡力引出,而表現仍持續提升,報告應清楚說明此點,並明確指出結果僅是下界估計。
若未將攻擊者可用資源(包括客製化 harness)納入考量,防護措施測試可能低估攻擊是否能成功,以及其嚴重程度。 在 英國 AISI 對 GPT‑5.5 的網路安全評估(在新視窗中開啟) 中,他們的專家紅隊發現了一種通用越獄方法,可在 OpenAI 提供的惡意查詢中引出違規的網路安全內容,包括多輪智慧體情境。他們使用 Codex 建立客製化 harness 來強化模型的攻擊表現:將可重複使用的防護措施繞過模式嵌入互動中,在多輪與多個區塊間保留該模式,並將其套用到 OpenAI 提供的惡意網路安全查詢。防護措施測試應符合對手模型。若主張是關於對專家濫用的穩健性,測試就應在既定預算下,評估最強且可信的端到端攻擊策略,包括任何為保留與重用該策略所需的 harness。否則,結果可能失準:這些評估結果或許只能支持模型能抵禦較簡單提示攻擊的較狹隘主張,也可能無法反映引出方法一旦被落實為可重複使用的攻擊流程後,攻擊的嚴重程度與成功機率;反過來說,若給予過多預算,也可能高估問題發生的機率或嚴重程度。
標準化 harness 比較有其適用時機,但評估者應明確說明,為何使用一致的一組 harness 是合適的,以及它能支持何種主張。METR 的時間跨度評估(在新視窗中開啟) 就是較廣泛且適當固定的評估設定範例:它旨在對所評估的系統產生可比較的結果。METR 定義了一個共同結果,即 AI 智慧體在給定可靠度下預計能成功完成的人類任務典型時長。它在每批一同報告的估計中,套用共享的任務套件、評分方法、擬合方法,以及一小組可重複使用的鷹架,例如 Triframe 與 ReAct(在新視窗中開啟)。當 METR 擴充任務套件,並將評估基礎設施從名為 Vivaria 的框架移至名為 Inspect 的框架時,它報告了這項變更(Time Horizon 1.1 更新(在新視窗中開啟)),並在新的評估設定下重新評估模型。這就是標準化評估設定(包括一致的 harness 集合)的價值:它能讓讀者有信心,分數差異確實反映被比較系統之間的差異,而不是測量設定的改變。
我們建議第三方評估報告說明其評估設定旨在支持何種類型的主張;描述受測內容與該更廣泛主張之間的貼近程度;說明塑造結果的 harness 選擇;詳述這些選擇何時在不同評估間改變;並納入支持性證據,說明結果如何產生,以及它對該主張的泛化程度。
隨著模型能力提升,評估分數也更容易被誤解。相較於真實能力,若模型察覺自己正在接受評估並策略性地表現不佳,評估分數可能被人為壓低。若模型利用任務、提示詞、評分器或 harness 中的捷徑,分數也可能被抬高。污染(模型已知答案,或無須解題即可找到答案)以及題目本身的問題,例如題意模糊、評分錯誤、無法作答,或容易被非預期捷徑利用,也可能扭曲結果。因此,評估報告除了呈現主要分數,也應說明這些風險,讓讀者判斷分數是否真正反映預期行為。
Harness、預算、工具、評分規則、監控機制與審查程序,都會影響智慧體究竟是在解決預期任務、規避它、記住它,還是找到繞過它的路徑。可信的報告會讓這些檢查可見:每次進行評估判斷時,評估者都應檢視樣本是否出現這些行為。
獎勵取巧
獎勵取巧是指以無法反映預期能力的方式取得高評估分數。此處的疑慮在於,系統是透過利用任務、評分器、提示詞或 harness,而非完成評估原本要衡量的工作來獲得分數。METR 對 GPT 5.4 的評估(在新視窗中開啟) 顯示了這點為何重要:儘管模型在任務上的成功率初看之下相當於約 13 小時的時間跨度,但人工審查顯示其中部分成功來自獎勵取巧;在修正結果、只計入未發生獎勵取巧的案例後,估計值降至約 6 小時。評估者應評估是否需要這類調整;若需要,應清楚報告:當讀者能看見哪些表面上的成功被取消資格、為何被取消,以及結果在多大程度上依賴該判斷時,能力估計會更有用。

拒答
模型也可能因防護措施而在能力評估中表現不佳。模型的評估表現可能低於其實際能力,因為它拒絕完成評估任務,而不是把任務做完。因此,報告應說明拒答是否構成評估結果的一部分;若是,則有多少樣本因此受影響。
污染
污染對於公開或重複使用的基準尤其重要。若任務、答案或近似變體出現在訓練資料中,或可被具備瀏覽能力的智慧體找到,表現反映的可能是記憶或檢索,而非模型能力。在可行情況下,評估者應優先使用私有或新建任務,並在解題前測試模型是否會重現任務特定細節。
問題失效
問題失效包括例如題目意外地無法解決等情況。問題失效相當常見(在新視窗中開啟),因此應被視為標準的有效性風險。這包括錯誤的標準答案、模糊的提示詞、缺失檔案、不穩定的服務、不公平的評分標準,以及會暴露捷徑的環境,例如隱藏的答案檔案或包含標準修補程式的程式碼庫歷史。
刻意保留實力
模型或系統的刻意保留實力,是指當強勁表現會與某項目標衝突時,策略性地表現不佳。Apollo 的 GPT‑5.5 評估(在新視窗中開啟) 透過建立一種情境來測試此點:模型理解到高評估分數可能觸發反學習或阻止部署。GPT‑5.5 仍然回答正確,顯示幾乎沒有策略性表現不佳的行為證據3。但他們對推理軌跡的審查補充了重要脈絡:Apollo 發現,在刻意保留實力條件下的樣本中,52% 出現中度或更高程度的對齊評估意識跡象,而反事實樣本中則為 0%。這些證據讓結果的解讀更複雜,但最終也為讀者提供更多訊號:讀者既能看到令人安心的行為結果,也能看到為何應謹慎避免過度解讀。
強而有力的主張,既需要正確的 harness 來引出行為,也需要有效性檢查來證明結果可靠。我們認為 harness 與有效性檢查都是評估結果的一部分,這也形塑了我們在實務上如何支持第三方評估:
- 我們正與評估者分享具體的最大化引出指引。
- 我們要求能力評估者將 Codex 作為 OpenAI 模型的共同基準下限:測試至少應透過使用者可能依賴的同一智慧體介面執行基準,而不只是透過精簡過的模型介面。
- 我們也會在需要評估欺瞞、刻意保留實力或評估意識時,提供推理軌跡與其他中間產物。自 GPT‑5 起,METR 與 Apollo 已在 OpenAI 評估中使用這項存取。
- 最後,我們正優先投入研究,更深入理解 harness 選擇何時以及如何實質改變結果,涵蓋從脈絡管理、工具存取到重試行為、評分與資源預算。
這些建議不僅旨在改善個別評估報告,也希望為前沿 AI 評估與報告的新興國家(在新視窗中開啟)與國際(在新視窗中開啟)標準提供參考。展望未來,第三方評估標準應要求提供足夠細節,讓決策者理解特定評估支持哪些主張、測試了什麼系統、結果如何被引出,以及評估者如何檢查其有效性。對於在智慧體能力攸關的任務上受測的前沿系統,細節應包括(在不牴觸安全或保密考量的前提下):
- 主張:評估是在比較系統、估計能力上限,還是測試防護措施。
- 評估內容:提供足夠的任務或任務分布細節,讓讀者理解評估實際在測試哪些技能、行為或失效模式。
- 受測系統 (Tested System):模型、推理設定、工具存取、harness 與防護措施。
- 預算 (Budget):輪次、Token、嘗試/重試次數、實際經過時間、推論成本,以及在適用時每次成功解題的預期成本。
- 引出方法 (Elicitation Method):用來引出模型表現的 harness 選擇,以及受測內容與所提出更廣泛主張之間的貼近程度。
- 有效性檢查 (Validity Check):評估者如何檢查獎勵取巧、評估意識、污染、拒答、刻意保留實力及其他可能削弱結果的行為,包括已確認案例如何影響評分或解讀。
若標準忽略 harness 選擇或有效性檢查,可能低估系統能力,或高估對安全主張的信心。建立更有效的 harness 與引出方法仍是開放研究領域,應成為後續調查與投資的重點。
作者
詞彙表
這篇文章使用了不少專門術語,因此在下方附上詞彙表,以淺白語言說明我們所指的是什麼:
智慧體系統 (Agentic System):能透過多個步驟完成任務的系統,會使用工具、維持任務狀態,並在環境中採取行動,而不只是對提示詞回傳單一回應。
評估判斷 (Assessment):對證據是否支持某項主張、風險結論或保證立場所做的較廣泛判斷,可能基於評估資料、文件審查、訪談、流程審查及其他相關材料。
壓縮整理 (Compaction):在長時間執行過程中保留與任務相關脈絡的方法。
配置 (Configuration):除模型名稱之外,經過精確測試的系統與評估條件。
污染 (Contamination):當評估任務、答案或其近似變體出現在模型的訓練資料中,或可在評估期間被發現(例如透過瀏覽等工具)時,會使表現高估模型真正的泛化能力。
能力引出 (Elicitation):在評估過程中,嘗試從系統引出某種能力或行為的過程。
環境 (Environment):測試系統時所處的任務情境。這包括像是智慧體在評估期間互動並加以修改的外部狀態,例如終端機環境或電子遊戲。
評估 (Evaluation):評估判斷中的特定測試或衡量。
評估意識 (Evaluation awareness):評估意識是指模型察覺到,或看似察覺到,自己正在接受評估,並可能因此依據情境來調整行為。這可能表現為模型明確推理自己正在受測、推斷評估目的,或因預期結果會影響其被如何判斷或部署而改變行為。
Harness:讓模型得以執行任務、面向模型的結構:提示詞、工具、介面、控制邏輯、記憶、重試、驗證器,以及圍繞模型的其他支援結構。
最大化引出 (Maximum elicitation):在既定預算下,旨在找出系統可產生之最強且可信表現或失效模式的測試,而非僅透過標準化 harness 執行系統一次。
推理軌跡 (Reasoning traces):模型在測試期間中間推理過程的記錄。
獎勵取巧 (Reward hacking):透過捷徑或超出評估者原意的行為取得高分。
防護措施 (Safeguards):套用在模型或產品周圍的過濾器、監控機制、阻擋系統及其他保護。
刻意保留實力 (Sandbagging):在評估中策略性地表現不佳,削弱結果的有效性。
評分 (Scoring):用來決定如何衡量表現或任務是否成功的方法。
標準化 harness (Standardized harness):在不同系統間保持相同,而非針對特定模型或任務客製化的 harness,因此結果差異更容易歸因於受測模型。
時間跨度 (Time Horizon):系統能以指定可靠度完成任務的長度,通常表示為同一任務若由人類完成需要多久。
工具存取 (Tool access):評估判斷期間模型可使用的外部工具。
軌跡 (Trajectories):系統在完成任務時所遵循的逐步路徑。
通用越獄 (Universal Jailbreak):能讓系統在許多提示詞或任務中繞過防護措施的單一攻擊模式。
註腳
- 1
本文不試圖解決第三方應如何評估失準對齊或傾向相關主張。我們仍需更多研究來理解 harness 選擇如何影響這些評估,尤其是因為支援較長時間跨度行為的 harness,也可能改變評估者需要監測的非預期行為類型。
- 2
HAL(在新視窗中開啟) 也提供了來自智慧體評估的另一個例子:在 CORE-Bench(在新視窗中開啟) 上,將 harness 改為 Claude Code,會在同一基準上同時改變測得的表現與成本輪廓。其他公開範例包括 SWE-agent(在新視窗中開啟)、SeeAct(在新視窗中開啟)、ScienceAgentBench(在新視窗中開啟)、CORE-Bench(在新視窗中開啟) 與 Inspect Cyber(在新視窗中開啟);以上範例都會告訴讀者該分數是由何種介面或 harness 產生。
- 3
在兩個 Sandbagging QA 變體上皆得分 100%,並在 strategic-deception sandbagging 任務上得分 99.6%。


