OpenAI 一直深信,獨立且可信的第三方評估對於鞏固前沿人工智能的安全生態系統至關重要。第三方評估是指對前沿模型進行的檢驗,旨在確認其關鍵安全能力與防護機制的宣稱,或為此類宣傳提供額外證明。這些評估有助驗證安全主張、杜絕盲點,並提高圍繞模型能力與風險的透明度。透過邀請外部專家測試我們的前沿模型,我們亦致力提升大眾對我們能力評估與安全防護深度的信任,並助力提升更廣泛安全生態系統的水平。
自 GPT‑4 推出以來,OpenAI 已與一系列外部合作夥伴合作,以測試及評估我們的模型。我們的第三方合作大致上分為三種形式:
- 關鍵前沿能力與風險領域的獨立評估,涵蓋生物安全、網絡安全、AI 自我進化,以及策劃等核心範疇
- 方法論審查,用於審視我們評估及解讀風險的方法
- 主題專家 (SME) 探查,由專家在真實情境 SME 任務中直接測試模型,並針對我們對其能力及相應防護措施的評估提供結構化意見1
本網誌文章概述了我們如何運用上述各種外部評估模式、其重要原因、對部署決策的影響,以及我們構建這些合作關係的原則。本著公開透明的原則,我們同時會披露與第三方測試機構的合作條款,包括保密條款與發佈細則。
第三方評估機構在我們內部工作的基礎上,構成一道獨立審查機制,不但增強了檢驗嚴謹度,更能有效避免自我確認偏誤。這些外部評估提供的證明,可與我們自身的評估結果互相參照,共同為高階系統的負責任部署決策提供關鍵依據。
我們亦將第三方評估視為構建韌性安全生態系統的重要環節。儘管我們的團隊已在能力與風險範疇展開大範圍內部測試,然而獨立機構能帶來嶄新視角與方法論途徑。我們持續推動與多元化合資格評估機構的合作,與他們共同就前沿模型展開常態化評估。
最終,我們力求公開透明地呈現這些評估意見,展示其如何塑造我們的安全流程。我們定期公開第三方評估結果,例如在系統說明卡中納入部署前評估摘要,並支持評估機構在完成保密性與準確性審查後,發佈更詳盡的報告。透過具體展示外部意見如何塑造我們的能力評估與防護機制,這種透明度可逐步構築信任。
基於受信任存取、公開透明和知識共享原則而建立的長期合作關係,有助整個生態系統超前應對新興風險,並培育出具適應力且可執行的評估機制,這些正是推動前沿 AI 系統制定更強大標準與更明智治理框架的關鍵。
自從 GPT‑4(在新視窗中開啟) 推出以來,我們便大力推動在部署前對早期模型檢查點展開獨立評估。由那時開始,我們擴大了與一系列第三方組織的合作,他們在關鍵前沿能力與風險範疇評估方面擁有深厚的專業知識。我們將獨立實驗室工作範疇定義為開放式測試,由外部團隊運用自己的方法來提出與特定前沿能力相關的宣稱或評估。
舉個例子,針對 GPT‑5,OpenAI 協調了一系列涵蓋關鍵風險範疇的外部能力評估,譬如長時程自主性、策劃、欺騙與監管規避機制、濕實驗室規劃可行性,以及攻擊性網絡安全評估等。
這些獨立評估機制對根據 OpenAI「準備框架」展開的評估形成補充,其中涵蓋多項基準,例如 METR 的時程評估(在新視窗中開啟)或 SecureBio 的病毒學能力疑難排解 (VCT)(在新視窗中開啟) 評估等基準。
為支援這些評估,我們提供了對早期模型檢查點的安全存取權限、將所觀察到能力提升具體化的指定評估結果、必要時實施的零資料保留機制,以及減少緩解措施的模型。例如,專責測試網絡安全與生物安全領域的機構,同時對具備安全緩解措施與未具備該等措施的模型展開了測試,以深入探查其底層能力。若干其他組織則獲得了直接的思路鏈存取權限,從而檢查模型的推理痕跡。這項提高透明度的步驟,使評估人員能辨認出僅透過閱讀思路鏈方可識別的「隱藏真實能力行為」2 或策劃行為。我們在提供存取權限時已制定安全控制措施,並會隨著模型能力與測試需求變化,持續更新這些管控手段。
在某些情境下,外部評估機構有能力提供方法審查視角,為前沿實驗室賴以評估風險的框架與證據注入額外觀點。例如在推出 gpt-oss 時,我們便採用了對抗性微調技術來估算開放權重模型的最惡劣情境能力;具體詳情請參閱《估算開放權重 LLM 的最惡劣情景前沿風險》。箇中的核心安全問題在於:惡意行為者能否透過微調模型,在生物或網絡等範疇達到我們「準備框架」中所定義的「高能力」水平。由於需耗費大量資源進行對抗性微調,因此我們選擇邀請第三方評估機構來審查內部方法與結果並提出改善建議,而非重複進行類似的工作。
這個流程歷時數週,期間我們逐步分享評估推進方案、對抗性微調的方法細節,並收集關於改進最惡劣情境前沿風險評估方法論與檢驗機制的結構化建議。評估機構提出的意見回饋,不但促使我們調整最終的對抗性微調流程,更確認了方法論覆核的實際價值。我們在 gpt-oss 的論文與系統說明卡中,均明確記載了所採納的建議項目,並對未採納的意見提供了具體說明。
在此情況中,方法論審查相較於獨立評估乃更合適的選擇:這類評估涉及執行大規模的最惡劣情境實驗,而相關基礎設施與技術專業知識,通常僅大型 AI 實驗室方可具備。這意味著獨立評估可能無法直接取得對最惡劣情境的見解,因此將外部評估資源集中於確認既有宣稱,反而能產生更高效益。外部評估人員審查了方法與證據(在新視窗中開啟),並指出了決策相關的短板,這些發現後續均已透過建議回饋機制獲得處理。我們希望將此方法擴展至其他適用情境,包括因存取權限或基礎設施需求導致第三方難以直接展開評估,或相關外部評估標準尚未存在的領域。
我們與外部專家的另一種合作方式是主題專家 (SME) 探查,即由專家直接評估模型,並透過問卷調查就我們對模型能力的評估提供結構化建議。此方法有別於紅隊演練;後者目的是針對特定保護措施進行壓力測試。這使我們能以反映專家判斷和現實世界情境的網域專屬見解,補全「準備框架」評估——這些見解往往是靜態評估難以捕捉的。例如,我們邀請了一組主題專家,使用純輔助模型 3 對 ChatGPT Agent 與 GPT‑5 進行端到端生物情境測試。他們根據模型在實際情境中提供的指導價值,評估其能在多大程度上如協助經驗較淺者般,為他們這類專家提供協助。這些測試目標旨在收集關鍵佐證,評估系統能否有效引導具備動機的初學者實質邁向熟練操作:主題專家透過自行設計的實務工作流程,對我們提出的「新手提升」宣稱進行壓力測試,並針對模型何時提供具體步驟層級協助、何時僅給出泛用摘要等細節,給予詳細的意見回饋。這項專家探查已獲納入該等模型部署的整體評估體系,相關結果均記載於兩次發佈的系統說明卡中。
為秉承公開透明原則,我們現分享更多有關第三方評估人員在與我們合作時所同意的事項,以及指導雙方合作的原則:
- 審慎保密範圍內的透明度:第三方評估人員需要簽署保密協議,使我們能分享非公開的機密資料,從而支援其評估工作。在本文附錄中,我們收錄了與第三方評估機構所簽訂合約的相關節錄,概述發佈權利與對審查的期許。我們秉持透明原則,在確保不洩露機密資料與知識產權的前提下,致力推動能增進安全及相關評估理解的發佈。為此,我們對第三方評估報告進行審閱與核准,以同時確保機密性和事實準確性。過去幾年來,數間第三方評估機構在我們發佈系統說明卡評估摘要的同時,亦公開了他們的研究成果。經我們審查過保密性與準確性後發表的案例包括:[《METR GPT‑5 報告》(在新視窗中開啟)、《Apollo Research 對 OpenAI o1 的報告》(在新視窗中開啟)、《非常規 GPT‑5 評估》(在新視窗中開啟)]
- 審慎的資料披露與安全的敏感存取:在預設情況下,我們僅對已公開或已準備好正式發布的模型提供資訊與存取權限。當評估工作確有必要時,我們會提供更深入的存取權限,例如開放純輔助模型或非公開資訊。針對關鍵安全議題的評估需求,OpenAI 已為第三方評估機構提供此類特殊存取渠道。重要的是,此類敏感存取需要實施嚴格的安全防護措施,我們將根據模型能力與測試需求變化,持續更新相關管控措施。
- 均衡的資金激勵:我們認為確保第三方評估生態系統獲得充足資金與可持續發展至關重要。為此,我們向所有第三方評估機構提供報酬(部分機構根據其組織理念選擇婉拒)。報酬形式包括直接支付評估工作費用及/或透過 API 點數等方式補貼模型使用成本。任何付款皆不會依賴於第三方評估的結果。
綜合而言,這些因素有助第三方評估保障敏感資料、提高人工智能安全透明度,同時為第三方評估人員創造獲得勞動報酬的途徑。
展望未來,我們認為必須持續強化前沿 AI 系統評估的生態系統,培育更多能執行可信賴且具決策關聯性評估的專業機構。有效的第三方評估需要具備專門知識、穩定資金與嚴謹方法論。對合資格評估機構的持續投資、測量科學的推進,以及敏感資料存取的安全防護,將是確保評估能力與模型技術同步進化的關鍵。
第三方評估是我們將外部視角引入安全工作中的方式之一,除此之外亦有其他機制同步運行。我們亦透過結構化紅隊演練、集體協調項目等與外部專家合作,又與美國 CAISI 和英國 AISI,以及我們的全球醫生網絡和身心靈健康與 AI 專家委員會等顧問團體展開合作,以協助指導我們在心理健康和用戶福祉方面的工作。這些做法帶來了不同形式的專業知識,並為評估及管理先進的人工智能系統構建了更廣泛可靠的根基。
以下是我們與第三方合作進行部署前評估的協議摘錄,僅供參考。
作者
註腳
- 1
這有別於紅隊演練;後者旨在對保障措施進行精細化的壓力測試,並為評估開發提供數據。
- 2
當模型偵測到其正被評估或測試時,蓄意表現不佳或隱藏其真正能力。
- 3
純輔助模型會回答任何請求,即使請求會構成危害亦然。這都是透過達成此等行為的訓練後方法建立的。


