跳到主要內容
OpenAI

2025年12月10日

系統防護

隨著 AI 能力提升,加強網絡韌性

隨著我們的模型在網絡安全方面的能力不斷提升,我們正持續強化模型本身、建立多層防護,並與全球系統防護專家合作。

正在載入...

AI 模型的網絡能力正迅速進步,為網絡防禦帶來實質效益,同時亦帶來需要審慎管理的雙重用途風險。例如,在 capture-the-flag (CTF) 挑戰中的能力評估,由 2025 年 8 月 GPT‑5(在新視窗中開啟) 的 27%,提升至 2025 年 11 月 GPT‑5.1‑Codex‑Max(在新視窗中開啟) 的 76%。

我們預期未來的 AI 模型會延續這個發展軌跡;因此,我們在規劃與評估時,已假設每一代新模型都有可能達到我們《防範應對架構(在新視窗中開啟)》所界定的「高」級別網絡安全能力。這裡所指的是,模型能夠針對防禦嚴密的系統開發可運作的零日遠端漏洞攻擊,或能實質協助執行複雜且隱蔽、以現實影響為目標的企業或工業入侵行動。本文將說明我們如何看待針對具備這類能力水平模型的保障措施,並確保相關措施在限制濫用的同時,亦能實質協助防禦人員進行防護工作。

隨著這些能力不斷提升,OpenAI 正投資於強化模型在防禦型網絡安全任務上的表現,並開發相關工具,讓防禦人員更容易執行程式碼審核和漏洞修補等工作流程。面對防禦人員往往人手不足、資源有限,我們的目標是讓模型與產品可為防禦人員帶來顯著效益和優勢。

與其他雙重用途領域一樣,防禦與攻擊的網絡工作流程往往依賴相同的基礎知識與技術。我們正投資於相關保障措施,協助確保這些強大能力主要用於防禦用途,並限制為惡意目的帶來的能力提升。網絡安全幾乎涉及所有領域,這意味著我們不能依賴任何單一類別的保障措施,例如純粹限制知識,又或者單靠經審核的受控存取機制。我們需要採用一套可以平衡風險與使用者能力的縱深防禦方法。在實際運作上,這代表我們會設計能力的存取、引導和應用方式,確保進階模型能提升安全,而非降低濫用門檻。

我們認為這項工作並非單次的努力,而是一項持續、長期的投入,目標是為防禦人員建立優勢,並持續強化整體生態系統中關鍵基礎設施的安全狀態。

減少惡意使用

我們的模型在設計與訓練時,已以安全運作為目標,並由主動偵測和回應網絡濫用的系統支援。隨著我們的能力與威脅環境轉變,我們會持續優化這些保護措施。在不嚴重影響防禦用途的前提下,沒有任何系統能保證可在網絡安全領域完全防止濫用;因此,我們的策略是透過多層安全堆疊來降低風險。

在這個基礎之上,我們採用縱深防禦策略,結合存取控制、加強基礎設施、出口流量控制和監察機制。同時,我們配合偵測與回應系統,以及專門的威脅情報與內部風險管理計劃,確保可迅速識別新出現的威脅,同時快速阻截。這些保障措施會隨著威脅環境演變而不斷發展。我們預測變化是常態,並以能夠快速、適切調整為設計原則。

在此基礎上:

  • 訓練模型拒絕或以安全方式回應有害要求,同時在教育和防禦用途的應用場景保持實用:我們正訓練前沿模型,對可能導致明確網絡濫用的要求作出拒絕或以安全方式回應,同時在合法的防禦和教育場景中盡可能保持實用並提供協助。
  • 偵測系統:我們持續優化和維護涵蓋採用前沿模型產品的全面系統監察機制,以偵測潛在惡意網絡活動。如果活動看似不安全,我們可能會封鎖輸出、將提示詞轉交至更安全或能力較低的模型,又或者升級處理。我們的執行機制結合自動化與人工審核,並參考法律要求、嚴重程度和重複行為等因素。同時,我們亦與開發人員和企業客戶緊密合作,就系統防護標準取得共識,並透過清晰的升級路徑支持負責任的使用。
  • 端到端紅隊演練:我們正與專業紅隊組織合作,評估並加強我們的安全緩解措施。他們的工作是透過端到端方式,嘗試繞過我們所有防線,因為有豐富資源兼意志堅定的對手亦可能會採取同樣的攻擊方式。這有助我們及早找出缺口,並加強整體系統。

加強網絡韌性的生態系統計劃

OpenAI 從早期開始已一直投資將 AI 應用於防禦型網絡安全場景,而我們的團隊亦與全球專家緊密協作,持續推動模型和各種應用方式走向成熟。我們重視全球致力令數碼世界更安全的網絡安全人員社群,並致力提供可支援防禦安全工作的強大工具。隨著我們推出新的保障措施,我們將繼續與網絡安全社群合作,了解 AI 在哪些方面能實質提升韌性,以及哪些地方最需要周全的保障設計。

在這些合作之外,我們亦正建立一系列措施,協助防禦人員更快行動、讓保障機制更切合現實需要,同時加快大規模且負責任的修復工作。

面向網絡防禦的可信存取計劃

我們即將推出一項可信存取計劃,探索為從事網絡防禦工作的合資格用戶及客戶提供分級存取權限,以便在防禦用途下使用我們最新模型的更強大功能。我們仍在探索哪些能力適合廣泛開放存取、哪些則需要分級限制,而這亦可能影響此計劃未來的設計。我們希望這項可信存取計劃能成為建立具韌性生態系統的重要基石。

透過 Aardvark 擴展防禦能力

Aardvark 是我們的智能代理安全研究工具,可以協助開發人員和系統防護團隊大規模識別並修復漏洞,現已進入私人測試階段。這套工具可以掃描程式碼庫中的漏洞,並提出維護者可快速採用的修補建議。透過對整個程式碼庫進行推理,這套工具已成功識別開源軟件中的全新 CVE。我們計劃為部分非商業開源程式碼庫提供免費保障服務,以協助提升開源軟件生態系統和供應鏈的安全性。有興趣的開發人員可在這裡申請參與。

Frontier Risk Council(前沿風險委員會)

我們將成立全新諮詢顧問小組 Frontier Risk Council,讓資深網絡防禦人員和系統防護人員能與我們的團隊緊密合作。這個委員會在初期將專注於網絡安全,並在未來擴展至其他前沿能力領域。成員將就有用而負責任的能力與潛在濫用之間的界線提供建議,而這些經驗將直接用於我們的評估與保障措施。我們很快會分享更多有關委員會的資訊。

與業界共同建立對威脅模型的理解

最後,我們預期業界任何前沿模型都可能被用於網絡濫用。為應對這一點,我們透過 Frontier Model Forum 與其他前沿實驗室合作。Frontier Model Forum 是由領先 AI 實驗室和業界合作夥伴支持的非牟利組織,旨在就威脅模型及最佳實踐建立共同理解。在這個背景下,威脅建模有助透過識別 AI 能力可能如何被武器化、不同威脅行為者存在哪些關鍵瓶頸,以及前沿模型可能帶來哪些實質能力提升,從而降低風險。這項合作旨在建立一套貫穿整個生態系統、對威脅行為者和攻擊路徑一致的理解,讓實驗室、維護者和防禦人員能更有效地改善緩解措施,同時確保最重要的安全分析見解能迅速傳播至整個生態系統。我們亦正與外部團隊合作開發網絡安全評估(在新視窗中開啟)。我們希望由獨立評估組成的生態系統,能進一步協助建立對模型能力的共同理解。

綜合而言,這些措施反映了我們長期致力加強生態系統防禦的承諾。隨著模型能力持續提升,我們的目標是協助確保這些能力能為防禦人員帶來真正的效益和優勢,以現實需要為基礎、由專家意見塑造,並以審慎方式部署。在這項工作的同時,我們亦計劃探索其他措施及網絡安全資助,以協助發掘未必會在傳統流程中出現的突破性構思,並從學術界、業界和開源社群匯聚大膽而具創意的防禦方案。整體而言,這是一項持續進行的工作,而我們預期會隨著對最有效推進現實世界安全方式的理解加深,持續演進這些計劃。