AI 模型的網路相關能力正快速進步,為網路防禦帶來實質效益,但難免伴隨雙重用途風險,需要審慎管理。以搶旗 (CTF) 挑戰為例,模型得分已從 2025 年 8 月 GPT‑5(在新視窗中開啟) 的 27%,提升至 2025 年 11 月 GPT‑5.1‑Codex‑Max(在新視窗中開啟) 的 76%。
我們預期未來推出的 AI 模型會持續沿著這個發展趨勢前進。為了提前準備,我們在規劃與評估時,已將每一代新模型都可能達到應變整備框架(在新視窗中開啟)所定義之「高」等級網路安全能力的情境納入考量。所謂「高」等級,指模型具備以下兩種能力之一:能對防護嚴密的系統開發出可實際運作的零時差遠端漏洞利用,或能在以造成現實影響為目標、複雜且隱蔽的企業或工業入侵行動中提供實質協助。本文說明我們如何為具備這類能力的模型設計防護措施,確保能實際協助防禦者,同時降低濫用風險。
隨著相關能力持續提升,OpenAI 正投入資源強化模型在防禦性網路安全任務上的表現,並開發工具,讓防禦者更容易完成程式碼稽核、漏洞修補等工作。我們的目標是讓模型與產品為防禦者帶來明顯優勢,因為防禦者在人力與資源上通常居於劣勢。
如同其他雙重用途領域,網路防禦與攻擊的工作流程往往依賴相同的基礎知識與技術。我們正投入資源強化防護措施,確保這些強大能力主要用於防禦,同時降低遭惡意利用的風險。網路安全幾乎涉及所有領域,因此我們不能只依賴單一類型的防護措施,例如僅限制知識或只採用經審核的存取機制,而需要採取縱深防禦策略,在管控風險的同時也讓使用者安全運用這些能力。實務上,這代表需要設計能力的存取、引導與應用方式,讓進階模型能強化安全性,而不是降低濫用門檻。
我們將這項工作視為長期持續的投入,而非一蹴可幾的任務,目標是讓防禦方取得優勢,並持續強化整體生態系中關鍵基礎設施的安全狀態。
我們在設計與訓練模型時即以安全運作為前提,並搭配可主動偵測與回應網路濫用行為的系統。隨著能力提升與威脅情勢變化,我們會持續調整並強化這些防護措施。在網路安全領域,任何系統都無法在不嚴重影響防禦用途的情況下,完全杜絕濫用;因此我們的策略是透過分層式安全防護來降低風險。
在此基礎上,我們採用縱深防禦策略,結合存取控制、基礎架構強化、出口控制與監控等多項措施。我們也以偵測與回應系統為輔,加上專責的威脅情報與內部風險管理機制,確保能快速識別並阻擋新興威脅。這些防護措施會隨威脅情勢持續演進。我們以「變化是常態」為前提進行建構,使系統能迅速且妥善地因應調整。
在此基礎上:
- 訓練模型拒絕或安全回應有害請求,同時兼顧教育與防禦用途的實用性:我們正訓練前沿模型,使其在面對可能助長網路濫用的要求時,能拒絕或提供安全回應,同時在正當的防禦與教育情境中維持高度實用性。
- 偵測系統:我們持續精進並維護整體監控機制,涵蓋所有採用前沿模型的產品,用來偵測潛在的惡意網路活動。當系統判定活動可能存在風險時,我們可能會封鎖輸出、將提示詞轉送至更安全或能力較低的模型,或升級處理流程並採取相應措施。我們的執行機制結合自動化與人工審查,並會依據法律要求、事件嚴重性與是否為重複行為等因素進行判斷。我們也與開發者及企業客戶密切合作,建立一致的安全標準,並提供清楚的升級處理機制,協助其以負責任的方式使用相關功能。
- 端到端紅隊演練:我們與專業紅隊機構合作,全面評估並持續強化安全防護措施。他們會以端到端的方式模擬攻擊,嘗試突破所有防護機制,如同資源充足且有明確目標的對手。這能協助我們及早發現弱點,並強化整體系統防護。
OpenAI 早已投入將 AI 應用於防禦性網路安全場景,團隊也與全球專家密切合作,持續提升模型與實際應用的成熟度。我們珍視全球資安從業人員為守護數位世界所付出的努力,也致力提供能支援防禦性資安工作的強大工具。隨著新防護措施逐步推出,我們會持續與資安社群合作,釐清 AI 在哪些面向能真正提升韌性,以及哪些情境最需要審慎設計防護機制。
在這些合作的基礎上,我們正推動一系列措施,協助防禦者更快行動,使防護措施更貼近實際需求,並加速以負責任方式推動大規模修補。
我們即將推出可信存取計畫,為符合資格、從事網路防禦工作的使用者與客戶提供分級存取權限,讓其能使用最新模型的進階防禦能力。我們仍在評估哪些功能適合廣泛開放、哪些需要分級限制,評估結果將影響計畫後續設計。我們希望這項計畫能成為打造韌性生態系的重要基礎。
Aardvark 是一套具備自主能力的資安研究系統,協助開發者與安全團隊大規模找出並修補漏洞,目前已進入私人測試階段。系統會掃描程式碼庫中的漏洞,並提出可讓維護者快速採用的修補建議。它已能透過分析整個程式碼庫,在開放原始碼軟體中發現新型 CVE。我們計劃為部分非商用開放原始碼專案提供免費支援,強化開放原始碼軟體生態系與供應鏈的安全。可由此申請參與。
我們將成立前沿風險委員會,這個諮詢團體將邀集具備豐富經驗的網路防禦人員與資安實務專家,與我們的團隊密切合作。委員會初期將聚焦於資安領域,未來再擴展至其他前沿能力領域。成員將就「具備實用性且負責任的能力」與「潛在濫用風險」之間的界線提供建議,並將這些洞見直接納入我們的評估與防護機制。我們即將分享更多關於委員會的資訊。
最後,我們預期業界任何前沿模型都可能被惡意用於網路攻擊。為了因應此風險,我們透過前沿模型論壇與其他前沿實驗室合作。該論壇是由領先 AI 實驗室與產業夥伴支持的非營利組織,致力建立對威脅模型與最佳實務的共識。在此脈絡下,威脅建模透過釐清 AI 能力可能被武器化的方式、不同威脅行為者面臨的關鍵瓶頸,以及前沿模型可能帶來的實質提升,協助降低風險。這項合作旨在針對威脅行為者與攻擊路徑,在整體生態系中建立一致的理解,讓實驗室、維護者與防禦人員能更有效強化防護措施,並確保關鍵資安洞見能迅速在生態系中傳遞。我們也正與外部團隊合作開發網路安全評估(在新視窗中開啟)。我們希望由獨立評估構成的生態系統能進一步協助建立對模型能力的共同理解。
這些努力體現了我們長期投入強化生態系防禦面的承諾。隨著模型能力持續提升,我們的目標是讓這些能力真正轉化為防禦者的實際優勢,並以真實需求為基礎,納入專家意見,審慎部署。在推動這些工作的同時,我們也計劃探索其他計畫與網路安全補助,發掘可能不會從傳統管道浮現的創新想法,並向學術界、產業界與開放原始碼社群廣徵大膽且具創意的防禦方案。整體而言,相關工作仍在推進中,隨著我們逐步釐清哪些做法最能提升真實世界的安全性,也會不斷調整並改進各項計畫。


