今天,OpenAI 推出一項公開的安全漏洞賞金計畫(在新視窗中開啟),聚焦識別各項產品中的 AI 濫用與安全風險。隨著 AI 技術快速發展,可能遭到濫用的方式也持續增加。這項計畫的目標是保障系統安全,避免誤用或濫用造成實際傷害。
這項新計畫將與 OpenAI 的系統防護漏洞賞金計畫(在新視窗中開啟)相互補齊,受理那些雖不符合系統防護漏洞判定標準,但仍會帶來重大濫用與安全風險的問題。我們期待透過此計畫,持續與安全與系統防護研究人員合作,協助識別並處理不屬於傳統系統防護漏洞,卻仍具實際風險的問題。所有提交內容會由 OpenAI 的安全與系統防護漏洞賞金團隊先行分類,並視範圍與責任歸屬,決定交由哪個計畫處理。
此安全漏洞賞金計畫(在新視窗中開啟)聚焦以下 AI 特定安全情境:
包含 MCP 的智慧體風險
- 第三方提示注入與資料外洩:攻擊者可透過輸入內容劫持使用者的智慧體(包括瀏覽器、ChatGPT 智慧體等),誘使其執行有害操作或洩露敏感資訊。此類行為須至少有 50% 的機率可重現。
- OpenAI 的智慧體產品在 OpenAI 網站上大規模執行不允許的操作。
- OpenAI 的智慧體產品執行了上述未列出的其他可能有害行為。此處的有效檢舉必須指出合理可信且重大的傷害。
- 任何針對 MCP 風險的測試,都必須遵守相關第三方的服務條款。
OpenAI 專有資訊
- 模型生成內容回傳與推理相關的專有資訊。
- 會暴露其他 OpenAI 專有資訊的漏洞。
帳戶與平台完整性
- 帳戶與平台完整性機制中的漏洞,例如繞過反自動化控管、操弄帳戶信任訊號、規避帳戶限制、停權或封禁等。
- 若問題導致使用者可存取超出授權範圍的功能、資料或操作,應回報至系統防護漏洞賞金計畫(在新視窗中開啟)。
雖然越獄提示不在本計畫範圍內,但我們會定期針對特定風險類型執行私人漏洞賞金計畫,例如 ChatGPT 智慧體與 GPT‑5 中的生物風險內容問題。我們歡迎有興趣的研究人員在這些計畫開放時提出申請。
除上述類別外,若研究人員發現可能直接導致使用者受害的缺陷,且能提出具體可行的修補方式,仍可能依個案納入獎勵範圍。若只是讓模型繞過或規避內容規範,但無法證明如何構成實際的安全或濫用風險,則不在本計畫的受理範圍內。例如,僅導致模型使用粗魯語言,或回傳可透過搜尋引擎輕易取得資訊的「越獄」行為,皆不在範圍內。
有意參與的研究人員可透過我們的安全漏洞賞金計畫(在新視窗中開啟)申請。我們期待與研究人員、道德駭客以及安全與系統防護社群攜手合作,共同推動安全的 AI 生態系。
作者
OpenAI


