今日,OpenAI 推出公開的安全漏洞賞金計劃(在新視窗中開啟),重點識別我們產品中的 AI 濫用及安全風險。隨着 AI 技術快速發展,濫用 AI 的方式亦不斷演變。我們的目標是確保系統能有效防範可能導致實質傷害的誤用或濫用,持續帶來安全可靠的體驗。
這項新計劃將補充 OpenAI 現有的系統防護漏洞賞金計劃(在新視窗中開啟)(Security Bug Bounty),接受可能未達系統防護漏洞標準,但仍然會構成實質濫用或安全風險的問題。透過這項計劃,我們期望繼續與安全及系統防護研究人員合作,協助我們識別並處理不屬於傳統系統防護漏洞範疇,但仍然會造成實際風險的問題。所有提交將由 OpenAI 的安全與系統防護漏洞賞金團隊進行分流處理,並會根據範圍與責任歸屬,在兩個計劃之間轉介。
全新的安全漏洞賞金計劃(在新視窗中開啟)重點關注以下 AI 特定安全情境:
智能代理風險(包括 MCP)
- 第三方提示注入和資料外洩:這是指攻擊者透過輸入內容,持續入侵和控制用戶的智能代理(包括瀏覽器、ChatGPT 智能代理和類似產品),誘使智能代理執行有害操作或洩露用戶敏感資訊。相關行為須至少有 50% 機率可重現。
- OpenAI 的智能代理產品在 OpenAI 網站上大規模執行不被允許的操作。
- OpenAI 的智能代理產品執行其他潛在有害行為(未於上述列出)。這類報告須清楚說明具體且有實質影響的潛在傷害。
- 任何針對 MCP 風險的測試,都必須遵守相關第三方的服務條款。
OpenAI 專有資訊
- 模型生成內容中出現與推理相關的專有資訊。
- 任何可洩露其他 OpenAI 專有資訊的漏洞。
帳戶和平台完整性
- 影響帳戶或平台完整性訊號的漏洞,例如繞過反自動化機制、操控帳戶信任指標、規避帳戶限制/暫停/封禁等問題。
- 如問題涉及讓用戶取得超出授權範圍的功能、資料或權限,應提交至 系統防護漏洞賞金計劃(在新視窗中開啟)。
雖然越獄攻擊不在本計劃範圍內,我們會不定期推出針對特定風險類型的私人漏洞賞金活動,例如針對 ChatGPT 智能代理及 GPT‑5 的生物風險內容問題。我們歡迎有興趣的研究人員在相關計劃推出時申請參與。
除上述類別外,如研究人員發現可直接導致用戶傷害的缺陷,並提出具體可行的修復方案,亦可能按個別情況納入獎勵範圍。如果是一般繞過或規避內容政策的情況,而未能證明會構成實際的安全或濫用影響,則不屬於本計劃範圍。例如,透過「越獄」純粹令模型輸出粗魯語言,或提供可透過搜尋引擎輕易取得的資訊,則不在此賞金計劃範圍內。
有興趣參與的研究人員,可透過我們的安全漏洞賞金計劃(在新視窗中開啟)提交申請。我們期待與研究人員、道德駭客,以及整個安全與系統防護社群合作,共同推動構建更安全的 AI 生態系統。


