今日,我們推出一套以提示詞為基礎的安全政策(在新視窗中開啟),協助開發人員為青少年建立適齡的保護措施。這些政策專為配合我們的開源權重安全模型 gpt-oss-safeguard(在新視窗中開啟) 而設,讓開發人員能更簡單地將安全要求轉化為可在實際系統中使用的分類器。
我們推出開源權重模型,旨在讓更多人能使用強大的 AI,並促進廣泛創新。與此同時,我們相信安全與創新必須並行發展,開發人員不但需要具備強大能力的模型,同時亦需要相應的工具與政策,以安全及負責任的方式部署這些模型。我們在制定這些政策時,亦參考了包括 Common Sense Media(在新視窗中開啟) 及 everyone.ai(在新視窗中開啟) 在內的可信外部機構的意見,以支援開發人員保護年輕用戶。
我們明白青少年與成人的需要不同,而青少年需要額外的保障。這些政策旨在協助開發人員考慮用戶差異,建立既具啟發性亦適合年輕用戶的體驗。
我們一直致力於打造既能為年輕人拓展機會,同時亦可保障其安全的 AI。作為這項工作的一部分,我們更新了模型規格(在新視窗中開啟),即界定 OpenAI 模型預期行為的指引,納入 未滿 18 歲(U18)原則(在新視窗中開啟),並推出產品層面的保障措施,例如家長控制和年齡預測,以更有效保護年輕用戶。我們亦透過青少年安全藍圖,呼籲業界建立更全面的保護措施。
今日的發佈正是建基於此基礎。我們將這些安全政策開放予開發人員使用,協助他們部署青少年安全保障,同時推動開源權重生態中更廣泛的應用。
雖然 gpt-oss-safeguard 等安全分類器能識別有害內容,但這套工具的運作需要依賴對「何謂有害內容」的清晰定義。在實際情況中,開發人員面對的最大挑戰之一,是如何制定能準確反映青少年特定風險,並可在實際系統中一致應用的政策。
即使是經驗豐富的團隊,亦往往難以將高層次的安全目標轉化為精確且可操作的規則,特別是因為這不但需要具備相關領域知識,也需要對 AI 技術理解有充分了解。這可能導致保護不足、執行不一致,又或者過度廣泛的過濾。清晰且範圍明確的政策,是建立有效安全系統的關鍵基礎。
為應對上述挑戰,我們推出一套安全政策(在新視窗中開啟),針對青少年常見風險,並參考現有研究中對青少年發展差異的深入分析。這些政策以提示詞形式編寫,可直接配合 gpt-oss-safeguard(在新視窗中開啟) 和其他具推理能力的模型使用,讓開發人員能更輕鬆地在自己的系統中套用一致的安全標準。
首批發佈涵蓋以下範疇:
- 血腥暴力內容
- 露骨的性內容
- 有害的身體形象與行為
- 危險活動與挑戰
- 浪漫或暴力角色扮演
- 年齡限制商品和服務
這些政策可用於即時內容過濾,亦可用於離線分析用戶生成內容。
透過將政策設計為提示詞,開發人員能更容易整合至現有流程,然後按各自的應用情境進行調整,並持續優化。

我們與包括 Common Sense Media(在新視窗中開啟) 和 everyone.ai(在新視窗中開啟) 在內的外部機構合作,共同制定這些政策。他們的專業知識協助我們界定內容範圍、優化提示詞結構,以及微調在評估時需要考慮的邊界情況。
這反映我們持續致力與專家及整個生態合作,以提升 AI 系統支援年輕用戶。
「目前 AI 在青少年安全方面的一大缺口,是缺乏清晰且可操作的政策,令開發人員無例可循。很多時候,開發人員需要從零開始。這些以提示詞為基礎的政策,有助在整個生態中建立有意義的安全底線,而由於整套政策以開源形式發佈,因此可以隨時間持續調整與改進。我們樂見有機構向外界廣泛提供這類基礎設施,並期望能促進業界建立更多共享的青少年安全基準。」
—Common Sense Media AI 與數碼評估主管 Robbie Torney
「像這樣將青少年安全政策轉化為可操作形式的工作極具價值,因為這有助將專業知識轉化為可在實際系統中應用的指引。內容政策是重要的第一步,同時亦為進一步探討模型行為如何隨時間影響與青少年相關的風險踏出第一步。受此啟發,並結合我們自己的研究,everyone.ai(在新視窗中開啟) 亦制定了一套初步行為政策,重點關注如排他性和過度依賴等風險。」
—everyone.AI 首席科學家 Mathilde Cerioli 博士
這些政策旨在作為起點,而非全面或最終的定義,亦不構成對青少年安全的保證。每個應用場景都有獨特的風險、受眾和情境,而開發人員往往最了解產品和 AI 整合可能帶來的風險。我們強烈建議開發人員根據自身需要調整和擴展這些政策,同時結合其他保障措施,例如產品設計決策、用戶控制、對青少年友善的透明度、監察系統,以及經審慎設計、符合年齡的回應方式。
我們認為採用多層防護的深度防禦方法,是建立更安全 AI 系統的關鍵。這些政策參考了我們的內部經驗,但並未涵蓋 OpenAI 內部政策或保障措施的全部內容。
我們透過 ROOST Model Community(在新視窗中開啟) 以開源形式發佈這些政策,鼓勵協作和持續優化。如果想參與、提供意見或分享其他青少年安全政策,請前往 RMC GitHub 程式碼庫(在新視窗中開啟)。
開發人員及機構可以按各自的應用方式來調整政策,翻譯成不同語言,並擴展至涵蓋更多風險範疇。我們期望這些政策有助建立更穩健的共享基礎,以在 AI 系統中實施安全政策。
如果想開始使用 gpt-oss-safeguard,請於 Hugging Face(在新視窗中開啟) 下載。


