我們今天推出以提示詞為基礎的安全政策(在新視窗中開啟),協助開發者為青少年建立符合年齡的保護機制。這些政策可搭配我們的開放權重安全模型 gpt-oss-safeguard(在新視窗中開啟) 使用,協助開發者將安全需求轉化為可在實際系統中運作的分類器。
我們推出開放權重模型,讓更多人能使用強大的 AI,並促進創新發展。同時,我們相信安全與創新應並行發展。開發者需要的不只是強大的模型,還包括能安全、負責任部署模型的工具與政策。我們制定這些政策,是為了協助開發者強化保護年輕使用者的安全措施,並參考了包括 Common Sense Media(在新視窗中開啟) 和 everyone.ai(在新視窗中開啟) 在內的可信外部組織意見。
我們理解青少年與成人的需求不同,青少年需要額外的保護。這些政策協助開發者將這些差異納入考量,打造既能支持年輕使用者成長,又符合其年齡的使用體驗。
我們長期致力於打造能在保障安全的同時,為年輕人拓展機會的 AI。作為這項工作的一部分,我們更新了模型規範(在新視窗中開啟),也就是界定 OpenAI 模型預期行為的準則,納入未滿 18 歲 (U18) 原則(在新視窗中開啟),並推出產品層級的防護措施,例如家長控制和年齡預測,進一步強化對年輕使用者的保護。我們也透過青少年安全藍圖,呼籲業界建立更全面的保護機制。
今天發布的內容延續了上述基礎。我們將這些安全政策提供給開發者,協助在系統中落實青少年保護措施,同時讓開放權重生態系中更多人能使用這些資源。
雖然像 gpt-oss-safeguard 這類安全分類器能偵測有害內容,但首先必須先對這些內容做出清楚且一致的定義,才能讓分類器有效運作。在實務上,開發者面臨的一大挑戰,是如何制定既能準確涵蓋青少年特有風險,又能在實際系統中穩定套用的政策。
這項工作同時需要領域專業與深厚的 AI 知識,即使是對經驗豐富的團隊來說,要把高層次的安全目標轉化為精確且可執行的規則,也並非易事。這種落差可能導致保護出現漏洞、執行標準不一致,或篩選過於寬鬆。清楚且範圍界定明確的政策,是建立有效安全系統的關鍵基礎。
為了因應這項挑戰,我們推出一套安全政策(在新視窗中開啟),針對青少年常見風險設計,並參考既有研究中對青少年發展差異的分析。這些政策以提示詞形式呈現,可直接搭配 gpt-oss-safeguard(在新視窗中開啟) 及其他推理模型使用,讓開發者更容易在系統中套用一致的安全標準。
初始版本包含以下政策:
- 具血腥描寫的暴力內容
- 具露骨描寫的性內容
- 不健康的身體觀念與行為
- 危險活動與挑戰
- 浪漫或暴力情境的角色扮演
- 受年齡限制的商品與服務
這些政策可用於即時內容篩選,以及離線分析使用者生成內容。
將政策設計為提示詞後,開發者更容易整合至既有工作流程,依實際情境調整,並持續改進。

我們與外部組織合作,包括 Common Sense Media(在新視窗中開啟) 和 everyone.ai(在新視窗中開啟),為這些政策的制定提供依據。我們借重這些組織的專業來界定涵蓋範圍、強化提示詞結構,並釐清評估時需要考量的邊緣情境。
這項工作展現我們持續與專家及整體生態系合作的努力,目標是改善 AI 系統支援年輕使用者的方式。
「青少年 AI 安全領域長期存在的一大缺口,在於缺乏清楚且可落實的政策,讓開發者能據此建構系統。許多開發者往往只能從零開始。這些以提示詞為基礎的政策,有助於在整個生態系中建立具體且一致的安全下限;同時,由於採開放原始碼形式釋出,也能隨時間持續調整與完善。看到這類基礎設施越來越普及,我們振奮不已,也希望能帶動整個產業,建立更多共同參考的青少年安全起點。」
—Robbie Torney,Common Sense Media AI 與數位評量主管
「這類努力將專家知識轉化為可在實際系統中採用的指引,讓青少年安全政策更具可操作性,因而極具價值。內容政策是關鍵的第一步,為後續更深入探討模型行為如何長期影響青少年相關風險打下基礎。受到這項工作與我們自身研究的啟發,everyone.ai(在新視窗中開啟) 也已建立一套初步的行為政策,聚焦於排他性與過度依賴等風險。」
—Dr. Mathilde Cerioli,everyone.AI 首席科學家
這些政策只是起點,並非對青少年安全的完整或最終定義,也不提供任何保證。每個應用程式的風險、受眾與使用情境都不同,而開發者最清楚其產品與 AI 整合可能帶來的風險。我們強烈建議開發者依自身需求調整、延伸這些政策,並搭配其他防護機制使用,例如產品設計、使用者控制、對青少年友善的透明度措施、監測系統,以及符合年齡的回應方式。
我們認為,採用分層式縱深防禦策略,是打造更安全 AI 系統的關鍵。這些政策參考我們的內部經驗,但並未涵蓋 OpenAI 內部所有政策與防護措施。
我們透過 ROOST 模型社群(在新視窗中開啟),以開放原始碼形式釋出這些政策,鼓勵協作與持續改進。若想參與貢獻、提供回饋,或分享更多青少年安全政策,請前往 RMC GitHub 程式碼庫(在新視窗中開啟)。
開發者與組織可依自身應用情境調整這些政策,翻譯成不同語言,並擴充至其他風險領域。長期而言,我們希望這能協助建立更穩固且可共享的基礎,讓 AI 系統更容易落實安全政策。
若要開始使用 gpt-oss-safeguard,請從 Hugging Face(在新視窗中開啟) 下載。


