2026年3月24日

協助開發者打造更安全的青少年 AI 體驗

推出一組以提示詞形式設計、可用於 gpt-oss-safeguard 的青少年安全政策

載入中…

我們今天推出以提示詞為基礎的安全政策⁠(在新視窗中開啟)，協助開發者為青少年建立符合年齡的保護機制。這些政策可搭配我們的開放權重安全模型 gpt-oss-safeguard⁠(在新視窗中開啟) 使用，協助開發者將安全需求轉化為可在實際系統中運作的分類器。

我們推出開放權重模型，讓更多人能使用強大的 AI，並促進創新發展。同時，我們相信安全與創新應並行發展。開發者需要的不只是強大的模型，還包括能安全、負責任部署模型的工具與政策。我們制定這些政策，是為了協助開發者強化保護年輕使用者的安全措施，並參考了包括 Common Sense Media⁠(在新視窗中開啟) 和 everyone.ai⁠(在新視窗中開啟) 在內的可信外部組織意見。

我們理解青少年與成人的需求不同，青少年需要額外的保護。這些政策協助開發者將這些差異納入考量，打造既能支持年輕使用者成長，又符合其年齡的使用體驗。

延續我們在保護年輕使用者方面的整體工作

我們長期致力於打造能在保障安全的同時，為年輕人拓展機會的 AI。作為這項工作的一部分，我們更新了模型規範⁠(在新視窗中開啟)，也就是界定 OpenAI 模型預期行為的準則，納入未滿 18 歲 (U18) 原則⁠(在新視窗中開啟)，並推出產品層級的防護措施，例如家長控制⁠和年齡預測⁠，進一步強化對年輕使用者的保護。我們也透過青少年安全藍圖⁠，呼籲業界建立更全面的保護機制。

今天發布的內容延續了上述基礎。我們將這些安全政策提供給開發者，協助在系統中落實青少年保護措施，同時讓開放權重生態系中更多人能使用這些資源。

將青少年安全轉化為清楚、可實際運用的政策

雖然像 gpt-oss-safeguard 這類安全分類器能偵測有害內容，但首先必須先對這些內容做出清楚且一致的定義，才能讓分類器有效運作。在實務上，開發者面臨的一大挑戰，是如何制定既能準確涵蓋青少年特有風險，又能在實際系統中穩定套用的政策。

這項工作同時需要領域專業與深厚的 AI 知識，即使是對經驗豐富的團隊來說，要把高層次的安全目標轉化為精確且可執行的規則，也並非易事。這種落差可能導致保護出現漏洞、執行標準不一致，或篩選過於寬鬆。清楚且範圍界定明確的政策，是建立有效安全系統的關鍵基礎。

協助開發者將青少年安全落實到實際系統中

為了因應這項挑戰，我們推出一套安全政策⁠(在新視窗中開啟)，針對青少年常見風險設計，並參考既有研究中對青少年發展差異的分析。這些政策以提示詞形式呈現，可直接搭配 gpt-oss-safeguard⁠(在新視窗中開啟) 及其他推理模型使用，讓開發者更容易在系統中套用一致的安全標準。

初始版本包含以下政策：

具血腥描寫的暴力內容
具露骨描寫的性內容
不健康的身體觀念與行為
危險活動與挑戰
浪漫或暴力情境的角色扮演
受年齡限制的商品與服務

這些政策可用於即時內容篩選，以及離線分析使用者生成內容。

將政策設計為提示詞後，開發者更容易整合至既有工作流程，依實際情境調整，並持續改進。

圖表描繪青少年安全政策分類，以及青少年相關內容，兩者一同輸入 GPT-OSS safeguard 系統，並由系統依內部推理產生政策決策。

結合外部專家意見共同制定

我們與外部組織合作，包括 Common Sense Media⁠(在新視窗中開啟) 和 everyone.ai⁠(在新視窗中開啟)，為這些政策的制定提供依據。我們借重這些組織的專業來界定涵蓋範圍、強化提示詞結構，並釐清評估時需要考量的邊緣情境。

這項工作展現我們持續與專家及整體生態系合作的努力，目標是改善 AI 系統支援年輕使用者的方式。

「青少年 AI 安全領域長期存在的一大缺口，在於缺乏清楚且可落實的政策，讓開發者能據此建構系統。許多開發者往往只能從零開始。這些以提示詞為基礎的政策，有助於在整個生態系中建立具體且一致的安全下限；同時，由於採開放原始碼形式釋出，也能隨時間持續調整與完善。看到這類基礎設施越來越普及，我們振奮不已，也希望能帶動整個產業，建立更多共同參考的青少年安全起點。」

—Robbie Torney，Common Sense Media AI 與數位評量主管

「這類努力將專家知識轉化為可在實際系統中採用的指引，讓青少年安全政策更具可操作性，因而極具價值。內容政策是關鍵的第一步，為後續更深入探討模型行為如何長期影響青少年相關風險打下基礎。受到這項工作與我們自身研究的啟發，everyone.ai⁠(在新視窗中開啟) 也已建立一套初步的行為政策，聚焦於排他性與過度依賴等風險。」

—Dr. Mathilde Cerioli，everyone.AI 首席科學家

作為起點，而非完整解決方案

這些政策只是起點，並非對青少年安全的完整或最終定義，也不提供任何保證。每個應用程式的風險、受眾與使用情境都不同，而開發者最清楚其產品與 AI 整合可能帶來的風險。我們強烈建議開發者依自身需求調整、延伸這些政策，並搭配其他防護機制使用，例如產品設計、使用者控制、對青少年友善的透明度措施、監測系統，以及符合年齡的回應方式。

我們認為，採用分層式縱深防禦策略⁠，是打造更安全 AI 系統的關鍵。這些政策參考我們的內部經驗，但並未涵蓋 OpenAI 內部所有政策與防護措施。