跳至主要内容
OpenAI

2026年3月24日

安全

助力开发者为青少年打造更安全的 AI 体验

推出一套适配 gpt-oss-safeguard 的青少年安全策略提示词

正在加载…

今天,我们正式发布了基于提示词的安全策略(在新窗口中打开),旨在帮助开发者为青少年群体构建符合其年龄特点的安全防护机制。该策略配合我们的开放权重安全模型 gpt-oss-safeguard(在新窗口中打开) 使用,能够大幅简化开发流程,将抽象的安全需求直接转化为适用于真实系统的分类器。

我们发布开放权重模型,初衷是希望推动 AI 技术的普惠与广泛创新。与此同时,我们坚信安全与创新并行不悖 — 开发者在获取强大模型能力的同时,也应当拥有配套的工具与策略,以确保其部署过程安全且负责。为了更好地保护未成年用户,我们在制定这些策略时深度咨询了 Common Sense Media(在新窗口中打开)everyone.ai(在新窗口中打开) 等权威外部机构。

我们深知青少年与成年人的需求各异,前者需要更周全的保护。因此,这套策略将协助开发者充分考量这些差异,在为年轻用户赋能的同时,打造一个健康、适宜的应用环境。

立足于我们在青少年保护领域的深厚积淀

我们长期致力于在确保安全的前提下,通过 AI 技术为青少年创造更多机遇。作为这项工作的核心,我们更新了模型规范(在新窗口中打开) — 即定义 OpenAI 模型行为准则的指南 — 正式将“18岁以下 (U18) 保护原则”(在新窗口中打开)纳入其中。此外,我们还推出了一系列产品层面的安全措施,如家长控制功能和年龄预测机制,以全方位守护年轻用户。同时,我们通过发布青少年安全蓝图,积极倡导建立全行业通行的保护标准。

今天的发布正是基于这些深厚的积淀。我们向开发者开放这些安全策略,旨在支持他们在开源模型生态中更便捷地部署青少年防护方案,让安全技术真正走向普惠。

将青少年安全准则转化为清晰的可落地策略

虽然像 gpt-oss-safeguard 这样的安全分类器可以识别违规内容,但其有效性高度依赖于对“违规”的精准定义。在实际操作中,开发者面临的最大挑战之一,就是如何制定既能精准捕捉青少年特定风险,又能在真实系统中稳定执行的安全策略。

即使是经验丰富的团队,往往也难以将宏观的安全目标拆解为精确的可操作规则。这不仅需要深厚的行业背景知识,还需要对 AI 底层逻辑有深刻理解。这种转化上的脱节,容易导致防护出现真空地带、执行标准不一,或是出现“误伤”过多的重度过滤。因此,清晰且界限明确的安全策略,才是构建高效安全体系的关键基石。

赋能开发者:让青少年安全防护高效落地

为了应对这一挑战,我们正式发布了一套安全策略(在新窗口中打开)。这套策略专门针对青少年面临的常见风险量身定制,并参考了关于青少年身心发展差异的深度研究。这些策略以“提示词 (Prompt)”的形式呈现,可以直接应用于 gpt-oss-safeguard(在新窗口中打开) 及其他推理模型,帮助开发者在整套系统中更轻松地执行统一的安全标准。

首批发布的策略涵盖以下方面:

  • 血腥暴力内容
  • 露骨色情内容
  • 不良身体审美导向与行为
  • 危险活动与挑战
  • 浪漫或暴力色情角色扮演
  • 年龄受限的商品与服务

这些策略既可用于实时内容过滤,也可用于对用户生成内容 (UGC) 的离线分析。

通过将策略“提示词化”,开发者能够更方便地将其集成到现有工作流中,并根据具体应用场景进行灵活调整与版本迭代。

图示:青少年安全策略分类及相关内容输入 gpt-oss-safeguard 系统,由系统基于内部推理逻辑输出安全决策。

汇聚外部专家智慧:联合共建安全标准

在制定这些策略的过程中,我们与 Common Sense Media(在新窗口中打开)everyone.ai(在新窗口中打开) 等外部机构开展了深度合作。他们的专业见解帮助我们明确了内容覆盖范围、优化了提示词结构,并细化了评估过程中需要考量的边缘案例(Edge Case)。

这一成果体现了我们与专家及业界伙伴持续协作的决心,旨在共同提升 AI 系统对青少年群体的支持能力。

“长期以来,青少年 AI 安全领域最大的短板之一,就是缺乏一套可供开发者直接参考、易于落地的操作规范。很多时候,开发者不得不从零开始。这些基于提示词的策略为整个行业生态设定了极具意义的安全基准线;得益于其开源属性,这些策略还能随时间不断演进与完善。我们很高兴看到这种基础架构能够向社会广泛开放,并希望它能带动行业内形成关于青少年安全的共识起点。”

Robbie Torney,Common Sense Media AI 与数字评估负责人

“将青少年安全策略转化为可操作规范的努力非常有价值。这有助于将专家知识转化为能够直接应用于真实系统的指导方针。内容策略只是关键的第一步,它也为深入研究模型行为的演变及其对青少年风险的影响奠定了基础。受此项工作及我们自身研究的启发,everyone.ai(在新窗口中打开) 也制定了首个行为策略,侧重于应对排他性和过度依赖风险。”

Mathilde Cerioli 博士,everyone.AI 首席科学家

安全防护的起点,而非终点

需要说明的是,这些策略只是安全防护的起点,而非对青少年安全的详尽定义、最终结论或绝对保证。每个应用场景都具有独特的风险、受众和语境,开发者最了解其产品及 AI 集成可能带来的具体风险。我们强烈建议开发者根据自身需求,对这些策略进行调整与扩充,并将其与其他防护措施相结合 — 包括产品设计方案、用户控制功能、面向青少年的透明度机制、监测系统,以及贴合年龄段的回复。

我们坚信,构建更安全的 AI 系统必须采用纵深防御⁠策略。这些策略借鉴了我们的内部实践经验,但并不等同于 OpenAI 内部完整、全方位的安全策略或防护体系。

展望未来:共建安全生态

为了鼓励协作与持续迭代,我们正通过 ROOST 模型社区(在新窗口中打开)以开源形式发布这些策略。欢迎访问 RMC GitHub 代码仓库(在新窗口中打开)参与贡献、提供反馈,或分享更多青少年安全策略。

无论是开发者还是企业机构,都可以根据具体的应用场景,对这些策略进行灵活调整、多语言本地化,或将其扩展至更多的风险领域。我们期待随着时间的推移,这些努力能为 AI 系统安全策略的落地筑起更坚实、更广泛的行业共识。

如需开始使用 gpt-oss-safeguard,请前往 Hugging Face(在新窗口中打开) 下载。