本日、開発者が10代のユーザーに適した保護機能を実装できるよう、プロンプトベースの安全ポリシー(新しいウィンドウで開く)を公開します。これらのポリシーは、当社のオープンウェイトの安全性モデルである gpt-oss-safeguard(新しいウィンドウで開く) と連携して動作するよう設計されています。これにより、安全要件を、実運用で利用できる分類器へと変換するプロセスが簡素化されます。
私たちは、強力な AI へのアクセスを広く開放し、幅広いイノベーションを支えるために、オープンウェイトモデルを公開しました。同時に、安全性とイノベーションは両立すべきものだと考えています。開発者は、高性能なモデルに加え、それらを安全かつ責任ある形で導入するためのツールやポリシーにもアクセスできるべきです。これらのポリシーは、若年ユーザーの保護に取り組む開発者を支援するために策定されました。Common Sense Media(新しいウィンドウで開く) や everyone.ai(新しいウィンドウで開く) など、信頼できる外部組織の知見も反映しています。
10代のユーザーと成人ではニーズが異なり、10代のユーザーには追加の保護が必要であると認識しています。これらのポリシーは、開発者がそうした違いを踏まえ、若年ユーザーにとって適切で、主体的な利用を促す体験を構築できるようにしています。
OpenAI はこれまで、若者の機会を広げると同時に、その安全を守る AI の開発に継続的に取り組んできました。この取り組みの一環として、OpenAI のモデルに意図された振る舞いを定義するガイドラインである Model Spec(新しいウィンドウで開く) を更新し、18歳未満(U18)に関する原則(新しいウィンドウで開く)を追加しました。また、若年ユーザーをより適切に保護するため、ペアレンタルコントロールや年齢推定といった製品レベルの安全対策も導入しました。また、ティーンの安全性ブループリントを通じて、業界全体での保護強化を提唱してきました。
本日のリリースは、こうした取り組みを基盤としています。これらの安全ポリシーは、開発者が10代のユーザー向けの安全対策を導入できるようにするために提供されています。また、オープンウェイトのエコシステム全体で活用を広げることも目的としています。
gpt-oss-safeguard のような安全性分類器は有害なコンテンツを検出できますが、その前提として、その内容を明確に定義する必要があります。実際には、10代特有のリスクを的確に捉えること自体が難しい課題です。さらに、それを実運用でも一貫して適用できるポリシーとして定義する必要があります。
経験豊富なチームであっても、高レベルの安全目標を正確で運用可能なルールに落とし込むことは容易ではありません。特に、それには対象分野に関する専門知識と AI に関する深い知識の両方が求められるためです。その結果、保護の抜け漏れや適用のばらつき、あるいは過度に広範なフィルタリングが生じる可能性があります。明確で適切に範囲が定められたポリシーは、効果的な安全システムを支える重要な基盤です。
この課題に対応するため、10代のユーザーが直面しやすいリスクを踏まえ、発達段階の違いに関する既存研究も参考にしたうえで、安全ポリシー(新しいウィンドウで開く)一式を公開します。これらのポリシーは、gpt-oss-safeguard(新しいウィンドウで開く) や他のリーズニングモデルで直接使用できるプロンプトとして構成されており、開発者がシステム全体で一貫した安全基準をより容易に適用できるようにします。
初回リリースでは、以下の分野を対象とするポリシーを提供します。
- 露骨な暴力的コンテンツ
- 露骨な性的コンテンツ
- 有害な身体イメージおよび行動
- 危険な行為や危険なチャレンジ
- 恋愛または暴力的なロールプレイ
- 年齢制限のある商品およびサービス
これらのポリシーは、リアルタイムのコンテンツフィルタリングに加え、ユーザー生成コンテンツのオフライン分析にも活用できます。
ポリシーをプロンプトとして構成することで、開発者は既存のワークフローに組み込みやすくなり、自身のユースケースに合わせた調整や継続的な改善が可能になります。

これらのポリシーの策定にあたり、Common Sense Media(新しいウィンドウで開く) や everyone.ai(新しいウィンドウで開く) を含む外部組織と連携しました。こうした専門知見により、対象とするコンテンツの範囲が整理され、プロンプトの構成が強化されるとともに、評価時に考慮すべきエッジケースも精緻化されました。
これは、AI システムが若者をより適切に支援できるよう、専門家やエコシステム全体と連携して進めている継続的な取り組みです。
「10代向けの AI 安全性における大きな課題の一つは、開発者が基盤として活用できる、明確で運用可能なポリシーが不足していることです。多くの場合、開発者はゼロから取り組まざるを得ません。これらのプロンプトベースのポリシーは、エコシステム全体における実用的な安全基準の底上げに役立ちます。また、オープンソースとして公開されているため、継続的な改善や応用が可能です。このような基盤が広く提供されていることを心強く感じています。これが、業界全体で若者の安全に関する共通の出発点を広げるきっかけになることを期待しています。」
—Common Sense Media、AI・デジタル評価責任者 Robbie Torney 氏
「このように若者の安全に関するポリシーを実運用に結びつける取り組みは、専門知識を実際のシステムで活用できるガイダンスへと落とし込む点で価値があります。コンテンツポリシーは重要な第一歩です。また、モデルの振る舞いが若者に関わるリスクに与える影響について、より広く取り組むための出発点にもなります。この取り組みと私たち自身の研究に着想を得て、everyone.ai(新しいウィンドウで開く) も、排他性や過度な依存といったリスクに焦点を当てた、初期的な行動ポリシーを策定しました。」
—everyone.AI、チーフサイエンティスト Mathilde Cerioli 博士
これらのポリシーはあくまで出発点です。10代のユーザーの安全を網羅的に定義したり、保証したりするものではありません。アプリケーションごとにリスクや対象ユーザー、利用状況は異なります。自社の製品や AI の統合によって生じるリスクを最もよく理解しているのは開発者です。開発者には、これらのポリシーをそれぞれのニーズに応じて調整・拡張し、製品設計上の判断、ユーザーコントロール、10代のユーザーに配慮した透明性、モニタリングシステム、年齢に応じた適切な対応といった他の安全対策と組み合わせて活用することを強く推奨します。
より安全な AI システムの構築には、多層防御(defense in depth)の考え方が不可欠だと考えています。これらのポリシーは社内での知見に基づいていますが、OpenAI の社内ポリシーや安全対策のすべてを反映したものではありません。
これらのポリシーは、コラボレーションと継続的な改善を促進するため、ROOST Model Community(新しいウィンドウで開く) を通じてオープンソースとして公開しています。貢献やフィードバックの提供、10代向けの追加の安全ポリシーの共有については、RMC の GitHub リポジトリ(新しいウィンドウで開く)をご覧ください。
開発者や組織は、これらのポリシーを各アプリケーションに合わせて調整し、さまざまな言語に翻訳したり、追加のリスク領域に対応できるよう拡張したりできます。今後、これが AI システムにおける安全ポリシー実装のための、より堅牢で、広く共有できる基盤の構築につながることを期待しています。
gpt-oss-safeguard を使い始めるには、Hugging Face(新しいウィンドウで開く) からダウンロードしてください。


