メインコンテンツにスキップ
OpenAI

2025年10月29日

安全性リリース

テクニカルレポート

gpt-oss-safeguard-120b と gpt-oss-safeguard-20b の性能評価と基準評価

はじめに

gpt-oss-safeguard-120b と gpt-oss-safeguard-20b は、gpt-oss モデルを基に事後学習させたオープンウェイトのリーズニングモデルであり、与えられたポリシーに基づいて推論し、そのポリシーの下でコンテンツにラベル付けを行うように学習させたものです。この2つのモデルは、Apache 2.0ライセンスおよび gpt-oss 利用規定の下で利用可能です。オープンソースコミュニティのフィードバックを反映して開発されたテキストベースのモデルで、当社の Responses API に対応しています。これらのモデルはカスタマイズが可能で、完全な思考の連鎖(CoT)および Structured Outputs に対応し、低、中、高の3段階の推論レベルで使用できます。

本レポートでは、gpt-oss-safeguard モデルの機能を説明し、基盤となる gpt-oss モデルを比較基準として用いた安全性評価の結果を示します。基盤となる gpt-oss モデルの開発とアーキテクチャの詳細については、元の gpt-oss モデルのモデルカードをご覧ください。

これらのモデルは、与えられたポリシーに基づいてコンテンツを分類する用途での使用をお勧めします。エンドユーザーが直接操作・対話する主要機能としては使用しないでください。そのような用途には、元の gpt-oss モデルの方が適しています。以下に示す安全性指標は、gpt-oss-safeguard モデルがチャット環境でどのように動作するかを示しています。gpt-oss-safeguard モデルはこのような目的で使うことを想定していませんが、オープンモデルであるため、技術的にはそのような使い方も可能です。そのような利用が行われる可能性を踏まえ、当社の安全基準を満たしているかどうかを検証しました。本レポートでは、その検証結果を掲載しています。また、チャット環境における多言語での性能について、初期評価の結果も掲載します。ただし、これは、与えられたポリシーに基づくコンテンツ分類時の性能を直接評価したものではありませんので、その点をご留意ください。

gpt-oss-safeguard モデルは、対応する gpt-oss モデルをファインチューニングして構築されたものであり、学習過程で生物学的データやサイバーセキュリティ関連データは追加していません。その結果、gpt-oss モデルのリリース時に行われたリスク評価(最悪のシナリオの推定)は、今回の新しいモデルにも適用できると判断しました。

著者

OpenAI