本日、安全性分類タスク用のオープンウェイトリーズニングモデル、gpt-oss-safeguard の研究プレビューをリリースしました。gpt-oss-safeguard-120b と gpt-oss-safeguard-20b の2種類のサイズで提供されます。これらのモデルは、gpt-oss オープンモデルのファインチューニングバージョンで、同じ寛容型 Apache 2.0ライセンスで利用できるため、誰でも自由に使用、変更、デプロイできます。どちらのモデルも、Hugging Face(新しいウィンドウで開く) から今すぐダウンロードできます。
gpt-oss-safeguard モデルは推論を使用して、推論時に開発者が指定するポリシーを直接解釈し、開発者のニーズに応じてユーザーメッセージやコンプリーション、チャットの全体を分類します。常に開発者自身がどのポリシーを使用するかを決定できるため、回答の関連性が高くなり、開発者のユースケースに合ったものになります。このモデルは思考の連鎖を使用し、開発者はこれをレビューすることでモデルがどのようにして決定に至ったのかを把握できます。さらに、ポリシーはモデルの学習に使用されるのではなく、推論時に指定されるため、開発者は、ポリシーを反復的に修正してパフォーマンスを容易に向上させることができます。当初、OpenAI の社内利用のために開発されたアプローチですが、ラベル付きの多数の例から決定境界を間接的に推測するようにクラシファイアを学習させる従来の方法と比較してはるかに柔軟性があります。
gpt-oss-safeguard を使用することで、開発者はユースケースに最適なポリシーの枠組みを引き出すことができます。たとえば、ビデオゲームのディスカッションフォーラムで、ゲーム内の不正行為について議論する投稿を分類するポリシーの作成が必要な場合や、製品レビューサイトでは、フェイクのように見えるレビューをスクリーニングするための独自ポリシーが必要となる場合を考えてみましょう。
モデルは、ポリシーとそのポリシーに基づいて分類する対象になるコンテンツの2つの入力を同時に受け取り、コンテンツがどこに該当するかについての結論を推論とともに出力します。開発者は、得られた結論を独自の安全性パイプラインでどのように使用するかを決定できます。この推論ベースのアプローチは、次の状況で特に効果を発揮することが判明しています。
- 潜在的な被害が出現または拡大しており、ポリシーを迅速に適応させる必要がある。
- ドメインに小規模なクラシファイアでは処理が困難な非常に微妙なニュアンスがある。
- プラットフォーム上の各リスクに対して高品質のクラシファイアを学習させるだけのサンプルが開発者の手元にない。
- レイテンシが、高品質で説明可能なラベルを生成することほど重要ではない。
当社は gpt-oss-safeguard のプレビューをリリースして、リサーチと安全性に関するコミュニティからのフィードバックを受け、モデルのパフォーマンスをさらに反復改善していきます。当社は数か月にわたり、ROOST(新しいウィンドウで開く) と協力してこのオープンウェイトモデルのリリースに取り組み、開発者の重要なニーズを割り出してモデルをテストし、開発者向けドキュメントを作成しました。この立ち上げの一環として、ROOST は本日、オンラインスペースを保護するためのオープン AI モデルを模索するモデルコミュニティ(新しいウィンドウで開く)を立ち上げます。このリリースに歩調を合わせ、当社ではこのプレビューモデルの安全性能を詳しく説明した短い技術レポートを公開します。
安全性に関して、当社では多層防御を重視しています。安全に回答するようにモデルを学習させ、追加の保護レイヤーを実装し、ポリシーに従って安全でない可能性がある入出力を検出して対処するようにしています。特定のリスク領域で安全なコンテンツと安全でないコンテンツを区別する安全性クラシファイアは、長きにわたり当社自体、また他の大規模言語モデルの主要な防御層となってきました。
当社の Moderation API(新しいウィンドウで開く) を介して提供されるものなど、従来の安全性クラシファイアは、事前定義された安全性ポリシーに基づいて、安全なコンテンツと安全でないコンテンツの何千もの例を手動で準備することによって開発されています。この学習データから、クラシファイアは安全な出力と安全でない出力を区別することを学習します。この従来のアプローチでは、クラシファイアが実際に安全ポリシーを確認することはありません。その代わりに、安全でないとラベル付けされたコンテンツの類似点と、安全でないコンテンツと安全なコンテンツの相違点を見つけることで、例をラベル付けするために使用された基盤のポリシーを推測しようとします。
従来のクラシファイアは、低レイテンシで運用コストが低く、かつ高いパフォーマンスを実現します。しかし、十分な量の学習例の収集には時間とコストがかかり、ポリシーの更新または変更にも、クラシファイアの再学習が必要です。
gpt-oss-safeguard は、その推論機能により、開発者が自分で作成したポリシーや他のソースから取得したポリシーをはじめ、あらゆるポリシーを適用できる点と、推論機能によって新たに作成されたポリシーをモデルで一般化できる点で他と異なっています。安全性ポリシー以外にも、gpt-oss-safeguard は特定の製品やプラットフォームに対して有意義な方法でコンテンツにラベル付けする際にも使用できます。
当社の主要なリーズニングモデルは、安全性ポリシーを直接学習し、その推論機能を活かして何が安全であるかを推論します。当社が熟慮的アライメントと呼んでいるこのアプローチは、以前の安全性学習方法を大幅に改善したもので、いくつかの側面において当社のリーズニングモデルの安全性が非推論の先行モデルよりも(機能が増えているにもかかわらず)強化されています。また、推論はモデル自体の学習に役立つだけではありません。これによって多層防御の新たな可能性も生まれます。推論ベースのアプローチは柔軟性が高く、以前の学習の詳細による制限が少ないため、場合によっては追加の計算コストとレイテンシを考慮に入れてもそれ以上の利点があります。
gpt-oss-safeguard は、Safety Reasoner と呼ばれるツールによって当社が社内で開発したアプローチのオープンウェイト実装です。ポリシーのラベル付けタスクのファインチューニング強化から手を付け、人間の専門家による正しい判断を反映した場合にモデルに報酬を与えました。これにより、モデルはポリシーがどのように判断につながるのかを推論できるようになりました。現在、Safety Reasoner を使用すると、クラシファイアを再学習するよりも短時間で、運用中の安全性ポリシーを動的に更新できます。こうしたことから Safety Reasoner は反復型開発の主要ツールになりました。新しいモデルを運用環境に導入するときは、たいていの場合はより厳格なポリシーから始め、Safety Reasoner がそれらのポリシーを慎重に適用できるように、必要に応じて比較的大量の計算リソースを使用します。その後、運用におけるリスクについての理解の進行に応じてポリシーを調整します。当社の最近のリリースの一部では、安全性の推論に費やされる計算全体の割合が16%にも達しました。
Safety Reasoner は、当社の安全性スタックの主要コンポーネントになりました。画像生成と Sora 2では、動的で段階的な出力評価を実行し、安全でない生成をリアルタイムで識別してブロックします。生物学や自傷行為などの領域では、Moderation API で使用されるようなモデルを、小型で高速、かつ再現率の高いクラシファイアとして実行し、どのコンテンツが関心ドメイン内にあるかを判断し、Safety Reasoner を使用してそのコンテンツをレビューします。Safety Reasoner は、詳細な分類法に基づいてモデル出力を分類して、最適な対応方法を決定し、GPT‑5 や ChatGPT エージェントなどのシステム全体にわたる多層的な安全対策の一部を形成します。そして現在は、gpt-oss-safeguard モデルにより、誰もが同じアプローチを利用できるようになりました。
当社は gpt-oss-safeguard モデルを内部評価セットと外部評価セットの両方で評価しました。
内部評価では、推論時に複数のポリシーを同時に gpt-oss-safeguard に指定しました。テスト入力ごとに、gpt-oss-safeguard が含まれているポリシーすべてに基づいてテキストを正しく分類できるかどうかを評価します。これは困難なタスクです。モデルは、含まれているポリシーすべてのゴールデンセットラベルと完全に一致する場合にのみ正確であるとみなされます。
当社の gpt-oss-safeguard モデルと社内 Safety Reasoner は、マルチポリシーの精度において gpt-5-thinking および gpt-oss オープンモデルよりも優れていました。gpt-oss-safeguard モデルが gpt-5-thinking よりも優れていることは、以前のモデルサイズが小さいことを考えると、特に驚くべきことです。
さらに、2022年の研究論文(新しいウィンドウで開く)で公開した管理データセット(新しいウィンドウで開く)と、オープンソースチャットボットへのユーザークエリに基づく公開ベンチマーク、ToxicChat(新しいウィンドウで開く) で、これらのモデルを評価しました。
2022年の管理評価セットでは、社内の安全性ポリシー(その後の変更を考慮して1つのポリシーを調整)を使用して評価しました。gpt-oss-safeguard は、社内 Safety Reasoner や gpt-5-thinking など、テストした他のすべてのモデルよりもわずかに優れていたものの、Safety Reasoner と gpt-oss-safeguard 間の差は統計的に有意ではありませんでした。
ToxicChat については、社内ポリシーの一部を基に作成した短い手書きのプロンプトを使用して評価しました。社内 Safety Reasoner はここでも gpt-5-thinking を上回り、gpt-5-thinking と Safety Reasoner はどちらも gpt-oss-safeguard-120b と gpt-oss-safeguard-20b をわずかに上回りました。gpt-oss-safeguard は比較的サイズが小さいため、このタイプのタスクに適していると考えられます。
gpt-oss-safeguard には固有の制限事項が2つあります。まず、数万の高品質のラベル付きサンプルで学習したクラシファイアは、ポリシーから直接推論する場合、gpt-oss-safeguard よりもコンテンツ分類において優れたパフォーマンスを発揮することが分かりました。より複雑なリスクでより高いパフォーマンスを得るには、専用クラシファイアの学習に時間をかけることが好ましいといえます。
第2に、gpt-oss-safeguard は多くの時間を要し、計算量が非常に多いため、すべてのプラットフォームコンテンツにわたって拡張することは困難です。社内では、Safety Reasoner を使用して、(1) どのコンテンツを評価するかを決定するために、より小型で高速なクラシファイアを使用する、(2) 状況によっては、Safety Reasoner を非同期的に使用して、安全でないコンテンツが検出された場合に介入する機能を維持しながら低レイテンシのユーザーエクスペリエンスを提供する、といった方法で処理しています。
gpt-oss-safeguard は、OpenAI がコミュニティと共同で構築した初の安全性のためのオープンモデルセットです。初期テストの一環として、SafetyKit、ROOST、Tomoro、Discord の信頼性と安全性の専門家と協力して、gpt-oss-safeguard を反復改良してきました。ROOST CTO の Vinay Rao 氏は次のように述べています。「gpt-oss-safeguard は、『独自のポリシーとリスクの定義を適用できる』設計を採用した初めてのオープンソースリーズニングモデルです。組織には、重要な安全技術を自由に研究、修正、使用し、革新できる権利があります。実施したテストによると、このモデルセットはさまざまなポリシーを理解して推論過程を説明し、ポリシーを適用する際のニュアンスを示すことに長けています。これにより、ビルダーや安全対策チームにとって有益なものとなると確信しています」
OpenAI は、ROOST Model Community (RMC)などを通じてコミュニティと連携し、オープンセーフティツールの改善に引き続き取り組んでいきます。RMC は、安全性に関する実務家や研究者を集め、評価結果やモデルフィードバックなど、オープンソース AI モデルを安全性ワークフローに実装するためのベストプラクティスを共有します。このパートナーシップおよび参加方法の詳細については、RMC GitHub リポジトリ(新しいウィンドウで開く)をご覧ください。
これらのモデルを使って構築を開始するには、Hugging Face(新しいウィンドウで開く) からダウンロードしてください。

