ハード拒否から出力中心の安全性学習に向かう安全なコンプリーションへ
GPT‑5 に導入された安全なコンプリーションは、厳しい安全性の制約の中でもモデルの実用性を最大限に引き出すための、新しい安全性学習アプローチです。従来の拒否ベースの学習と比べ、安全なコンプリーションは安全性と有用性の両面で優れており、特にデュアルユースの領域でその効果が顕著です。
花火に点火する最小限の労力をユーザーから質問された場合、ChatGPT は役立つ回答を返しますか?ユーザーの意図は、7月4日の花火大会の準備かもしれませんし、学校の研究課題に関する質問かもしれません。一方で、爆発物の製造を目的としている可能性も考えられます。つまり、有用な回答を返すことは、ユーザーの(見かけの)意図によって無害にも有害にもなり得ます。このようなプロンプトがデュアルユースです。つまり、質問の意図が不明確なため、情報の用途は無害にも悪質にもなり得ます。デュアルユースの問題は、生物学とサイバーセキュリティのリスク領域で特に広まっています。
これまで、ChatGPT などの製品モデルは、ユーザーのプロンプトにモデルが完全に従うか拒否するかという、拒否ベースの安全性学習に依存していました。このタイプの学習は、明らかに有害なプロンプトについてはかなり適切に処理できますが、花火の例のようなデュアルユースのプロンプトについては苦戦する可能性があります。その場合、拒否学習モデルは、プロンプトがどの程度有害になると認識するかに基づいて二者択一の決定を行い、完全に従うか(ユーザーが悪意をもって情報を使用する場合は危険な可能性がある)、拒否して「申し訳ありません。それはお手伝いできません」と答えます(ユーザー本気で花火を改善しようとしている場合には、役に立たない)。
GPT‑5では、安全性学習の新しい形態として、安全なコンプリーションを導入しました。これは、安全な境界を維持しながら可能な限り最も有用な回答を返すようにモデルに学習させるものです。このアプローチは、よりきめ細かい処理が可能で、デュアルユースの質問に適切に対処するのに役立つとわかりました。
プロンプト
OpenAI o3(拒否学習)
GPT-5(安全なコンプリーション学習)
花火への点火について指示を求める困難なデュアルユースのプロンプトに、OpenAI o3 と GPT‑5 が回答します。拒否学習が行われた o3 は、意図に過剰反応します。プロンプトが無害であると判断し、そのために質問に完全に従います。一方、安全なコンプリーションで学習した GPT‑5 は、完全には従うことができない理由を説明し、適切なマニュアルを確認するというおおまかなガイダンスのみを提供します。
安全なコンプリーションは、ユーザーの入力に従って拒否境界を決定するのではなく、モデルの出力に関する安全性学習に重点をおきます。具体的には、これは次の2つの学習パラメーターによって実装されます。
- 安全制約:事後学習中に、安全なコンプリーション報酬によって、当社の安全ポリシーに違反するモデルの回答にペナルティが課されます(違反の重大度に応じてペナルティが高くなります)。
- 有用性の最大化:安全なモデル回答については、その有用性に基づいてモデルに報酬を与えます。これはユーザーが指定した目的に従って直接行うことも、有用で安全な対案という情報を提供する拒否により間接的に行うこともあります。
当社では安全なコンプリーションを GPT‑5(推論とチャットモデルの両方)に組み込み、その安全なコンプリーション学習によって、拒否ベースの学習と比べて安全性と有用性の両方が大幅に改善することがわかりました。OpenAI o3 と公平に比較するために、GPT‑5 Thinking と o3 の性能比較をレポートにまとめました。 製品モデルと対照実験の両方の比較により、安全なコンプリーションはデュアルケースの問題に特に適していることがわかりました。以下の数字は、安全な回答に関する安全性スコアと平均的な有用性スコアを比較したものです。
安全な回答であることを前提に、安全性と有用性を意図別に評価(OpenAI o3 と GPT‑5 Thinking の比較。GPT‑5 Thinking は「gpt5-r」と表記)。GPT‑5 Thinking は安全性と有用性の両方で OpenAI o3 を上回ります。
従うか拒否するという二者択一の決定に先立ち、安全なコンプリーション学習は、モデルが従うときでも、安全ではない可能性があるコンテンツに関して控えめな回答を返すように勧めます。当社の実験では、安全なコンプリーションモデルが間違いを犯す際、その安全ではない出力は、拒否学習モデルの安全ではない出力よりも重大度が低いことがわかりました。
安全ではない回答に対する危害重大度の分析(OpenAI o3 と GPT‑5 Thinking の比較。GPT‑5 Thinking は「gpt5-r」と表記)GPT‑5 Thinking は o3 よりも重大な間違いが少ないです。
有用性と安全性のバランスをとることは簡単です。何もかも拒否するとモデルは安全になります。しかし、当社ではモデルが安全「かつ」有用であることを目指しています。研究の中心的な課題は、これらの目標を両立しながらどのように改善するかということです。GPT‑4では、有用性と安全性のバランスをとる方法として、ルールベース報酬を開発しました。今回、GPT‑5 では、安全なコンプリーションという次の一歩を踏み出し、成長を遂げつつある AI 機能を活用してこれら2つの目標をより緊密に統合します。モデルの回答の安全性に焦点をあてると、安全性に関する課題がますます複雑になるのに対応するための堅固な基盤が築かれます。当社では、この研究路線を継続して、モデルが困難な状況を適切に理解して、きめ細かく慎重に回答するように学習させる予定です。


