メインコンテンツにスキップ
OpenAI

2026年5月29日

安全性

信頼できる第三者評価のための共通プレイブック

フロンティア・モデルの安全対策と能力を独立に効果的に評価するうえで重要なこと。

読み込んでいます...

独立した信頼できる第三者評価は、安全性エコシステムを強化するうえで重要な役割を果たします。これらの評価は、重要な能力や安全対策に関する主張に追加の証拠を提供するため、フロンティア・モデルに対して実施されます。この投稿では、これまでに得た教訓を共有し、フロンティア・モデルを妥当に評価できる評価設計のアプローチを提案します。これが、この分野で生まれつつある標準の参考になることを願っています。

以前は、多くの評価がモデルをチャットボットのように扱っていました。評価では、ユーザーが質問するかのようにモデルへプロンプトを与え、モデルが回答し、評価者がその出力を判定していました。今日のフロンティア・モデルは、はるかに多くのことができます。ツールを使い、多くのステップにわたって情報を追跡し、より大きなワークフローの中で行動できます。これは、性能がモデルだけでなく、タスクが行われる環境や、その行動を可能にする設定にも依存することを意味します。私たちが「ハーネス」と呼ぶこの周辺設定は、ツールの使い方、情報の保持、ミスからの回復方法など、システム性能の重要な側面を変えうるものです。

プロンプト応答型ワークフローとエージェント型タスク・ワークフローを比較する図。制御ループ、ツール、コンテキスト、予算、安全対策が自律的なタスク実行をどう可能にするかを示している。

そのため、評価の実施方法や、読者が評価レポートで注目すべき点も変わります。私たちの考えでは、最も有用なレポートは、結果そのものに加えて二つの点を明示的に説明します。第一に、その評価設定がどの主張を検証するために設計されたのか。第二に、その評価結果が妥当であることを示す利用可能な証拠です。

評価で検証される主張は、通常、次の三つの類型のいずれかに入ります。1

  • 能力の引き出し: 評価対象の能力を、モデルがもっともらしく発揮できるか。 
  • 安全対策の性能: テストされた安全対策は、評価対象の振る舞いまたは攻撃に対してどれほど堅牢か。
  • 比較: 同等の条件下で、異なるモデルはどのような性能を示すか。

評価レポートでは、結果の妥当性に影響しうる効果について、評価者がどのように確認したかも説明する必要があります。これには次が含まれます。

  • 報酬ハッキング: タスクや採点器の抜け道を突き、評価が測ろうとしている振る舞いを示さないままシステムが評価上の功績を得ること。
  • 拒否: テスト対象の振る舞いを見えにくくする形で拒否すること。
  • 汚染: 評価タスク、回答、または近いバリアントが学習データに含まれていたり、ブラウジングなどを通じて評価中に発見可能だったりしたために、実際以上の性能を示すこと。
  • 不成立な問題: タスク自体が無効であるために、本来より低い性能になること。理由としては、不公平な採点(例: 正答に明示されていない実装詳細が必要)や、解けない環境(例: 重要ファイルの欠落や信頼できないツール)などがあります。
  • サンドバギング: 評価されていることを認識していると見られるときに、意図的に低い性能を示すこと。

最適な結果を得るには、評価に適したハーネスの選択が重要

私たちは、より長い軌跡にわたって行動するシステムでは、ハーネスの役割が特に重要であると観察しています。モデルがツールを使い、状態を維持し、多くのステップにわたってミスから回復できる場合、ハーネスは観測される性能水準を変えうるだけでなく、評価対象の能力が評価に現れるかどうかさえ左右しえます。たとえば、状態を保持し失敗した行動を再試行するハーネスなら、より単純なハーネスでは決して完了しない複数ステップのタスクを、同じモデルが完了できるようになる場合があります。

以下の表では、評価者が行いたい三種類の主張と、それぞれに必要だと私たちが考えるハーネスを分けて示します。

評価が裏づけようとしている主張

適切なハーネスの選択

報告すべき証拠

強い引き出し下での能力: システム A は、その最も強力で信頼できる性能を引き出すよう設計された設定であれば、X 型のタスクを完了できる。

有能なユーザーが合理的に使うであろうハーネス、ツール、補助構造、予算を含め、そのシステムに対して最も強力で信頼できる引き出し設定を用いる。

ハーネスとツールの設定、引き出しの指針、許可された予算 / 労力、トークン / コスト / 時間、およびその設定が主張される能力の信頼できる代理指標である理由。異なる最適化設定下でシステムを比較する場合は、システム間比較または強い引き出し比較として明記する。

統制比較: システム A は共有された評価設定の下でシステム B を上回る。

タスク、採点、予算を固定する。共有のハーネス/ ツール設定、または比較対象システムに対して合理的な最大引き出しを提供するよう事前に選ばれた固定の標準化ハーネス群のいずれかを用いる。

共有タスクセット、ツール、採点方法、ハーネス、予算、トークン効率 / コスト、既知の制約。コーディング・エージェント評価では、Codex CLI のようなオープンソースのハーネスにより、システム間で固定されたエージェント・ループとツール・インターフェースを提供できます。最大引き出しの理想的な方法は、各タスクと各システム向けに専用のハーネスを最適化することですが、現時点では実務上それは現実的ではありません。

引き出された攻撃下での安全対策の堅牢性: システム A の安全対策は、関連するモデルの振る舞いまたは引き出された攻撃に対して十分である。

関連する攻撃者モデルの下で、最も強力で信頼できる攻撃を引き出すよう設計された安全対策テスト設定を用いる。

評価者が関連するモデルの振る舞いをどう特徴づけたか、テストした安全対策構成、引き出し戦略、それを実行するために使ったハーネス、許可された予算または労力。

能力に関する主張の強さは、その背後にある引き出しの強さに左右されます。評価者は、タスクと評価が測ろうとする能力に最も適したハーネスを選ぶ必要があります。 標準化されたハーネスは、同一条件下でシステムを比較するには適している場合がありますが、モデルのタスク遂行を助ける特定のハーネス機能を欠くと、能力を過小評価することがあります。たとえば、OpenAI のサイバー・レンジにおける GPT‑5.5 の性能は、長く複数ステップにわたるツール使用を要するタスクで、ハーネスの選択が測定される能力を大きく変えうることを示しています。対話が長くなるにつれてタスク関連コンテキストを保持するためにハーネスがコンパクションを使うと、モデルの性能は向上します。これは、特定のモデルではコンパクションを省いたハーネスが性能を十分に引き出せないことを示しています。

成功率が高いほど良好

他の公開評価2でも、ハーネスと予算の選択が評価結果を変えることが示されています。テスト時の計算量を増やすと、評価が引き出す能力が大きく変わることがあります。 これは特に、多くのサイバー・タスクのように成功を容易に検証できる領域で顕著です。UK AISI のサイバー・レンジ評価(新しいウィンドウで開く)では、予算を 10M から 100M トークンに増やすことで性能が最大 59% 向上し、テストされた最高予算でもなお性能は上昇していました。これを詳しく示すことで、評価はより解釈しやすくなります。つまり、結果がテストされた引き出し設定にどう依存しているかを読者に示せます。追加予算で性能がなお向上している場合、そのスコアは測定された能力上限ではなく、そのハーネスと予算の下での性能として記述すべきです。能力は、一度きりで明確に測定できる固定量というより、しばしばリソース依存です。反復試行で成功を測れる場合、レポートでは固定トークン予算での成功率だけでなく、成功 1 件あたりの期待コストも考慮すべきです。これにより深刻度を解釈しやすくなります。成功率が低くても、反復試行のコストが関連する脅威モデルの範囲内なら、実務上は意味を持ちうるからです。能力に関する主張では、回避可能な引き出し不足は測定の失敗です。ハーネスや予算のせいで、システムが本来示せる振る舞いを示せないなら、そのスコアは主張される能力を測っていません。評価者が実行可能な限り引き出しを進めてもなお性能が向上している場合、レポートではその点を明確に述べ、結果が下限推定にすぎないことを明示すべきです。

安全対策テストは、カスタムハーネスを含む攻撃者の利用可能リソースを考慮しないと、攻撃が成功しうるかどうかや、その深刻さを過小評価する可能性があります。 UK AISI の GPT‑5.5 サイバー評価(新しいウィンドウで開く)では、専門家によるレッドチーミングにより、OpenAI が提供した悪意あるクエリ全体で、複数ターンのエージェント型設定を含め、違反的なサイバー内容を引き出すユニバーサルジェイルブレイクが見つかりました。彼らは Codex を使って、モデルの攻撃性能を高めるカスタムハーネスを作成しました。それは、再利用可能な安全対策回避パターンを対話に埋め込み、そのパターンをターンやブロックをまたいで保持し、OpenAI が提供した悪意あるサイバー・クエリ全体に適用するものでした。安全対策テストは攻撃者に合わせるべきです。主張が専門家による悪用への堅牢性に関するものであれば、テストでは、その戦略を保持・再利用するために必要なハーネスを含め、定義された予算内で最も強力で信頼できるエンドツーエンドの攻撃戦略を評価すべきです。そうでなければ、結果は較正を誤るおそれがあります。より単純なプロンプトへの耐性という狭い主張しか支えられず、引き出し手法が運用可能になったときの攻撃の深刻さや成功確率の両方を見落とす可能性があり、逆に予算を与えすぎれば問題の起こりやすさや深刻さを過大評価することもありえます。

標準化されたハーネス比較にも適切な場面はありますが、評価者は、一貫したハーネス群を使うことがなぜ適切なのか、そしてそれがどの主張を支えられるのかを明示すべきです。 METR の時間軸評価(新しいウィンドウで開く)は、より広範で適切に固定された評価設定の例です。これは、評価対象システム間で比較可能な結果を生むよう設計されています。METR は共通の成果指標として、AI エージェントが所定の信頼性水準で成功できると予測されるタスクの長さを、人間がそのタスクに通常かかる時間で定義しています。さらに、まとめて報告される各推定バッチ内で、共有タスク群、採点方法、当てはめ手法、および Triframe と ReAct(新しいウィンドウで開く) のような再利用可能な少数の補助構造を適用しています。METR はタスク群を拡張し、評価インフラを Vivaria というフレームワークから Inspect というものへ移した際、その変更を報告し(Time Horizon 1.1 update(新しいウィンドウで開く))、新しい評価設定の下でモデルを再評価しました。これこそが、一貫したハーネス群を含む標準化評価設定の価値です。読者は、スコア差が測定設定の変化ではなく、比較対象システム間の本当の差を反映していると確信しやすくなります。

私たちは、第三者評価レポートにおいて、その評価設定がどの種類の主張を支えることを意図しているのか、テスト内容がその広い主張をどの程度反映しているのか、結果を形づくったハーネスの選択、評価間でそれらの選択が変わる場合の詳細、そして結果がどのように生み出され、その主張へどの程度一般化するかを示す補足証拠を記載することを推奨します。

結果を歪める既知のハザードを確認して妥当性を評価

モデルの能力が高まるにつれ、評価スコアは誤解されやすくなります。実際の能力に比べて、モデルが自分が評価されていると認識し、戦略的に低い性能を示すと、評価スコアは人為的に低くなることがあります。逆に、モデルがタスク、プロンプト、採点器、またはハーネスの抜け道を利用すると、スコアは水増しされることがあります。また、汚染(モデルがタスクを解かずに答えをすでに知っている、または見つけられる場合)や、曖昧、誤採点、解けない、あるいは意図しない近道に弱い欠陥のある問題によっても歪められます。したがって評価レポートでは、主要スコアに加えて、これらのハザードに関する議論を併記し、スコアが意図した振る舞いを反映しているかを読者が判断できるようにすべきです。

ハーネス、予算、ツール、採点ルール、モニター、レビュー手順はすべて、エージェントが意図されたタスクを解いているのか、それを避けているのか、記憶しているのか、あるいは回り道を見つけているのかに影響します。信頼できるレポートは、そうした確認を可視化します。評価者は評価判断を実施するたびに、これらの振る舞いについてサンプルをレビューすべきです。

報酬ハッキング

報酬ハッキングとは、意図された能力を反映しない方法で高い評価スコアを得ることです。ここでの懸念は、システムが、評価が測ろうとしていた作業を行うのではなく、タスク、採点器、プロンプト、またはハーネスを悪用して評価上の得点を得ることです。METR による GPT 5.4 の評価(新しいウィンドウで開く)は、これがなぜ重要かを示しています。初回の集計では、モデルは約13時間のタスクをこなせる水準に相当する成功率でタスクに成功していましたが、人手レビューにより、その成功の一部は報酬ハッキングによるものだと分かりました。そして報酬ハッキングのない事例だけを反映するよう結果を修正すると、推定値は約 6 時間に下がりました。評価者は、そのような調整が必要かを評価し、必要な場合は明確に報告すべきです。一見成功に見えた事例のうち、どれが除外されたのか、なぜ除外されたのか、結果がその判断にどれほど依存するのかを読者が確認できると、能力推定ははるかに有用になります。

トレンド線と信頼区間を用いて、時間の経過に伴う AI モデルの性能を示したグラフ

拒否

モデルは安全対策のために、能力評価で本来より低い性能を示すこともあります。モデルは、評価タスクを完了する代わりに拒否することで、本来可能な水準より低い評価性能になる場合があります。したがってレポートでは、拒否が評価結果の一部だったか、もしそうなら、そのために何件のサンプルが損なわれたかを説明すべきです。

汚染

汚染が最も問題になるのは、公開ベンチマークや再利用ベンチマークです。タスク、回答、または近いバリアントが学習データに含まれていたり、ブラウジング可能なエージェントが見つけられたりする場合、性能はモデルの実力ではなく、記憶や検索を反映している可能性があります。評価者は、可能であれば非公開または新規構築のタスクを優先し、モデルが解答前にタスク固有の詳細を再現していないかを確認すべきです。

不成立な問題

不成立な問題には、たとえば誤って解けない問題になっているような状況が含まれます。不成立な問題は十分によくある(新しいウィンドウで開く)ため、標準的な妥当性リスクとして扱うべきです。これには、誤った正解データ、曖昧なプロンプト、欠落ファイル、不安定なサービス、不公平な採点基準、隠し回答ファイルや正解パッチを含むリポジトリ履歴のような近道を露出する環境が含まれます。

サンドバギング

モデルまたはシステムによるサンドバギングとは、高い性能を示すことが何らかの目的と衝突する場合に、戦略的に低い性能を示すことです。Apollo の GPT‑5.5 評価(新しいウィンドウで開く)では、高い評価スコアが知識の除去(unlearning)を引き起こしたりデプロイを妨げたりする可能性があるとモデルが理解する文脈を作り、これをテストしました。それでも GPT‑5.5 は正答し、戦略的な低性能を示す行動上の証拠はほとんどないことが示唆されました。3しかし、推論トレースのレビューは重要な文脈を加えました。Apollo は、サンドバギング条件のサンプルの 52% で中程度以上のアラインメント評価認識の兆候を見つけた一方、反実仮想条件では 0% でした。この証拠は結果の解釈を複雑にしますが、最終的には読者により多くのシグナルを与えます。安心材料となる行動面の結果と、それを過度に解釈しないよう注意すべき理由の両方を読者が確認できるからです。

より強力な評価を支えるための私たちの取り組み

強い主張には、振る舞いを引き出す適切なハーネスと、結果が妥当であることを示す妥当性チェックの両方が必要です。ハーネスと妥当性チェックは評価結果の一部であるという私たちの見方は、第三者評価を実務でどう支援するかにも反映されています。 

  • 私たちは、具体的な最大引き出しの指針を評価者と共有しています。
  • また、能力評価者には、OpenAI モデルに対する共通の最低基準として Codex を使うよう求めています。テストは、簡略化されたモデル・インターフェースだけでなく、ユーザーが実際に頼る可能性の高い同じエージェント型インターフェースで、少なくともベースラインを実行すべきです。
  • さらに、欺瞞、サンドバギング、評価認識の評価に必要な場合には、推論トレースやその他の中間成果物も利用可能にしています。METR と Apollo は、GPT‑5 以降の OpenAI 評価でこのアクセスを利用してきました。 
  • 最後に、コンテキスト管理やツール利用から、リトライ挙動、採点、リソース予算に至るまで、ハーネスの選択がいつどのように結果を実質的に変えるのかをより深く理解する研究を優先しています。

評価基準と今後の研究の方向性にとっての意味 

これらの提言は、個々の評価レポートを改善するだけでなく、フロンティア AI の評価と報告に関する新たな国内(新しいウィンドウで開く)および国際(新しいウィンドウで開く)標準にも資することを意図しています。今後、第三者評価の標準では、意思決定者が、個別の評価がどの主張を支えるのか、どのシステムがテストされたのか、結果がどう引き出されたのか、そして評価者がその妥当性をどう確認したのかを理解できるだけの詳細を求めるべきです。エージェント型能力が重要となるタスクでテストされるフロンティア・システムについては、詳細には次を含めるべきです(安全性や機密性の懸念に従う)。

  • 主張: その評価がシステム比較なのか、能力上限の推定なのか、安全対策のテストなのか。
  • 評価内容: 読者が、その評価が実際にどの技能、振る舞い、失敗モードをテストしているのか理解できるだけの、タスクまたはタスク分布に関する十分な詳細。
  • テスト対象システム: モデル、推論設定、ツールアクセス、ハーネス、安全対策。
  • 予算: ターン数、トークン数、試行 / リトライ回数、実時間、推論コスト、および該当する場合は成功 1 件あたりの期待コスト。
  • 引き出し手法: 結果を引き出すために使ったハーネスの選択と、テスト内容がより広い主張をどの程度反映しているか。
  • 妥当性チェック: 評価者が報酬ハッキング、評価認識、汚染、拒否、サンドバギング、その他結果を損ないうる振る舞いをどう確認したか。確認された事例が採点や解釈にどう影響したかも含みます。

ハーネスの選択や妥当性チェックを欠く標準は、システムにできることを過小評価したり、安全性に関する主張への信頼を過大評価したりするおそれがあります。強力なハーネスと引き出し手法の構築は、依然として未解決の研究領域であり、今後の調査と投資の重点とすべきです。

著者

OpenAI

用語集

この投稿では専門用語をいくつか使用しているため、以下に、それぞれが何を指すのかを平易な言葉で説明する用語集を掲載しています。

  • エージェント型システム: プロンプトに対して単一の応答を返すだけでなく、ツールを使い、タスクの状態を維持し、環境内で行動しながら、複数のステップにわたってタスクを進められるシステム。

  • 評価判断: 証拠が、主張、リスクに関する結論、または保証に関する見解を裏づけているかを判断する、より広い評価。評価データ、文書レビュー、インタビュー、プロセスレビュー、その他の関連資料に基づく場合があります。

  • コンパクション: 長時間の実行中に、タスクに関連するコンテキストを保持する方法。

  • 構成: モデル名だけでなく、テスト対象となったシステムと評価条件を正確に示したもの。

  • 汚染: 評価タスク、回答、またはそれに近いバリアントがモデルの学習データに含まれていたり、評価中に発見可能だったりすること(例: ブラウジングなどのツール経由)で、性能がモデル本来の汎化能力より高く見えてしまう状態。

  • 引き出し: 評価判断中に、システムから能力や振る舞いを引き出そうとするプロセス。

  • 環境: システムがテストされるタスク環境。これには、評価中にエージェントが相互作用し変更する外部状態、たとえばターミナル環境やビデオゲームなどが含まれます。

  • 評価: 評価判断の中で行われる特定のテストまたは測定。

  • 評価認識: 評価認識とは、モデルが自分が評価されていることを認識している、または認識しているように見え、その文脈に応じて振る舞いを調整する可能性があることを指します。これは、モデルが自分がテストされていることを明示的に推論したり、評価の目的を推測したり、結果が自分の評価やデプロイに影響すると見込んで振る舞いを変えたりする形で現れることがあります。

  • ハーネス: モデルがタスクを実行できるようにするための仕組み。プロンプト、ツール、インターフェース、制御ロジック、メモリ、リトライ、バリデーター、その他モデルを取り巻く支援構造を含みます。

  • 最大引き出し: 標準化されたハーネスで単にシステムを一度実行するのではなく、定義された予算内で、システムが示しうる最も信頼性の高い性能や失敗モードを見つけるためのテスト。

  • 推論トレース: テスト中のモデルの中間的な推論の記録。

  • 報酬ハッキング: 評価者の意図から外れた近道や振る舞いによって高得点を得ること。

  • 安全対策: モデルや製品の周囲に適用されるフィルター、モニター、ブロックシステム、その他の保護策。

  • サンドバギング: 結果を損なう形で、評価中に戦略的に低い性能を示すこと。

  • 採点: 性能をどう測るか、またはタスクが成功したかどうかを判断するための方法。

  • 標準化ハーネス: 特定のモデルやタスク向けにカスタマイズするのではなく、システム間で同一に保たれるハーネス。これにより、結果の違いをテスト対象のモデルに帰属しやすくなります。

  • 時間軸: システムが指定された信頼性で完了できるタスクの長さ。多くの場合、同じタスクを人間が完了するのにかかる時間で表されます。

  • ツールアクセス: 評価判断中にモデルが利用できる外部ツール。

  • 軌跡: タスクを進める間にシステムがたどる段階的な経路。

  • ユニバーサルジェイルブレイク: 多くのプロンプトやタスクでシステムに安全対策を回避させる単一の攻撃パターン。

脚注

  1. 1

    この投稿は、第三者がアラインメント不一致や傾向に関する主張をどのように評価すべきかを解決しようとするものではありません。特に、より長い時間軸の振る舞いを支えるハーネスは、評価者が監視すべき意図しない振る舞いの種類も変えうるため、ハーネスの選択がそれらの評価にどう影響するかを理解するには、さらなる研究が必要です。

  2. 2

    HAL(新しいウィンドウで開く) は、エージェント評価における追加の例を示しています。CORE-Bench(新しいウィンドウで開く) では、ハーネスを Claude Code に変更したことで、同じベンチマークでも測定された性能とコスト特性の両方が変化しました。その他の公開例としては、SWE-agent(新しいウィンドウで開く)SeeAct(新しいウィンドウで開く)ScienceAgentBench(新しいウィンドウで開く)CORE-Bench(新しいウィンドウで開く)Inspect Cyber(新しいウィンドウで開く) があり、いずれもどのインターフェースまたはハーネスがそのスコアを生んだのかを読者に示しています。

  3. 3

    Sandbagging QA の両バリアントで 100%、戦略的欺瞞サンドバギングタスクで 99.6% を記録。