2025年11月19日

外部テストを用いた安全エコシステムの強化

フロンティア AI に対する第三者評価へのアプローチ

読み込んでいます...

OpenAI では、フロンティア AI の安全性エコシステムを強化する上で、独立した信頼できる第三者による評価が重要な役割を果たすと考えています。第三者による評価とは、フロンティアモデルに対して行われる評価で、重要な安全性能力やリスク軽減策に関する主張を確認したり、追加のエビデンスを提供したりするものです。こうした評価は、安全性に関する主張を検証し、見落としを防ぎ、能力やリスクに関する透明性を高めるのに役立ちます。当社は、外部の専門家を招いてフロンティアモデルをテストしてもらうことで、能力評価や安全対策の充実度に対する信頼を育み、より広範な安全性エコシステムの向上に役立てることを目指しています。

GPT‑4 の公開以降、OpenAI はさまざまな外部パートナーと連携し、モデルのテストおよび評価を行ってきました。大きく分けると、サードパーティとの連携には次の3つの形式があります：

独立評価：バイオセキュリティ、サイバーセキュリティ、AI の自己改善、スキーミングなど、主要なフロンティア能力やリスク領域を評価します。
方法論レビュー：リスクの評価・解釈方法を評価します。
特定分野の専門家（SME）によるプロービング：専門家が実世界の SME タスクでモデルを直接評価し、その能力および関連する安全対策の評価について、構造化されたインプットを提供します。¹

本ブログでは、OpenAI がこれらの外部評価の各形式をどのように活用しているか、そしてそれらが重要である理由、モデルの展開可否に関する判断に与えた影響、そして協力体制を構築するための原則について説明します。また、透明性の観点から、第三者テスターとの提携を規定する機密保持および公開条件についても詳しく説明します。

なぜ第三者による評価が重要なのか？

第三者の評価者は、OpenAI 内部での取り組みに加えて独立した評価層を構築することで、厳密性を高め、意見の偏りを防ぐことができます。第三者の意見は、当社の評価に加わる追加的なエビデンスとなり、責任を持って強力なシステムを運用するための意思決定の手助けとなります。

また、OpenAI では、第三者による評価をレジリエントな安全性エコシステム構築⁠の一環とも捉えています。当社のチームは各分野の能力・リスクについて広範な内部テストを実施していますが、独立した組織は追加の視点や方法論的アプローチを提供してくれます。そのため、当社はフロンティアモデルを定期的に評価できる資格を持つ多様な評価組織を支援しています。

そして、OpenAI は、第三者による評価から得られたインプットが安全性プロセスにどのように影響するかについて透明性を確保することを目指しています。当社は第三者による評価を定期的に公開しており、たとえば、システムカードに展開前評価のサマリーを含めたり、当社による機密性と正確性のレビュー後に評価組織が詳細な研究成果を公開することを支援したりしています。この透明性により、外部の意見が能力評価や安全対策にどのように反映されるかが示され、信頼が構築されます。

信頼できるアクセス、透明性、知識共有に基づく持続的な関係は、エコシステム全体で新たなリスクに先んじることを可能にし、フロンティア AI システムに対するより強固な基準と情報に基づくガバナンスのために必要な柔軟かつ実行可能な評価を促進します。

外部ラボによる独立評価

GPT‑4⁠（新しいウィンドウで開く）の公開を皮切りに、OpenAI は展開前の初期モデルチェックポイントを使用した独立評価を支援してきました。その後、主要なフロンティア能力やリスク領域の評価について深い専門知識を持つさまざまなサードパーティ組織との連携を拡大しました。当社は独立ラボの作業を、外部チームが独自の方法を用いて特定のフロンティア能力に関連する主張や評価を行うための、自由度の高いテストとして位置づけています。

例として、GPT‑5⁠ に関しては、長期的な自律性、スキーミング、欺瞞や監督回避、ウェットラボ計画の実現可能性、サイバー攻撃能力の評価などの主要なリスク領域にわたって、外部の専門家による広範な能力評価を実施するよう調整しました。

これらの独立評価には、METR の「time horizon 評価⁠（新しいウィンドウで開く）」や SecureBio の「Virology Capabilities Troubleshooting（VCT）評価⁠（新しいウィンドウで開く）」などのベンチマークが含まれ、OpenAI の「Preparedness Framework」に基づく評価を補完しています。

これらの評価を支援するため、OpenAI は初期のモデルチェックポイントへの安全なアクセス、能力向上を具体的に示すための選択された評価結果、必要に応じたゼロデータ保持、リスク軽減策が少ないモデルを提供しました。たとえば、サイバーセキュリティやバイオセーフティの分野でテストを行う組織は、安全対策があるモデルとないモデルの両方を使って、モデルの基礎能力を調査するテストを実施しました。また、他の組織に対しては、モデルの推論の痕跡を検査できるように、思考の連鎖（chain-of-thought）への直接アクセスを提供しました。こうした透明性向上の取り組みにより、思考の連鎖を確認しなければ判別できないようなサンドバッギング²やスキーミングの事例を特定することができました。アクセスはセキュリティ管理の下で提供されており、当社は、モデルの能力やテストニーズの進化に応じて、これらの管理手段を継続的に更新しています。

方法論レビュー

特定のコンテキストにおいて、外部の評価者は方法論レビューを提供するのに最適な立場にあり、フロンティアラボがリスク評価のために依存しているフレームワークやエビデンスに対し、追加の視点を提供することができます。たとえば、gpt-oss⁠ の公開時には、「Estimating worst case frontier risks of open weight LLMs（オープンウェイトの大規模言語モデルにおける最悪のフロンティアリスクの推定）⁠」で説明されているように、敵対的ファインチューニングを使用してオープンウェイトモデルの最悪のフロンティアリスクを推定しました。中心となる安全性の問いは、悪意あるアクターが Preparedness Framework の下で、生物実験やサイバー攻撃などの分野で高い能力を持つようにモデルをファインチューニングできるかどうかでした。この手法には大量のリソースを消費する敵対的ファインチューニングが必要なため、同じような作業を外部で繰り返すのではなく、第三者の評価者を招き、内部で使用されている手法や結果をレビューして助言してもらうアプローチを取りました。

このプロセスは数週間にわたる作業となり、評価ロールアウトや敵対的ファインチューニングのアプローチの詳細が共有され、最悪のフロンティアリスクに関する方法論や評価の改善に関する構造化された提案が収集されました。評価者からのフィードバックは最終的な敵対的ファインチューニングプロセスの変更につながり、方法論レビューの価値が示されました。採用した項目は論文および gpt-oss のシステムカードに記録され、採用しなかった項目については理由を明示しました。

ここでは、独立評価よりも方法論レビューが適していました。この評価では、大規模な最悪ケースを想定した実験を行うために、主要な AI ラボ外では一般的に利用できないインフラや技術的専門知識が必要だったためです。そのため、独立評価では最悪ケースのシナリオに関する直接的なインサイトを得ることが難しく、外部の評価者には主に主張の確認に集中してもらう方が効果的でした。外部の評価者には手法とエビデンスのレビュー⁠（新しいウィンドウで開く）を依頼し、意思決定に関連するギャップを指摘してもらいました。これらの指摘は、提案のフィードバックループの一環として対応されました。このアプローチは、アクセスやインフラの要件により第三者が直接評価を実施することが現実的でない場合や、外部評価の前例がない場合に他の領域でも応用できる方法です。

特定分野の専門家（SME）によるプロービング

外部の専門家を関与させるもう1つの方法は、専門家がモデルを直接評価し、アンケートを通じて能力評価に関する構造化されたインプットを提供する SME プロービングです。これは、特定の安全対策に対してストレステストを実行するレッドチーミング⁠とは異なります。この手法では、静的な評価だけでは捉えられない、専門家の判断や現実世界のコンテキストを反映したドメイン固有のインサイトによって Preparedness Framework 評価を補完できます。例として、ChatGPT Agent と GPT‑5 に対し、特定分野の専門家が、helpful-only モデル³を使用して、自分たちで考えたバイオ分野のエンドツーエンドのシナリオを試しました。専門家は、シナリオ内で提供されたガイダンスがどれだけ有効かに基づき、モデルが経験の浅い初心者の能力をどの程度向上させることができるか（自分たちのような専門家を基準として）を評価しました。目的は、意欲的な初心者を、実務において優秀なレベルにどれだけ近づけられるかについて、追加の情報を得ることです。SME は、OpenAI の「初心者の能力を向上できる」という主張を、彼らが考えた現実的なワークフローの下でテストし、モデルがステップ単位で具体的な支援を提供した箇所と、単なるサマリーにとどまった箇所を詳細にフィードバックしました。この専門家によるプロービングは、これらモデルの展開可否を判断する総合評価の一部として実施され、両モデルのシステムカードに共有されました。

第三者による評価において協力体制を成功させる要素とは？

透明性の観点から、第三者の評価者と提携する際に合意する内容と、協力体制を導くための原則を共有します：

慎重な機密保持の下での透明性：評価を支援するために機密かつ非公開の情報を共有できるよう、第三者の評価者と秘密保持契約（NDA）を締結します。本記事の付録⁠には、第三者の評価者との契約から、公開に関する権利やレビューに対する期待事項を示す関連抜粋を掲載しています。当社は透明性の原則に基づき、機密情報や知的財産を損なうことなく、安全性や関連評価の理解を深めるための情報公開を実現にすることを目指しています。その一環として、第三者による評価に関連する公開物の審査と承認を行い、機密保持と事実の正確性を両立させています。過去数年間、複数の第三者評価者が、システムカードでの評価サマリーの公開と並行して自身の調査結果を発表しています。機密保持および正確性の確認後に公開された事例としては、[METR による GPT‑5 レポート⁠（新しいウィンドウで開く）、Apollo Research による OpenAI o1 レポート⁠（新しいウィンドウで開く）、Irregular による GPT‑5 評価⁠（新しいウィンドウで開く）] などがあります。
慎重な情報開示と安全なアクセス：原則として、第三者の評価者には公開用または本番運用向けの情報やモデルへのアクセスを提供しています。ただし、評価の必要性に応じて、helpful-only モデルや非公開情報など、より深いアクセスも提供しています。OpenAI は、第三者の評価者が重要な安全性の課題に取り組む際に、必要に応じてこれらのアクセスを提供してきました。重要なのは、これらの機密性の高いアクセスには厳格なセキュリティ対策が必要であり、当社はモデルの能力やテストニーズの進化に応じて、これらの管理手段を継続的に更新しているという点です。
バランスの取れた金銭的インセンティブ：OpenAI は、第三者評価エコシステムが十分な資金を確保し、持続可能であることが重要だと考えています。そのため、すべての第三者評価者に対して報酬を提供していますが、内部の方針に応じて報酬を辞退する組織もあります。報酬の形態には、作業に対する直接支払いや、API クレジットなどを通じたモデル使用料の補助が含まれます。報酬が第三者評価の結果に左右されることは決してありません。

これらの要素により、第三者による評価は機密情報を保護しつつ、AI の安全性における透明性を促進し、評価者が費やした時間に対して報酬を提供する方法を実現しています。

今後の取り組み

今後を見据えると、フロンティア AI システムに対して、信頼性が高く、意思決定に役立つ評価を実施できる組織で構成されたエコシステムを引き続き強化する必要があります。効果的な第三者評価を行うには、専門知識、安定した資金、方法論の厳密性が求められます。評価がモデル能力の進化に追随できるようにするためには、基準を満たす評価組織への投資、測定科学の進展、機密情報へのアクセスのセキュリティが不可欠です。

第三者による評価は、OpenAI の安全性に関する取り組みに外部の視点を取り入れる手段の1つであり、他の仕組みと並行して機能しています。また、組織的なレッドチーミング、集団的アラインメントプロジェクト⁠、米国 CAISI および英国 AISI⁠ との協力、Global Physician Network⁠ や Expert Council on Well-Being and AI⁠ などの諮問グループを通じて外部の専門家と連携することにより、メンタルヘルスやユーザーのウェルビーイングに関する当社の取り組みを指針付けています。これらの取り組みは、さまざまな形で専門知識を提供し、高度な AI システムの評価およびガバナンスのための広範で信頼性のある基盤を支えています。

付録

以下は、展開前評価に関して OpenAI と協力する第三者との契約から抜粋した例です。

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025年

著者

OpenAI

脚注

1
これは、特定の安全対策を詳細にストレステストして評価開発のためのデータを提供することを目的としているレッドチーミングとは異なります。
2
モデルが評価またはテストされていることを検知した際に、意図的に性能を低下させたり真の能力を隠したりすることがあります。
3
helpful-only モデルは、それが有害であっても、すべてのリクエストに応答します。これらは、事後学習（post-training）による手法で作成されます。

さらに読む

すべてを表示

Safety and alignment in an era of long-horizon models

安全性2026年7月20日

Why teens deserve access to safe AI — card image

10代の若者に安全な AI が必要な理由

安全性2026年7月16日

GPT-Red：堅牢性向上に向けた自己改善を実現

安全性2026年7月15日