提出日： 2024年2月2日

AI に関する NIST 行政命令への対応

米国国立標準技術研究所（NIST）は、Executive Order Concerning Artificial Intelligence の4.1、4.5、11に基づく任務に関連する情報を求めます

OpenAI は2015年に、汎用人工知能（端的に言えば、人間と同等の賢さを持つ AI）が全人類に利益をもたらすようにすることを目的に、非営利団体として設立されました。AI の安全性、アライメント、ガバナンスのためのツールとベストプラクティスに加え、最先端の AI 技術を研究、開発、リリースしています。AI に関する NIST の継続的かつ重要な作業について情報を提供できるこの機会を嬉しく思います。

ここでは、RFI で指定された3つのトピックに焦点を当てます。(1) AI 能力の評価と監査、(2) 安全、安心、かつ信頼できるシステムの展開を可能にするためのレッドチームテストの実施、(3) シンセティックメディアとプロビナンス。

AI システムの危険な能力の評価

当社は、NIST が「AI が危害をもたらす可能性のある能力の評価に関するガイダンスとベンチマークを作成すること」に重点を置いていることを高く評価しています。OpenAI は、現在および将来の AI モデルから生じる破滅的に危険なリスクを評価、追跡、軽減するための包括的なアプローチである Preparedness Framework⁠（新しいウィンドウで開く）にコミットしてきました。Preparedness Framework は現在、サイバーセキュリティ、化学的、生物的、核、放射線の脅威（CBRN）、説得、モデルの自律性という4つの初期のリスク分野を追跡しています。Framework は、特定されていない「未知の」リスクへの継続的な警戒にもコミットしています。この作業の一環として、OpenAI は最近、CBRN に関する1つの大規模な評価を共有しました⁠。その評価は、既存のリソース（インターネット）のベースラインと比較して、生物的脅威の創出に関する危険な情報への悪意のある攻撃者のアクセスを有意に増加させる GPT‑4 の能力を評価することです。生物学の専門家と学生の両方が参加した最大規模の評価では、GPT‑4 が提供する生物的脅威の創出に関する情報は最大でも軽度の上昇にとどまることが分かりました。結論が出せるほど大きな上昇ではありませんが、この発見が、期待する継続的な研究とコミュニティによる検討の出発点になり、それが NIST と新たに設立された AI Safety Institute によって推進されることを期待しています。この取り組みによって、AI システムによって生じるリスクを評価するためのいくつかの重要な原則に対する確信が深まりました。

リスクに対する AI システムの寄与は、適切なベースラインとの相対的な変化で測定するべきです。現在および将来の AI システムによって増大する可能性のあるリスク（サイバーセキュリティやバイオセキュリティなど）の多くは、AI がなくてもある程度のレベルは存在しています。たとえば、インターネット検索によって、すでにバイオセキュリティに関連するかなり高度な情報へのアクセスが可能です。リスクに対する AI システムの寄与を評価する場合、重要なベストプラクティスは、AI が既存のリソース以上にリスクを増大させるかどうかをテストすることです。バイオリスクに関する最近の研究では、参加者の半数を、AI 以外の知識のソース（オンラインデータベース、論文、インターネット検索エンジン、および過去の知識含む）のみを自由に利用できる対照グループに、残りの半数を、これらのリソースと GPT‑4 モデルの両方に自由にアクセスできる実験グループに、無作為に割り当てることで、これを運用しました。
リスクを理解するには、関連領域の専門家との協力が不可欠です。AI の安全性に関連する広範かつ多様なトピックのすべてにおいて世界クラスの専門家を雇うことは、どんな組織にとっても困難です。ゴールドスタンダードとなる専門知識を利用するには、危険な能力の評価に関連するテーマの専門家を雇用している第三者と提携することが有効です。また、研究の格付けに関連分野の専門家を参加させることは、評価が客観的に行われていることを保証する上で有効です。たとえば、バイオリスク評価の開発と管理において、当社は第三者のバイオセキュリティ専門家と緊密に協力し、研究タスクの設計、参加者に対する安全性学習の実施、および完了した課題の格付けを行いました。このエコシステムの拡大と多様化は、AI の安全性にとって有益です。
徹底的な評価には、AI の専門家と協力して、モデルの能力全体を効果的に引き出すことも必要です。AI モデルがもたらすリスクの全体像を理解するためには、評価において可能な限りモデルの能力を引き出す必要があります。そのためには、基礎となる AI システムと、それをどのように効果的に活用できるかを深く理解する必要があります。評価の設計は AI の専門家と緊密に協力して行うことを推奨します。当社のバイオリスク研究では、言語モデルの能力を引き出すベストプラクティスからより良いパフォーマンスを得る方法について人間の被験者に学習を提供することや、モデルの能力をより良く引き出して調べるためのカスタム技術アプローチが含まれます。
リスク評価の結果を解釈する方法について、さらなる研究が必要です。たとえば、AI モデルによるバイオリスク情報へのアクセスの増加を評価する場合、情報へのアクセスがどの程度増加するとバイオリスクが著しく増加するのかはまだ明らかにはなっていません。オンライン情報を物理的な生物的脅威に変換できる新しい技術が出現すれば、バイオリスクに対する AI システムの影響も変わる可能性があります。当社は、Preparedness Framework の運用を継続する中で、NIST および AI Safety Institute と協力して、リスクとリスクメトリクスに関する理解を深めたいと考えています。
ゴールドスタンダードとなる人間の被験者評価は高額です。言語モデルの人間による評価を行うには、参加者への補償、ソフトウェアの開発、セキュリティに大きな予算が必要となります。当社のバイオリスク研究では、これらのコストを削減するためにさまざまな方法を検討しましたが、これらのコストのほとんどは、(1) 妥協できないセキュリティへの配慮、または(2) 必要な参加者の数と各参加者が徹底した検討に費やす時間の長さのいずれかによって必要とされました。基準を設計する際、この点を考慮する必要があります。

追加情報については、最近のバイオリスク研究についてのブログ記事でご覧いただけます。LLMによる生物的脅威創出のための早期警告システムの構築⁠。

安全な AI システムの展開を可能にするレッドチーム

レッドチームとは何ですか？

OpenAI は、レッドチームを「有害な能力、出力、またはインフラストラクチャの脅威を特定するために AI システムと製品を調べるための構造化されたプロセス」と定義しています。」^A
レッドチームと一口に言っても、内部レッドチーム（研究所や企業の内部専門チームによるもの）、外部レッドチーム（研究所や企業と協力して外部のステークホルダーが行うもの）、自動レッドチーム（AI モデルを使用して自動攻撃を生成し、出力を分類すること）など、さまざまな手法があります。ここでは、OpenAI が外部の専門家と協力して AI モデルやシステムの能力とリスクを評価する、外部レッドチームの取り組みを主に紹介します。

OpenAI のレッドチームへのアプローチでは、敵対的な攻撃やモデルの出力を単独で考慮しません。むしろ、専門家と協力しながら、文脈に応じた全体的な方法でリスクを導き出す手法です。^Bレッドチーミングでは、悪意のある使用と安全対策を回避する方法に加え、その他のリスクも考慮します。たとえば、有害な出力やリスクのある出力につながる不正ではない入力や予想される入力、リスクの状況を変える可能性がある新しい機能の改善、システム自体の外にある要因がモデルの出力とどのように相互に作用してリスクや危害を引き起こすか、といったリスクです。多くの場合、このような分野の評価では、人間がループの中に入って潜在的な例を生成し、レッドチームの専門性の文脈の中で結果の出力を検証することが有益です。

レッドチームは何の役に立ちますか？

AI レッドチームは、新しいモデルとシステムに関連する以下のような潜在的なリスクを理解する上で役立ちます。

以前の AI システムや技術とは異なる形式のインタラクションが必要であり、プログラム評価では十分にカバーされていない（たとえば、DALL-E でのペインティング、GPT）。
まだ評価されていない新たなリスク（たとえば、科学的領域、説得、論理的思考など）をもたらす可能性のある能力が著しく向上している。
テストと検証のために文脈または領域特有の知識が必要となる（たとえば、地域特有の政治的内容、文化的偏見、法律や医学などの科学的または専門的領域）。
システム外の要因（たとえば、弱視者に対する GPT‑4Vのテスト）を含む、ユーザーフローまたは特定のユースケースの理解が必要となる。

OpenAI は、レッドチームをモデルレベルリスクとシステムレベルリスクの両方を評価するためのツールとして捉えています。システム機能には、クラシファイア、プロンプトフィルター / ブロックリスト、ユーザーインターフェースレベルの介入、監視および評価慣行、その他のポリシー実施メカニズムが含まれる場合があります。新しいモデルが関わっていなくても、新しい製品のためにレッドチーミングを実施することがあります。たとえば、GPT⁠ は新しい基礎となるモデルを導入していませんが、ユーザーがモデルとどのように相互作用するかについて新しいシステムを導入しました。

OpenAI はそのレッドチームの取り組みを、OpenAI のテクノロジーを活用する開発者が行うべき、領域固有のレッドチームの取り組みを補完するものと捉えています。たとえば、当社は特定の条件下で特定の時点においてモデルとシステムをレッドチーミングの対象としていますが、当社の API をベースに構築している開発者は、それらの学習を考慮し、彼らが運用すると予想されるシステムと文脈の状況に基づいて追加のレッドチーミングを行うべきです。これが、OpenAI がレッドチーミングの取り組みから得られた重要な所見を System Card（およびその他の一般公開された文書の形式）で公開し、他の人がそこから学び、それを基に構築できるようにしている理由の1つです。

OpenAI における反復的レッドチーミング

フロンティアモデル立ち上げのためのレッドチームの取り組みをいくつか、System Card に記載しています。

OpenAI は、専門家であるレッドチームに、ファインチューニングと事後学習の程度、および安全対策の成熟度が幅広い事前学習されたモデルへのアクセスを提供しています。

その目的は以下の通りです。

レッドチームのインサイトは、事後学習レベル軽減策、システムレベル軽減策、ポリシー、評価の策定に役立ちます。
レッドチームのインサイトは、特定の機能のリリース、リリースの反復的な展開の方法、安全対策の有効性に関するリーダーシップの意思決定に役立つ可能性があります。
レッドチーミングの結果は、潜在的なユーザーと他のステークホルダーに、緩和されたリスク、残存リスク、および考えられる将来のリスクについて知らせるため、公開資料（System Card や他の形式など）とともに共有される場合があります。

当社は、レッドチームのインサイトを安全への取り組みと意思決定に直接反映させるため、開発プロセスの合理的に可能な限り早い段階でレッドチームを参加させます。モデル開発者がモデルの基本レベルリスクについて十分な情報を得た上で意思決定できるようにするため、そして、日増しに強力になるシステムに関連するリスク状況についての社会的な理解のため、安全対策を追加する前にモデルの基本能力について学習することも重要です。

安全対策が実施された後、レッドチームの取り組みは、安全対策では対処できないギャップと残存リスクを特定し、対策の堅牢性を評価することに関するレッドチームの追加ラウンドに重点を置く場合があります。

結局のところ、モデル開発プロセスのさらに上流で考慮するべき重要な安全特性がありますが、レッドチームは、モデル開発者が一般公開するものに可能な限り近い経験をシミュレートすることを意図しています。

レッドチームの限界

レッドチームは、それ自体では、十分なリスク測定にはなりません。レッドチーム自体は、モデルが有害なコンテンツを生み出す確率や傾向、AI システムの使用に伴うリスクを定量化できません。また、レッドチームでは、特定されたリスクや危害の重大度を定量化するのに十分な情報は得られません。

OpenAI の専門家によるレッドチームの取り組みのほとんどは、大規模なモデルや製品の展開の前に行われますが、モデルとシステムは本番環境においてかなり頻繁に進化するため、レッドチーミングの所見を文脈に当てはめる際にはそれを考慮することが重要です。同様に、モデル上で特定のユースケースを構築している開発者は、それがモデルまたはシステム自体に固有のものではない（あるいはモデルまたはシステムから変更不能なものではない）場合、モデルまたはシステムの安全プロファイルを変更する設計上の決定を行う可能性があります。

レッドチームは、さらなるテストと評価のための基礎を築き、安全対策を堅牢にする必要がある攻撃ベクトルや問題についてのガイダンスを提供します。

問題の複数の例と組み合わせを調べることは、特定のリスク領域の測定方法に対する自信を持つために役立つ可能性があります。専門家によるレッドチームは設計上、リスク領域を深くカバーするのではなく広くカバーすることを目的としているため、それ自体は必ずしも特定のリスクの測定に十分な評価を行うことはできません。その代わり、レッドチームによって、より徹底的な評価のための「種」とも言えるデータセットが得られます。そこから、発見された特定の問題領域の例をより多く生成するために結果を使用でき、特定された問題領域に関する将来のモデルを評価するために、（通常、領域の専門家によって）ラベルが付けられた例の「ゴールデンセット」を使用できます。

レッドチームの構成と領域の優先順位付け

世界中のさまざまな文脈における多くの想定していたユースケースおよび想定していなかったユースケースに使用される汎用 AI システムは、さまざまな視点と世界観を代表する人を参加させ、幅広いトピック領域をカバーする必要があります。

OpenAI は、当社のモデルのレッドチームのために、さまざまな専門家を採用するよう心がけています。昨年、当社はレッドチームネットワークの参加者を募集しました。選考基準は以下の通りです。

レッドチームに関連する特定の領域における実証された専門知識または経験を持っている
AI の安全性の向上に対して情熱を持っている
利益相反がない
多様な経歴を持ち、伝統的に軽視されてきたグループに属している
地理的に多様性がある
複数の言語に堪能である
技術的能力がある（必須ではないが、あれば好ましい）

領域の優先順位付けは、AI システムやモデルの予想される用途、特に曖昧性が高い文脈や考えられるリスク、モデル開発者が能力の向上を期待できるモデルの早期評価、既知のコンテンツポリシーの問題領域、関連する政治社会的文脈（たとえば、2024年は世界中の多くの場所で大きな選挙があります）に基づいて行うことができます。各モデルやシステムに必要となる可能性がある専門知識はそれぞれ異なり、モデルやシステムの進歩する能力と新しいユースケースに基づいて、新たな領域が検討される可能性があることに留意することが重要です。そのため、レッドチームの最適な構成は時間とともに進化します。

シンセティックメディアとプロビナンス

透かし：このアプローチでは、オーディオビジュアル生成メディア自体に、その出所を示すシグナルが含まれています。このシグナルは、視聴者には認識されないがソフトウェアによって検出できる微妙なパターンです。これは、秘密鍵がなければ検出できないシグナルの場合もあれば、透かしを検出するためのソフトウェアが公開されている場合もあります。このため、OpenAI が当社の出力に透かしを追加する場合、コンテンツを配信するソーシャルメディアプラットフォームなど、他の参加者が透かしを明示し、ユーザーに役立つようにできるように、AI バリューチェーン全体にわたる協力が必要となります。検出プロセス自体が公開されていない場合、そのプロセスへのアクセスは複雑なポリシー上の問題になります。技術的な課題もあります。透かしは他のプロビナンスの方法よりも除去されにくいかもしれませんが、それでも、透かしを入れたメディアがトリミングされたり、サイズ変更されたり、その他の変更が加えられたりすると、透かしが失われる可能性があります。これらの理由から、透かしは、特に動機のある敵対的な攻撃者によって回避される可能性があります。また、悪い攻撃者が出力に透かしを入れないモデルにアクセスできることを考えると、透かしの効果は限定的かもしれません。
クラシファイア（AI が生成した出力を他のメディアと区別し、どのモデルやサービスが出力を生成したかを検出できる学習済みモデル）：これらのアプローチは、画像を配信する人や他の人からの協力に依存しないため、効果的である場合は非常に魅力的です。ただし、偽陽性や偽陰性といった間違いも発生する可能性があり、大規模に展開するにはコンピューティングが膨大になる可能性もあります。たとえば、偽陽性によって、誤って人間のアーティストの作品を AI の出力として記述する可能性があります。一方、偽陰性によって、実際には AI によって生成された画像であるにもかかわらず、人の手で作られた画像として誤ってフラグ付けする可能性があります。
メタデータベースのアプローチ（C2PA⁠（新しいウィンドウで開く）の現在の標準など）：これらのアプローチでは、あるメディアに付随するメタデータに暗号化署名し、メディアの出所を証明します。

これは、AI が生成したかどうかにかかわらず、メディアの出所を証明したい人にとっては便利です。たとえば、C2PA は、ニュース発行者がある画像または動画を実際に公開し、その画像または動画の正確性を支持していることを示し、視聴者がそれを確認できるようにすることができます。同様に、生成 AI システムに実装された場合、この技術はアーティストが合成画像や動画を生成したことを示す上で役立つ可能性があります。これらのアプローチには、表向きには、コンテンツのプロビナンスを消費者や公衆に向けて可視化するという利点があります。さらに、実装に大きなリソースを必要としないという利点もあります。

ただし、メタデータは元になっている画像や動画から簡単に削除できるため、この手法では、生成されたコンテンツが本物であるかのように見せかけようとする悪意のある者（たとえば、虚偽のキャンペーンに関与している者）にとって有意義な障壁にはなりません。

メタデータアプローチが広く公衆に利益をもたらすためには、ブラウザや配信プラットフォーム（ソーシャルメディアプラットフォームなど）がメタデータを検出し、表示する必要があります。そのため、メタデータベースのアプローチを成功させるには、バリューチェーン全体におけるコラボレーションが必要です。オーディオビジュアル素材は、メタデータが暗号化署名されているだけでは不十分であり、配信プラットフォームは、当該メタデータを検出し、エンドユーザーがメディアの出所を確認できるように表示できる必要があります。

OpenAI のプロビナンスに対するアプローチ

プロビナンスの方法にはそれぞれ利点と限界があるため、OpenAI は AI が生成したオーディオビジュアルメディアのプロビナンスに関する幅広いアプローチを模索してきました。

DALL·E 3 画像の C2PA メタデータ

今年1月15日、OpenAI は、テキストから画像を生成するモデルである DALL·E 3 を使用して生成された画像に対する C2PA メタデータアプローチの実装を発表しました。C2PA 仕様は、パブリッシャー、クリエイター、消費者がさまざまな種類のメディアの出所を追跡できるようにするオープンな技術標準です。

これらの仕様により、ファイルにメタデータを添付できます。このメタデータには、画像のソース（当社の場合、画像が DALL-E から取得したものであること）と作成日時に関する情報が含まれています。公衆はこのメタデータをテストでき、メタデータが存在すれば、画像が DALL·E 3 によって生成されたことを確認できます。

これは、ユーザーが DALL·E 3 を使用して生成した画像の出所を示す上で役立ちます。ただし、このメタデータはかなり簡単に削除できてしまうため、悪意のある者にその気があれば、画像に付随する C2PA メタデータを削除できます。また、ソーシャルメディアプラットフォームなどの一般的な画像共有プラットフォームは現在、それを検出してユーザーに提示するのではなく、デフォルトで削除しています。C2PA が簡単に削除できることを考えると、一般の人は、自分が目にするすべての DALL·E の画像に必ずそのようなデータがあると想定することはできません。

しかし、C2PA は AI 画像のためだけのものではなく、より広く採用されれば重要なメリットをもたらす可能性があります。また、画像の出所を保証するために、カメラメーカー、報道機関などでも採用されています。当社は、開示の方法をより広く採用し、ユーザーにこうしたシグナルを探すよう促すことは、デジタル情報の信頼性を高めるための重要なステップであると考えています。

DALL·E 3 画像向けの実験的クラシファイア

2023年10月19日、当社は DALL·E 3 システムによって生成された画像を検出するための新しい内部ツールである、プロビナンスクラシファイアに関する継続的な取り組みを発表しました。このクラシファイアの精度は、画像のトリミング、サイズ変更、JPEG 圧縮、テキストや実際の画像からの切り抜きを生成された画像の一部に重ねることなど、一般的な変更が画像に加えられた場合でも有望な結果を示した内部ベンチマークを使用して測定します。内部テストではこのような優れた結果が出たものの、クラシファイアは画像が DALL-E によって生成された可能性が高いことを教えてくれるだけで、まだ決定的な結論を下すことはできません。

当社はクラシファイアの堅牢性をテストし続けており、2024年の第1四半期には、外部パートナーにフィードバックを求めるために公開する予定です。今後1年間、当社は画像クラシファイアのパフォーマンスと有用性を評価するために、選りすぐりの外部パートナーを招いて、実験の幅を広げることを楽しみにしています。

このクラシファイアはモデルに合わせたものであり、画像が DALL-E によって生成された可能性が高いかどうかを分類することしかできません。そのため、分類が完全に正確であったとしても、画像が他の生成ツールによって生成されたかどうかを判断するために使用することはできません。

当社は、この分野での取り組みが継続する中で、皆さまと協力できる機会を楽しみにしています。

敬具

Anna Adeola Makanju
グローバルアフェアーズ VP
OpenAI

脚注

A
フロンティアモデルフォーラムのレッドチームの定義⁠（新しいウィンドウで開く）をご参照ください。
B
当社は、「専門家」という用語を、さまざまな領域の知識と実際の経験から得た専門性を持つ人を指すために使用しています。