公開日：2024年3月27日

オープンモデルウェイトに関する NTIA への OpenAI のコメント

このコメントは、NTIA の2024年3月の「広く利用可能なウェイトを持つデュアル－ユース基盤モデルに関する情報提供の要請」に対して OpenAI が提出したものです。

安全で有益な AI を実現する方法は数多く存在します。

OpenAI は、AI を構築し、広く普及させ、利用することで、人々の生活を改善し、より良い未来を切り開くことができると信じています⁠（新しいウィンドウで開く）。進歩はイノベーションと自由市場における競争に依存しています。このような大筋のガイドラインの中で、人々が AI の可能性をさらに広げることができるさまざまな道筋があります。OpenAI は、かつてない能力を持つ基盤モデルの恩恵をどのように分配するかという問題に最初に取り組んだ AI 開発者の一人であり、まずは、NTIA の審議に役立てるためこの歴史的文脈を提供します。

2019年、当社はまとまった段落単位のテキストを生成する新しい機能を備えた GPT‑2 を作成し、それをどのように展開するかという問題に直面しました。このモデルは非常に有用に思えましたが、フィッシングメールの作成などの悪意のある目的にも利用できるかどうかは不確かでした⁠。当社は「段階的リリース」によって試すことを選びました。当時当社は、「段階的リリースとは、時間をかけてモデルのファミリーを徐々にリリースしていくことです。GPT‑2 の段階的リリースの目的は、これらのモデルの特性を評価し、その社会的意味を議論し、各段階の後にリリースの影響を評価する時間を人々に与えることです。」と説明しました⁠。有意な悪用の影響が観察されなかったため、フルモデルウェイトをリリースする⁠自信が得られました。

2020年、当社は GPT‑3 を開発しました。これは、あらゆるベンチマークでこれまでのどの言語モデルよりもはるかに優れていましたがが、それをどのようにリリースするかという問題に再び直面しました。今回、当社は最初の製品である OpenAI API（Application Programming Interface の略、開発者が当社の技術でアプリを構築できるようにするためのインターフェース）を通じてリリースすることを決定しました。当時当社は、この新しいリリース戦略のいくつかの動機については、「技術を商業化することで、現在進行中の AI の研究、安全性、ポリシーへの取り組みのための資金が得られる」、「API モデルによって、技術の悪用により簡単に対応できるようになる。当社のモデルの川下でのユースケースを予測するのは難しいため、有害なアプリケーションであることが判明した場合にアクセスを調整できないオープンソースモデルをリリースするよりも、API を通じてリリースし、時間をかけてアクセスを広げていく方が本質的により安全だと感じています。」と説明しました⁠。数年にわたり、この API リリースから、GPT‑3 レベルモデルの安全性と悪用パターンについて⁠、当社とコミュニティは学びを得ました。

それ以来、当社はオープンソース AI エコシステムをサポートし、その約束を信じ続けてきました。たとえば、当社の最先端モデル（CLIP、Whisper など）のウェイトを公開したり、他の AI 開発者のためにオープンソースインフラストラクチャ（Triton GPU プログラミング言語など）を開発したりしています。リリースされたウェイトは、AI モデルの内部に関する学術研究を促進し、ユーザーと組織がエッジデバイス上でローカルにモデルを実行できるようにし、ユーザーの目的に合わせたモデルの創造的な変更を容易にする、など、さまざまな重要な利点をもたらすことが分かっています。多くの AI 企業がオープンモデルのウェイトリリースに多額の投資をするのは、企業の技術の内部要素に基づき加速するためのブランド、人材採用、開発者エコシステムの引き付けなど、さまざまな理由があります。

同時に、API や。ChatGPT などの商用製品を通じてフラッグシップ AI モデルをリリースするという当社のアプローチによって、最初のリリース後に発見したリスクを研究し、軽減し続けることができます。このような方法での軽減は、ウェイト自体をリリースしてしまっていた場合には不可能です。たとえば、当社は最近 Microsoft と提携し、当社の GPT‑3.5‑Turbo および GPT‑4 モデルを悪用してサイバー攻撃作戦を支援していた多くの国家サイバー脅威アクターの作戦を検出、研究、阻止すること⁠に成功しました。このような脅威アクターの阻止は、当時のフロンティアモデルのウェイトが広く公開されていれば不可能だったでしょう。もし公開されていれば、そのサイバー脅威アクターは自分のハードウェア上でモデルをホストし、元の開発者が介入する余地がなかったからです。このアプローチによって、当社は、広く利用可能な無料および低コストのサービスを含め、AI のメリットを広く分配し続けることができます。

これらの経験から、オープンウェイトリリースと、API および製品ベースリリースの両方が、有益な AI を実現するための手段として活用できると確信しており、米国最高の AI エコシステムにはその両方が含まれると考えています。

反復型開発と Preparedness Framework の組み合わせ

製品リリースとウェイトリリースの両方にわたって、当社は「反復型開発」の驚くべきメリットを何度も目の当たりにしてきました。それは、人々が生活の向上に活用できるように日増しにパフォーマンスを増す AI を徐々に公開すること、そして、社会がこれらの新たな技術に適応しやすくすることです。2023年には、以下のように説明しました⁠。「展開する前に予想できるリスクは防止すべく最善を尽くしていますがし、研究室で学べることには限界があります。広範な研究とテストを行ったとしても、人々が私たちの技術をどのように有益に利用し、または悪用するかを完全に予測することはできません。だからこそ、現実世界での使用から学ぶことが、時間をかけてより安全な AI システムを構築しリリースするための重要な要素であると考えています。」

AI モデルがさらに強力になり、その展開とリリースのメリットとリスクが大きくなるにつれ、モデルを展開するかどうか、またどのように展開するかの決定方法を洗練させることも重要です。AI の能力が公共の安全や国家安全保障に重大な影響を及ぼすようになれば、なおのことです。より高度な AI システムによる「破滅的な」リスクの将来的な存在は本質的に不確定であり、そのようなリスクがどれくらいの可能性で、いつごろ発生するかについては学問的にも議論の余地があります。当社はまだ十分な証拠があるとは考えていません。完全に否定もできませんし、確実に差し迫っていると確信することもできません。AI の能力の限界を引き上げ、そのメリットを最大化する開発者として、当社は、この技術のリスクを科学的に分析すること（リスクに関連する証拠の収集含む）を当社の取り組みに不可欠なものと捉えています。

このような不確実性に対して経験に基づいて対処ために、OpenAI は、AI モデルによってもたらされる可能性がある壊滅的なリスクを継続的に評価し、軽減するための科学ベースのアプローチである Preparedness Framework⁠（新しいウィンドウで開く）を公開しました。Preparedness Framework は、サイバーセキュリティ、自律操作、個別化された説得、CBRN（化学、生物学、放射線、核）の脅威など、いくつかの高リスク領域における AI モデルの能力レベルを評価する方法を定義しています。このフレームワークの実例として、GPT‑4 が生物的脅威の創出を支援する能力をテストした当社の最近の研究⁠をご覧ください。

これらの評価に基づいて、各カテゴリーにおけるモデルのリスクレベルを「低」、「中」、「高」、「重大」として評価します。重要なのは、当社の Preparedness Framework の下では、当社の分類法で「高」または「重大」のリスクレベルをもたらす AI システムは、当社の軽減策によってこれらのシステムのリスクを少なくとも「中」レベルまで下げることができない限り、展開しません（そのリスクレベルを考慮すると、「重大」の場合も学習は行いません）。Preparedness Framework が重要なのは、日増しに能力が高まる AI のメリットを構築し、広く共有できるようになる一方、万が一壊滅的なリスクが発生した場合には、可能な限り早くそれを検知し、防御できるようになるためです。

能力が高い AI の開発者のためのプラクティス

当社は、AI のメリットを享受するために、人々も企業も、自らの価値観とビジョンを反映した AI の開発や利用を含め、自らの選択で AI に参加できるようになるべきであると考えています。同時に、高い能力を持つ AI システムは安全に構築および使用するべきであり、発見された壊滅的なリスクは適切に軽減するべきです。これらの利益は相反する場合もあり、社会にとって最高の成果を達成するために状況に合わせて慎重に管理する必要があります。当社は、AI がもたらすメリットを実現するために、人々と企業が、自らの価値観とビジョンを反映した AI の開発や利用を含め、自らの選択で AI に参加できるようにすべきであると考えます。同時に、高い能力を持つ AI システムは安全に構築および使用するべきであり、発見された壊滅的なリスクは適切に軽減するべきです。これらの利益は相反する場合もあり、社会にとって最高の成果を達成するために状況に合わせて慎重に管理する必要があります。

作成に多大なリソース（数億ドル以上）を必要とする能力の高い基盤モデルの場合、AI 開発者は、そのモデルが壊滅的なリスクをもたらす可能性を評価し、モデルのリスクレベルが高いと判断された場合、そのモデルを展開または公開する前に適切な軽減策を講じるべきであると考えます。これによって、リスク管理とイノベーションの適切なバランスを取ります。これらのモデルは、最大の能力を持つことが期待される一方⁠（新しいウィンドウで開く）、評価にかかるコストはせいぜい開発コストのごく一部にとどまります。モデルのウェイトが広く公開されることを意図しているか、API を通じて公開されることを意図しているかにかかわらず、このような評価は有効です。

一方、必要なリソースが比較的少ない基盤モデルの場合、利益のバランスは異なります。現在の証拠から判断すると、ファインチューニングやモデル修正技術が進歩する可能性を考慮しても、このようなモデルの方が、壊滅的なリスクをもたらす可能性はかなり低いと思われます。一方、壊滅的なリスクに対する評価は、小規模な学習実行の予算の大部分を要する可能性があり、それがイノベーションと競争を冷え込ませる可能性があります。多様な開発者の能力を保護し、魅力的な新しい AI 機能のイノベーションを実現し、アイデアと製品の市場を繁栄させることには大きな価値があり、科学的にもこれらのモデルのリスクは比較的低いことが示されているため、壊滅的なリスクのこのような評価はこれらのモデルには想定するべきではないと考えています。

Preparedness Framework などの評価プロトコルは、オープンモデルウェイトリリースを含む、あらゆるタイプのモデルリリースのリスクを事前に評価するために有用なツールです。オープンウェイトリリースにどのように適用するかについては、いくつかの検討事項があります。

このような検討事項の1つは、テスト条件が下流のアクターがモデルを修正できる方法の範囲を反映するのが理想的であるということです。オープンモデルの最も有用な特性の1つは、下流のアクターがモデルを修正することで初期の能力を拡張し、開発者の特定のアプリケーションに合わせて調整できることです。ただし、これは、悪意のある者がモデルの有害な能力を高める可能性があることも意味します。そのため、オープンウェイトリリースのリスクを厳しく評価するには、悪意のある者が、ファインチューニングを含め、合理的な範囲の実行可能な方法でモデルを変更できるかどうかをテストする必要があります。OpenAI はすでに、（バイオリスク評価⁠で行ったように）当社の Preparedness Framework の一環として、いくつかの修正テストを実施しています。

もう1つの重要な検討事項は、オープンモデルの開発者は、そのモデルが悪用されるリスクを減らすために、システムレベルの対策に頼ることができないかもしれないということです。なぜなら、その対策は、モデルウェイトを所有する悪意のある下流のユーザーが削除できることがよくあるためです。現在、最も能力の高い最新のモデルであっても、特にリスクが高いとは評価されていないため、この軽減能力の差の影響は限定的です。しかし、もし将来のモデルが、リリースされると深刻なリスクをもたらすと科学的に判断された場合、オープンウェイトリリースのリスクを減らす方法は、モデルがリリースされる外部環境の耐性の強化に依存する可能性があります。

AI の悪用に対する社会的な耐性の必要性は、1つの組織によるリリースの決定よりも幅広いものです。AI アルゴリズムの進歩と普及が続き、（米国にとって懸念がある国を含め）コンピューティングへのアクセスが日増しに広まっていることを考えると、現在のフロンティア AI の能力は、多くの場合、作成時には一部のアクターしかアクセスできませんが、最終的には広く普及するでしょう。米国は、そして世界の国々には、悪用の影響を抑える軽減策に投資し、それを主導する機会もあるため、成果のバランスは極めて好ましい状態にあります。

たとえば、AI によって加速するサイバー攻撃リスクに対する耐性を強化するためには、（当社が OpenAI サイバーセキュリティ助成プログラム⁠の一環として資金を提供した初期のプロジェクトのように）重要なインフラストラクチャ提供者に同じ AI モデルへのアクセスを早期に提供し、サイバー防御の改善に活用できるようにすることが必要かもれません。AI によって加速する生物的脅威の創出リスクに対する耐性の強化には、（Executive Order 14110 で求められる）核酸合成スクリーニング機構の改善や、新たな病原体の発生をスクリーニングおよび特定する公衆衛生システムの能力の向上など、AI とはまったく関係のない解決策が含まれる可能性があります。ある AI モデルが公共の安全や国家安全保障に深刻なリスクをもたらすことが厳密に示された場合、開発者は、早急に必要とされる耐性強化の取り組みのための時間とモチベーションを創出するため、広くリリースされる前に、（インフラストラクチャ提供への通知や API 展開の制限などを通じて）新しい能力に対する認識を高める上で重要な役割も担う可能性があります。これは、サイバー領域における「責任ある開示」の規範を反映しており、セキュリティ研究者は発見した脆弱性の公開を一時的に差し控えることで、防御側のシステムにパッチを当てる時間を与えつつも、さらなるセキュリティ研究を遅らせることはありません。

AI のリスクのさらなる科学的分析の必要性

最も能力が高いモデルのリスクを評価することは重要であると考えますが、AI の科学的なリスク評価はまだ初期段階です。OpenAI とより広い AI コミュニティは、AI のリスクを評価する方法の基礎を構築している最中であり、当社は、Preparedness Framework における運用されている細部の多くを常に反復しています。政府は、AI エコシステムによるリスクおよび能力評価プラクティスの発展の推進において重要な役割を果たします。その方法は、攻撃的サイバーセキュリティ、重要なインフラストラクチャ、AI の分野の専門家を招集し、優先度の高い AI サイバー脅威モデルについて合意し、それらを評価するための厳格かつ実証的なテストベッドを構築することなどです。当社は、USAISI が追求している自主的なイノベーションフレンドリーかつ科学的なアプローチを強く支持します。

OpenAI が2019年に GPT‑2 のリリース方法の選択に直面して以来（当初はモデルの小さなバージョンのみをリリースすることを選択しました）、新たな所見や出来事によって、基盤モデルウェイトのオープンなリリースに関する検討の状況は、時には数か月ごとに、継続的に変化してきました。この傾向は今後も続くと予想されます。政府の政策のアプローチは柔軟で、将来の変化に適応できるものである必要があります。