公開日： 2023年10月26日

OpenAI のフロンティアリスクへのアプローチ

英国 AI 安全性サミットの最新情報

読み込んでいます...

2023年7月21日、OpenAI は他の主要な AI ラボとともに、AI の安全性、セキュリティ、信頼性を促進するための自主的な取り組みをまとめました。これらの取り組みは、さまざまなリスク領域を網羅したもので、特に AI 安全性サミットで焦点となったフロンティアリスクが中心となっています。

今回の更新では、これらの自主的な取り組みの進捗状況について説明し、さらに、進行中の Preparedness Framework の開発作業など、フロンティアリスクの緩和に向けた進化中のアプローチについて詳しく説明しています。

2023年10月3日、当社は自主的な取り組みの一環としては初の主要な新フロンティアモデルとなる、テキストから画像を生成できるモデル DALL·E 3⁠ のシステムカード⁠をリリースしました。当社の使命と自主的な取り組みの両方に従い、事前配備の安全性評価やレッドチーミングなどの重要な安全対策を導入しました。さらに、AI 生成メディアの来歴を追跡するための新たな手法の開発に取り組み、ChatGPT の音声および画像分析機能の展開を通じて、責任あるプラクティスに継続して投資しています。

また、Frontier Model Forum の共同設立により、「フロンティア AI の安全性に関する共通基準とベストプラクティスの策定、推進、採用を可能にするフォーラムやメカニズムの設立または参画」に関する自主的な取り組み⁠を実現しました。この新しい業界団体は、Microsoft、Google DeepMind、Anthropic との共同設立で、AI の安全性に関する研究を推進し、フロンティア AI システムの責任ある開発プラクティスを促進するための場となります。

Preparedness Framework

フロンティア AI モデルは人類全体に恩恵をもたらす可能性を秘めていますが、同時に深刻なリスクをもたらす可能性も高まっています。AI モデルが改善を続ける中で、これらのリスクを管理するため、当社は Preparedness Framework を開発しています。これは、特に壊滅的なリスクに関して、責任あるフロンティアモデルの開発に対するプロアクティブなリスクベースのアプローチを深めるものです。

Preparedness Framework では、フロンティアモデルの厳格な機能評価とモニタリングの開発、および、開発プロセス全体にわたる説明責任と監視のためのガバナンス構造の確立についてのアプローチを詳細に説明しています。このポリシーの一環として追跡する予定のリスクには、サイバーセキュリティ、説得力、化学・生物兵器、自律性など、複数のカテゴリーにわたるものがあります。

また、この Preparedness Framework では、壊滅的な結果を回避するためのさまざまな対策も提示しています。壊滅的なリスクに関する経験則に基づく情報の入手はまだ初期段階ですが、急速に理解されつつあります。そのため、私たちは現在のフロンティアモデルのリスクレベル評価をその都度更新して、最新の評価と監視に関する理解を確実に反映させていきます。当社では、この取り組みを推進する専門チーム（Preparedness）を立ち上げ、必要な研究や監視を実施しています。

Preparedness Framework は、既存のリスク緩和策を補完し、拡張することを目指すもので、これにより、新規の高度機能のシステムの安全性とアライメントが、展開の前後を問わず確保されます。これら既存の取り組みとして、Safety Systems チームは、当社の最良モデルを安全に展開するための研究を行い、このために体系的なソリューションを構築しています。また、Superalignment チームは、超絶知能 AI システムと人間の意図とを合致させる機械学習の課題に焦点を当てています。

また、Microsoft と共同で展開安全性委員会（DSB）も設置しており、ここでは、いずれかの当事者が特定の能力閾値を超えるモデルを展開する決定を承認します。DSB は、特定の規模や能力レベルのモデルを学習させるかどうかを決定する、といった初期ステップではなく、展開に関する決定に特に重点を置いています。ここでは、最も高性能のシステムに重点を置くこと、敵対的テストを重要視すること、アライメントを明示的に考慮することなど、責任ある拡張ポリシーのコンテクストで頻繁に議論されるいくつかの点が特徴となります。私たちは、最初に展開に適格と判断された GPT‑4 の DSB のレビューから貴重な教訓を得ており、これを Preparedness Framework の設計と実装に役立てるつもりです。リスクと緩和策についてさらに理解が深まるにつれ、DSB と Preparedness Framework、そして、それぞれの役割も今後進化していく可能性があります。

注：アルゴリズムの改善などでは、大幅に規模を拡大せずに能力を飛躍的に向上させることができることから、当社では、このポリシーを「Responsible Scaling Policy（責任ある規模拡大ポリシー）」ではなく、「Preparedness Framework（準備態勢のフレームワーク）」と呼んでいます。こうした能力を向上させるのが、規模、アルゴリズムの改善、その他の最適化のいずれであれ、Preparedness Framework は、ますます高度化するフロンティアモデルの開発を管理していきます。

社会、安全性、セキュリティのリスクに関する研究と投資の優先

AI システムを人間よりもはるかに賢く制御し、統合するには、科学の飛躍的な前進、社会的な備え、高度なセキュリティシステムが必要となります。当社は、Superalignment および Preparedness という2つの新しいチームを結成し、セキュリティシステムにさらに投資することで、これらの進歩に精力を注ぎこんでいます。

AI を調整するための現在の技術は、人間のフィードバックに基づく強化学習など、AIを監督する人間の能力に依存しています。しかし、こうしたテクニックは超知能には通用しません。というのも、人間は自分よりもはるかに賢い AI システムを確実に監督することができないからです。この問題を4年以内に解決するという目標を掲げて、私たちは、Ilya Sutskever（OpenAI の共同創設者兼チーフサイエンティスト）とJan Leike（アライメント部門責任者）が共同で率いる新しいチームの Superalignment⁠ に投資しています。人間に近いレベルの自動アライメントリサーチャーを構築し、大量のコンピューティング能力を活用して、超知能のアライメントに向けた取り組みを拡大することが狙いです。2023年6月までに確保したコンピューティング能力の20％を、この取り組みに充てる予定です。また、このチームは、結果を広く共有することで、OpenAI 以外のモデルのアライメントと安全性にも貢献していきます。

私たちは、超知能の調整という課題を超えて、機能がますます向上するフロンティアモデルの悪用により、さらに深刻なリスクが生じる可能性があると考えています。そこで、これらのリスクを特定、追跡し、対応準備を整えるため専属の新しいチーム、Preparedness を立ち上げました。サイバーセキュリティ、CBRN、説得力、自律的な複製および適応など、フロンティアリスクを追跡し、壊滅的なリスクの影響から身を守るための行動を共有していくつもりです。壊滅的なリスクに関する経験則に基づく理解はまだ形成途中であるため、私たちは最新の評価と監視について確実に理解を反映させるため、現在のフロンティアモデルのリスクレベルの評価をその都度更新していきます。

当社は、独自かつ未発表のモデルウェイトを保護するため、サイバーセキュリティと内部脅威に対する保護策への投資を継続しています。また、集団安全のために活動中の志を同じくする研究者同士で調整を行うため、サイバーセキュリティ助成金プログラムと OpenAI バグバウンティプログラムを開始しました。サイバーセキュリティ助成金プログラムは、AI を活用したサイバーセキュリティ能力を強化し、定量化し、高度な AI とサイバーセキュリティに関する議論を促すための100万ドル規模の取り組みです。皆様からも、当社システムの脆弱性、バグ、セキュリテイ上の欠陥を見つけて、ご報告いただくようお願い申し上げます。OpenAI のバグバウンティプログラムは、当社のテクノロジーと会社全体の安全対策に貢献していただける方から寄せられた貴重な洞察を取り入れて、それに対して謝礼金を提供するというものです。

モデル評価とレッドチーム

当社は、新たにリリースされた主要なモデルを、レッドチーミングを含め、安全性の観点から評価しています。たとえば、GPT‑4 を一般公開する前には、外部のレッドチームが以下のフロンティアリスクについてモデルをテストしました。(1) 核兵器、放射能兵器、生物兵器、化学兵器（CBRN）の開発支援、(2) サイバーリスクの増大、(3) ツール使用に起因するリスク、(4) 自己複製能力。DALL·E 3 のレッドチーミングの一環として、自主的な取り組みの範囲内では、CBRN の開発、取得、または分散に必要な視覚情報を提供するモデルの能力のレッドチーミングを行いました。

また、OpenAI レッドチーミングネットワーク⁠の公募を行い、OpenAI のモデルの安全性向上に関心のあるドメインエキスパートを、当社のレッドチーミングの取り組みに招待しました。

CBRN。特定の LLM 機能は、民生・軍事両用の可能性を持っています。つまり、モデルは商用と軍事または拡散の用途の両方に利用できるということです。4つの民生・軍事両用領域において GPT‑4 のストレステスト、境界テスト、レッドチーミングを行い、当社のモデルが CBRN の開発、入手、拡散を求める拡散者に必要な情報を提供するかどうかを調査しました。その結果、GPT‑4 にアクセスするだけでは拡散には不十分な状況ではあるけれども、特に従来の検索ツールと比較すると、拡散者が利用できる情報に変化がみられることが分かりました。レッドチームのスタッフが、GPT‑4 と従来の検索エンジンの両方にプロンプトとして質問セットを選択したところ、GPT‑4 を使用した場合、調査完了までの時間が短縮されることが判明しました。情報の精度を犠牲にすることなく、調査のプロセスが数時間短縮されたケースもありました。したがって、GPT‑4 には、一般にアクセスが可能でありながらも入手が困難な情報を生成する能力があり、ユーザーの調査時間が短縮され、専門家ではないユーザーにも理解できる形で情報がまとめられることから、これが重要なリスク要因になるという結論が出されました。DALL·E 3 のリリース前に、CBRN リスクに関連する情報の作成と取得に関する図表や視覚的な指示を生成するモデルの能力をテストすることで、テキストから画像への生成がリスクプロファイルをどのように変化させるか評価しました。GPT‑4 と同様、DALL·E 3 の社内および社外レッドチーミングを実施し、社内ではモデルのリスクをテストするとともに、さまざまな業種の社外専門家にいち早く連絡をとれるようにすることで、リスクのマッピングと評価を行うシステムの調査に役立てました。4つの民生・軍事両用領域で DALL·E 3 のレッドチーミングムを行い、CBRN の開発、取得、または拡散に必要な情報を提供できるかどうかを調査しました。レッドチームのスタッフは、これらの主題領域における情報が不正確であること、リクエストが拒否されていること、拡散を成功させるのに必要なコンテンツへのさらなるアクセスおよび「素材」がより広範に必要であること、こうしたことが重なっているため、これら領域でのリスクは最小限であると判断しました。

サイバー機能。また、GPT‑4 による脆弱性の発見と悪用、ソーシャルエンジニアリングの能力についても評価しました。コンピューターの脆弱性の発見、評価、悪用を支援するモデルの能力をテストするため、私たちは外部のサイバーセキュリティ専門家と契約を結びました。その結果、ソースコードがモデルのコンテキストウィンドウに収まる程度に小さい場合、GPT‑4 は脆弱性を証明できることがあるものの、特定された脆弱性のエクスプロイトコードを構築する能力は低いことが判明しました。ソーシャルエンジニアリング能力をテストするために、専門のレッドチームが、ターゲットの特定、スピアフィッシング、おとり販売によるフィッシングなどの関連タスクにおいて、GPT‑4 が現行のツールより進歩しているかどうかをテストしました。その結果、このモデルがターゲットを列挙したり、最近の情報を適用して、より効果的なフィッシングコンテンツを作成したりするといった事実に基づくタスクの遂行に苦労していることから、すぐに使えるほどの高度のソーシャルエンジニアリングを持つものではないことが分かりました。しかし、ターゲットに関する適切な背景知識を与えると、GPT‑4 は現実的なソーシャルエンジニアリングコンテンツを効果的に作成しました。これらの調査結果に基づき、私たちは、悪意のあるサイバーセキュリティリクエストを拒否するよう GPT‑4 に対して事後学習を行い、監視、検出、対応を含む社内安全システムの拡張を実施しました。

自己複製。GPT‑4 のリリース前に、私たちはアライメント研究センター（ARC）によるモデルの自律的な複製とリソース収集の実行能力に関する予備的なモデル評価も進めました。レッドチーミングの一環として ARC にモデルへの早期アクセスを許可し、同チームがパワーシーキング行動によるリスクを評価できるようにしました。ARC は、パワーシーキング行動の具体的な形態として、モデルが自律的な複製を行い、リソースを取得する能力を検討しました。予備実験では、初期バージョンの GPT‑4 が自律的な複製タスクでは効果的でないことが分かり、このモデルが自律的に複製できる可能性は低いことが結論づけられました。

モデルからの報告と情報共有

透明性は、責任ある AI システムを構築する上で重要な要素のひとつです。そこで、現在、説明責任を果たすための重要なアプローチの一環として、当社が展開する新しい AI システムについて、「System Card」と呼ばれるドキュメントを公開しています。当社のシステムカードは、システムの動作に影響を与える重要な要素、特に責任ある使用に関連する分野に関して、読者に情報を提供することを目的としたもので、これまでのモデルカードとシステムカードに関する研究を参照しています。自主的な取り組みに先立ち、OpenAI では、2つのシステムカード（GPT‑4 System Card とDALL·E 2 System Card）を公開しました。自主的な取り組みを開始して後には、新モデルとしては初の主要な一般公開リリースとなった ChatGPT の DALL·E 3 のリリースに先立って、システムカードを公開しました。当社のテクノロジーを責任を持って公開する取り組みを継続する中、ChatGPT での利用を開始する前に、GPT‑4 のビジョン機能に関するシステムカードもリリースしました。

モデルのリリース後に発見される脆弱性の報告体制

自主的な取り組みを開始後、当社はフロンティアモデルフォーラム内に作業グループを立ち上げ、AI ラボの間で、責任を持って危険な能力について開示できる仕組みを作りました。この仕組みは、フロンティアラボやその他の AI ラボの間で、フロンティアモデルで特定された重大なリスクを機密保持契約を結んだ上で開示できるようにすることを目的としたものです。当面の焦点は、化学、生物、放射性物質、核兵器（CBRN）能力といった国家安全保障に関連する領域、および自己複製、詐欺、データ操作といったその他の危険な能力に当てられます。開示方法としては、より広範に開示することで重大リスクが明らかになる分野において、評価、レッドチーミングからの洞察、ラボのメンバー間で共有される脅威に関するその他の証拠を提示することが挙げられます。

また、当社システムにおけるセキュリティ上の脆弱性の報告者を認定し、謝礼金を支払う方法として、OpenAI のバグバウンティプログラムも発表しました。深刻度が低い問題に対する$200相当の謝礼金から、非常に深刻な問題に対しての$20,000相当の金額までが用意されています。バグバウンティプログラムプラットフォームの大手である Bugcrowd 社と提携し、報告の提出および謝礼金の支払いプロセスを作成しました。これについては、バグバウンティプログラム⁠（新しいウィンドウで開く）からご覧ください。

実装後の悪用パターンの監視

当社は、実装前に予測可能なリスクを防止できるよう尽力しています。しかし、ラボで発見できることに限界があるのも事実です。広範な研究とテストを行ったとしても、ユーザーが当社のテクノロジーをどのように有益に利用し、または悪用するのかを完全に予測することはできません。予期しないリスクを迅速に検知して対処する機能を構築することは、当社にとって最優先事項です。最先端のシステムでは、あらゆるリスクを完全に予測できないため、この機能こそが重要な保護策となるからです。私たちは、予期せぬ種類の悪用を検知し、それに対応する処置を構築し、その経験を活かして、利用ポリシー、安全システム、モデル出力を改善していきます。システムのリリース後は、悪用や予期せぬリスクを検知するため、プロアクティブな調査、監視、およびインバウンドレポートの精査を行います。その後は、浮上した問題をポリシーと技術的なソリューションを通じて迅速かつ反復的に解決することを目指しています。また、業務規模を拡大し、対応時間を引き続き短縮していきます。

モデルウェイトの保護を含むセキュリティの管理

私たちは、OpenAI のテクノロジー、知的財産、データの保護に多大なリソースを投入しており、

最も強力な AI モデルをサービスとして展開しています。そうしたモデルウェイトは、OpenAI および技術パートナーの Microsoft 以外の場所では配布せず、API 経由で第三者に最も強力なモデルへのアクセスを提供することで、モデルウェイト、ソースコード、その他の機密情報を管理します。

また、個人情報の流出、誤用、および不正アクセスを防止するために設計された、商業的に妥当な技術的、管理上、および組織的な対策を実施しています。これには、SOC 2 Type 2 のような当社のセキュリティプログラムに対する第三者監査の受審などがあります。また、独立した研究者に謝礼金と引き換えに、当社のシステムにおける脆弱性を報告してもらうバグバウンティプログラムも開始しました。当社の Trust Portal では、お客様やその他の利害関係者に、当社のセキュリティ対策および監査報告書を確認いただけます。サイバーセキュリティ対策の一環としては、定期的に社内および第三者による侵入テストを実施し、セキュリティ対策の適切性と有効性を監査しています。

AI 生成素材の識別子

当社は、当社モデルにより生成されたオーディオビジュアルコンテンツの識別を支援するため、来歴に関する技術的アプローチを開発しています。このアプローチを開発した後は、新しいフロンティアシステム全体に広く展開していく予定です。当社では、それぞれに明確な長所と短所を持つ多岐にわたる来歴技術を評価していますが、これは概ね、透かし、分類器、メタデータに基づくアプローチの3つに分類されます。

自主的な取り組みを開始して以来、私たちは、画像が DALL·E 3 によって生成されたものであるかどうかを特定するのに役立つ来歴分類器の研究とテストを行ってきました。現在は社内評価を行っており、DALL·E 3 のリリースの一環として、更新情報を公開しています。

データ入力の管理と監査

ChatGPT を作動させるモデルを含む OpenAI の大規模言語モデルは、主に(1) インターネット上で一般に入手可能な情報、(2) 第三者からライセンス供与された情報、(3) 当社のユーザーまたは当社の人間のトレーナーが提供した情報、の3つの情報源を使用して開発されています。

当社の学習データの大部分は、インターネット上で自由に公開されている情報から取得されています。例えば、ペイウォールの背後にある情報や「ディープウェブ」からの情報は取得していません。フィルターを適用し、ヘイトスピーチやアダルトコンテンツ、主として個人情報を収集するサイト、スパムなど、モデルに学習させたくない、あるいは出力させたくない情報を除外しています。

また、クリエイター、権利保有者、ウェブサイト運営者が、自身が所有または管理するコンテンツに関する AI 学習について、各自の希望を表明できる措置も導入しています。たとえば、ウェブ標準である robots.txt を用いて、ウェブサイト運営者が、OpenAI の「GPTBot」ウェブクローラーによるコンテンツへのアクセスを拒否できる手段を導入しました。同様に、OpenAI は、ChatGPT および ChatGPT プラグインがウェブサイトにアクセスする際に使用するユーザーエージェント文字列（「ChatGPT‑user」）を文書化しました。これにより、サイト運営者は、同様の目的でアクセスをブロックできるようになります。いずれかのボットによるサイトへのアクセスを拒否する方法については、オンラインで手順をご案内しています。また、画像クリエイターが自分のコンテンツを当社の今後の DALL·E 画像生成モデルの学習から除外できるように、セルフサービスフォーム⁠（新しいウィンドウで開く）も用意しています。