メインコンテンツにスキップ
OpenAI

2025年12月22日

セキュリティ

ChatGPT Atlas をプロンプトインジェクション攻撃に対して継続的に強化しています

強化学習を活用した自動レッドチームは、エージェントの脆弱性が現実世界で武器化される前に、積極的に発見し修正するのに役立ちます。

読み込んでいます...

ChatGPT Atlas のエージェントモードは、これまでにリリースした中で最も汎用性の高いエージェント機能の一つです。このモードでは、ブラウザーエージェントがウェブページを閲覧し、ユーザーが行うのと同じように、ブラウザー内でアクション、クリック、キーストロークを行います。これにより、ChatGPT は同じスペース、コンテキスト、データを活用して、日常の多くのワークフローに直接取り組むことができます。

ブラウザーエージェントが作業効率を向上させると同時に、敵対的攻撃のより価値の高い標的にもなります。そのため、AI セキュリティは特に重要になります。ChatGPT Atlas を立ち上げるずっと前から、私たちはこの新しい「ブラウザー内のエージェント」パラダイムを特に狙った新たな脅威に対抗するために、防御を継続的に構築し、強化してきました。プロンプトインジェクションは、ChatGPT Atlas が安全に運用されるように、私たちが積極的に防御している最も重要なリスクの1つです。

この取り組みの一環として、最近、Atlasのブラウザーエージェントにセキュリティアップデートを提供しました。これには、新たな敵対的学習モデルと、周囲の安全対策の強化が含まれています。この更新は、内部の自動レッドチームによって発見された新しい種類のプロンプトインジェクション攻撃を受けて行われました。

この投稿では、Webベースのエージェントにおけるプロンプトインジェクションのリスクがどのように発生するかを説明し、最近のセキュリティアップデートで示されているように、新たな攻撃を継続的に発見し、迅速に緩和策を提供するために構築している迅速な対応ループを紹介します。

プロンプトインジェクションは長期的なAIセキュリティの課題と考えられており、人間を標的とする進化し続けるオンライン詐欺のように、防御を継続的に強化する必要があります。当社の最新の迅速な対応サイクルは、その過程で重要なツールとして早期に有望であることを示しています。私たちは、外部で現れる前に内部で新しい攻撃戦略を発見しています。私たちの長期的なビジョンは、(1) モデルへのホワイトボックスアクセス、(2) 防御に対する深い理解、(3) 計算規模を最大限に活用して、外部攻撃者に先んじることです。これにより、脆弱性を早期に発見し、緩和策を迅速に提供し、ループを継続的に強化します。新しい技術に関する最先端の研究とプロンプトインジェクションへの対策、その他のセキュリティコントロールへの投資の増加を組み合わせることで、この複合的なサイクルは攻撃をますます困難かつ高コスト化し、現実世界でのプロンプトインジェクションのリスクを実質的に低減することができます。最終的な目標は、非常に有能でセキュリティ意識の高い同僚や友人を信頼するように、ChatGPT エージェントがブラウザーを使用することを信頼できるようにすることです。

プロンプトインジェクションは、エージェントのセキュリティにおける未解決の課題です

プロンプトインジェクション攻撃は、AIエージェントが処理するコンテンツに悪意のある指示を埋め込むことでAIエージェントを狙います。これらの指示は、エージェントの行動を上書きまたはリダイレクトし、攻撃者の意図に従うようにハイジャックするために作成されています。

ChatGPT Atlas 内のブラウザーエージェントの場合、プロンプトインジェクションは従来のウェブセキュリティリスク(ユーザーエラーやソフトウェアの脆弱性など)を超える新たな脅威ベクトルをもたらします。攻撃者は、人間をフィッシングしたり、ブラウザーのシステム脆弱性を悪用したりするのではなく、その中で動作するエージェントを標的にします。

仮に、攻撃者が悪意のあるメールを送信し、エージェントをだましてユーザーの要求を無視させ、攻撃者が管理するメールアドレスに機密の税務ドキュメントを転送させることができるとします。ユーザーがエージェントに未読メールを確認し、重要なポイントを要約するよう依頼した場合、エージェントはそのワークフロー中に悪意のあるメールを取り込む可能性があります。注入された指示に従うと、タスクから逸脱し、誤って機密情報を共有する恐れがあります。

これは特定のシナリオの一例に過ぎません。ブラウザーエージェントが有用であるという同じ一般性が、リスクをより広範にする要因でもあります。エージェントは、事実上無限の範囲で信頼できない指示に遭遇する可能性があります。これには、メールや添付ファイル、カレンダーの招待、共有ドキュメント、フォーラム、ソーシャルメディアの投稿、任意のウェブページが含まれます。エージェントはユーザーがブラウザーで行う多くのアクションを実行できるため、攻撃が成功した場合の影響は理論上、同様に広範囲に及ぶ可能性があります。たとえば、機密メールの転送、送金、クラウド上のファイルの編集や削除するなどが考えられます。

私たちは、以前の投稿で共有したように、複数の安全対策を通じてプロンプトインジェクションに対する防御を進めてきました。しかし、プロンプトインジェクションはエージェントのセキュリティにおける未解決の課題であり、今後も長年にわたって取り組みを続行していく必要があると予想されます。

エンドツーエンドおよび高計算量の強化学習を用いた自動プロンプトインジェクション攻撃の検出

防御を強化するために、私たちは本番環境のエージェントシステムに対する新たなプロンプトインジェクション攻撃を継続的に模索しています。これらの攻撃を見つけることは、堅牢な緩和策を構築するための必要な前提条件です。これにより、現実世界のリスクを理解し、防御のギャップを明らかにし、具体的なパッチを推進することができます。

これを大規模に実現するために、私たちはLLMベースの自動攻撃者を開発し、プロンプトインジェクション攻撃を検出してブラウザーエージェントを攻撃できるように学習させました。この攻撃者は、エンドツーエンドの強化学習で学習しており、自らの成功と失敗から学び、レッドチーミングのスキルを向上させます。また、「出荷前に試す」こともできます。つまり、思考の連鎖による推論の過程で、攻撃者が候補となるインジェクションを提案し、外部シミュレーターに送信することができます。シミュレーターは、ターゲットとなる被害者エージェント(ディフェンダー)がインジェクションに遭遇した場合の行動を反事実的にシミュレーションし、被害者エージェントの完全な推論とアクションのトレースを返します。攻撃者はそのトレースをフィードバックとして利用し、攻撃を繰り返してシミュレーションを再実行します。このループを何度も繰り返した後、最終的な攻撃に踏み切ります。これは、単一の合格/不合格の信号よりも、攻撃者に対してより豊富なコンテキスト内フィードバックを提供します。また、攻撃者のテスト時の計算量を増加させます。さらに、防御者の推論の痕跡(外部ユーザーには公開されていない)への特権的なアクセスは、内部の攻撃者に非対称的な優位性を与え、外部の敵対者を凌駕する可能性を高めます。

強化学習を示すライトモードのウェブページモックアップで、スタイリッシュなロボットアームが明るいグラデーションの背景に浮かぶ幾何学模様と対話しています。

なぜ強化学習(RL)なのか?私たちは、いくつかの理由から自動攻撃者をトレーニングするために強化学習を選びました。

  1. 長期的かつ非連続的な攻撃者の目標を最適化。私たちの目標は、エージェントを騙して現実世界で発生しうる高度な敵対的タスク(例:メール送信や銀行取引)を実行させるプロンプトインジェクション攻撃を探すことです。これらの敵対的なタスクは本質的に長期的であり、多くのステップの推論と、環境との相互作用を必要としており、成功のシグナルはまばらで遅延します。強化学習は、このスパースで遅延した報酬構造に適しています。
  2. フロンティア LLM の機能を活用する。私たちは最先端の LLM を自動化されたレッドチームメンバーとして直接学習させました。そのため、攻撃者は最先端モデルの推論や計画の向上から直接恩恵を得ることができます。ベースモデルが強化されると、攻撃者も自然に能力を高めます。これにより、モデルの進化に合わせて防御に対する圧力を維持するための、スケーラブルな方法となります。
  3. 計算量のスケーリングと適応型攻撃者の模倣。強化学習は、大量のサンプリングと学習ステップにおける攻撃の検索に費やす計算をスケーリングするのに適しており、また、戦略を反復的に試し、結果から学び、成功した行動を強化するという、適応的な人間の攻撃者の行動をよく反映しています。

私たちの自動化された攻撃者は、エンドツーエンドで新たな現実的なプロンプトインジェクション攻撃を発見できます。従来の自動化されたレッドチーム作業では、特定の出力文字列を引き出したり、エージェントから意図しない単一ステップのツール呼び出しを引き起こしたりする単純な失敗が多く見られましたが、RLで学習させた攻撃者は、エージェントを数十(あるいは数百)ステップにわたって展開する高度で長期的な有害ワークフローを実行するように誘導することができます。また、私たちの人間によるレッドチームキャンペーンや、外部の報告書には見られなかった新たな攻撃戦略も観測しました。

以下のデモは、私たちの自動攻撃ツールによって発見された具体的なプロンプトインジェクションの脆弱性を示しており、これを活用して ChatGPT Atlas の防御をさらに強化しました。攻撃者は、ユーザーの受信箱に悪意のあるメールを送り、そのメールにはエージェントに対してユーザーのCEOに辞表を送るよう指示するプロンプトインジェクションが含まれています。後で、ユーザーがエージェントに不在時の返信を作成するよう依頼すると、エージェントは通常のタスクを実行する際にそのメールに遭遇し、挿入されたプロンプトを信頼できるものとして扱い、それに従います。不在通知は作成されず、エージェントがユーザーの代理で辞職します。

プロンプトインジェクションの性質により、決定論的なセキュリティ保証を行うことは困難です。しかし、自動化されたセキュリティ研究や敵対的テストを拡大し、迅速な対応ループを強化することで、攻撃が実際に発生する前にモデルの堅牢性と防御力を向上させることができます。

このデモを共有することで、ユーザーや研究者がこれらの攻撃の性質をより深く理解し、私たちがどのように積極的に防御しているかを知っていただくことを目指しています。これは自動化されたレッドチームの可能性の最前線を示すものだと考えており、私たちは研究を継続できることを期待しています。

プロアクティブな迅速対応ループを用いて ChatGPT Atlas を強化する

当社の自動化されたレッドチームは、積極的な迅速対応ループを推進しています。自動攻撃者が新たな成功したプロンプトインジェクション攻撃のクラスを発見すると、即座に防御を強化するための具体的な目標を作成します。

新たに発見された攻撃に対して敵対的学習を行う。私たちは、ターゲットエージェントが現在失敗している攻撃を優先し、最新のエージェントモデルを最良の自動攻撃者に対して継続的に学習させています。目標は、エージェントが敵対的な指示を無視し、ユーザーの意図に沿うようにし、新たに発見されたプロンプトインジェクション戦略に対する耐性を高めることです。これは、新しい強力な攻撃に対する堅牢性を、モデルのチェックポイントに直接組み込むものです。例えば、最近の自動化されたレッドチームによって、すでにすべてのChatGPT Atlasユーザーに展開されている新たな敵対的学習済みのブラウザーエージェントのチェックポイントが直接生成されました。これにより、最終的に新しい種類の攻撃からユーザーをより効果的に保護することができます。

攻撃の痕跡を活用して、より広範な防御スタックを強化する。私たちの自動化されたレッドチームによって発見された多くの攻撃経路は、モデル自体の外部での改善の機会も明らかにします。例えば、監視、モデルのコンテキストに組み込んだ安全指示、またはシステムレベルの安全策などです。これらの発見は、エージェントのチェックポイントだけでなく、防御スタック全体の改善に役立ちます。

アクティブな攻撃に対応する。このループは、現場でのアクティブな攻撃に迅速に対応するのにも役立ちます。私たちは、グローバルな展開を通じて潜在的な攻撃を見極める中で、外部の敵対者が使用する技術や戦術を観察し、それらをこのループに取り入れ、その活動を模倣し、プラットフォーム全体で防御の変革を推進することができます。

展望:エージェントのセキュリティに対する当社の長期的なコミットメント

エージェントをレッドチーム化する能力を強化し、最も優れたモデルを使用して作業の一部を自動化することにより、発見から修正までのプロセスを拡大し、Atlas ブラウザーエージェントをより堅牢にします。この強化の取り組みは、セキュリティにおけるよく知られた教訓を再確認させます。より強力な保護を実現するための確立された方法は、実際のシステムを継続的にテストし、失敗に対応し、具体的な修正を提供することです。

敵が適応し続けると予想しています。プロンプトインジェクションは、ウェブ上の詐欺やソーシャルエンジニアリングと同様に、完全に「解決」されることはないでしょう。しかし、私たちは、積極的で応答性の高い迅速な対応ループが、時間の経過とともに現実世界のリスクの低減を続行できると楽観しています。自動化された攻撃発見、敵対的学習、システムレベルの安全対策を組み合わせることで、新たな攻撃パターンを早期に特定し、ギャップを迅速に埋め、搾取のコストを継続的に引き上げることができます。

ChatGPT Atlas のエージェントモードは強力であり、セキュリティ脅威の範囲も拡大します。そのトレードオフを明確に理解することは、責任ある構築の一環です。私たちの目標は、各イテレーションでAtlasをより安全にすることです。具体的には、モデルの堅牢性を向上させ、防御スタックを強化し、新たな悪用パターンを監視することです。

私たちは研究と展開への投資を継続し、より優れた自動化レッドチーム手法を開発し、層状の緩和策を導入し、学びながら迅速に改善を重ねていきます。また、より広範なコミュニティと共有できることをお伝えしていきます。

エージェントを安全に使用するための推奨事項

私たちがシステムレベルでAtlasの強化を続行する間に、ユーザーがエージェントを使用する際のリスクを軽減するために取れる手段があります。

可能な限り、ログイン中のアクセスを制限してください。ユーザーが Atlas でエージェントを使用する際、タスクにログインが不要な場合や、タスク中に特定のサイトへのアクセスを制限したい場合には、ログアウトモード(新しいウィンドウで開く)を利用することを引き続きお勧めします。

確認リクエストを慎重にレビューしてください。購入を完了する場合やメールを送信する場合など、重要なアクションにおいては、エージェントは実行前に確認を求めるように設計されています。エージェントがアクションの確認を求めた際には、そのアクションが正しいかどうか、また共有される情報がそのコンテキストに適しているかを検証するために、少し時間を取ってください。

可能な限り、エージェントに明確な指示を与えてください。「メールを確認して必要なアクションを取る」といった、範囲が広すぎるプロンプトは避けてください。自由度が広いと、たとえ安全策が講じられていても、隠れた悪意のあるコンテンツがエージェントに影響を与えやすくします。特定の明確な範囲のタスクをエージェントに依頼する方が安全です。これによってリスクが完全になくなるわけではありませんが、攻撃を実行することが難しくなります。

エージェントが日常のタスクで信頼されるパートナーになるためには、オープンウェブが可能にする操作に対して耐性を持つ必要があります。プロンプトインジェクションに対する強化は長期的な取り組みであり、私たちの最優先事項の一つです。この作業については、近日中にさらに詳しい情報をお知らせいたします。

著者

OpenAI