本日、OpenAI は、当社の製品全体における AI の悪用や安全性に関するリスクの特定に重点を置いた、一般公開のセーフティバグバウンティプログラム(新しいウィンドウで開く)を開始します。AI 技術が急速に進化するにつれて、悪用の手法も多様化しています。OpenAI の目標は、具体的な被害につながり得る誤用や悪用に対して、システムの安全性とセキュリティを維持することです。
このプログラムは、OpenAI のセキュリティバグバウンティ(新しいウィンドウで開く)を補完するものです。セキュリティ上の脆弱性の基準を満たさない場合でも、重大な悪用や安全性に関するリスクを伴う問題を受け付けます。本プログラムを通じて、OpenAI は安全性およびセキュリティの研究者と連携し、従来のセキュリティ脆弱性には該当しないものの、現実的なリスクをもたらす問題の特定と対応を進めていきます。提出内容は、OpenAI のセーフティバグバウンティチームおよびセキュリティバグバウンティチームによってトリアージされ、対象範囲や担当に応じて両プログラム間で振り分けられる場合があります。
新しいセーフティバグバウンティ(新しいウィンドウで開く)プログラムは、以下に示す AI 固有の安全性に関するシナリオに重点を置いています。
MCP を含むエージェント型リスク
- 第三者によるプロンプトインジェクションおよびデータ流出:攻撃者のテキストが被害者のエージェント(Browser、ChatGPT エージェント、および同様のエージェント型製品を含む)を乗っ取り、有害な操作を実行させたり、ユーザーの機密情報を漏えいさせたりできる場合を指します。この挙動は、少なくとも50%の確率で再現可能である必要があります。
- OpenAI のエージェント型製品が、OpenAI のウェブサイト上で許可されていない操作を大規模に実行する場合。
- OpenAI のエージェント型製品が、上記に記載されていない潜在的に有害な操作を行う場合。このプログラムで受理される報告は、現実的で重大な被害が見込まれる必要があります。
- MCP リスクに関するテストは、関係するすべての第三者の利用規約を遵守する必要があります。
OpenAI の機密情報
- 推論に関連する機密情報を返すモデル生成。
- その他の OpenAI の機密情報を漏えいさせる脆弱性。
アカウントおよびプラットフォームの整合性
- 自動化対策の回避、アカウントの信頼シグナルの操作、アカウントの制限・停止・BAN の回避など、アカウントおよびプラットフォームの整合性に関わるシグナルの脆弱性、および同様の問題。
- 認可された権限を超えて機能やデータにアクセスできる問題は、セキュリティバグバウンティ(新しいウィンドウで開く)に報告してください。
ジェイルブレイクは本プログラムの対象外ですが、ChatGPT エージェントや GPT‑5 におけるバイオリスク関連のコンテンツ問題など、特定の被害の種類に焦点を当てた非公開のバグバウンティキャンペーンを定期的に実施しています。関心のある研究者の方は、これらのプログラムが実施される際にぜひお申し込みください。
上記のカテゴリに該当しない場合でも、ユーザーへの直接的な被害につながる欠陥と、実行可能で具体的な修正手順が特定されている場合には、個別の判断により報奨の対象とみなされることがあります。安全性や悪用に関する影響が実証されていない一般的なコンテンツポリシーの回避は、本プログラムの対象外です。たとえば、モデルが不適切な言葉遣いをしたり、検索エンジンで容易に見つけられる情報を返したりするような「ジェイルブレイク」は対象外です。
参加を希望する研究者の方は、セーフティバグバウンティプログラム(新しいウィンドウで開く)からお申し込みいただけます。OpenAI は、安全な AI エコシステムの実現に向けて、研究者、エシカルハッカー、安全性およびセキュリティのコミュニティと連携していきます。


