人々は日々 OpenAI のツールを活用し、コミュニケーションをより表現豊かで、有用かつ利用しやすいものにするために、画像や音声を作成・編集しています。こうしたツールが、人々の創作や共有のあり方に深く組み込まれていく中で、メディアの出所を理解し、検証できることは、オンライン上の情報をより安心して受け取るうえで重要になります。来歴情報は、コンテンツの出所や作成・編集方法、そして表示されている内容どおりかについての文脈情報を提供することで役立ちます。
本日私たちは、オンライン上での信頼構築に向けて、多層的かつエコシステム主導のアプローチにより、コンテンツ来歴への取り組みを強化します。C2PA 準拠により、他のツールやプラットフォームでも OpenAI の来歴情報を認識しやすくします。また Google との提携を通じて、画像にはプラットフォームをまたいでも保持されやすい SynthID ウォーターマークを追加します。さらに、画像が OpenAI 由来かどうかを一般の人が検証できるツールのプレビューも公開します。
これらの更新は、オープン標準の推進、OpenAI が生成したコンテンツの識別性向上、そしてより信頼できる情報エコシステムの実現に向けた業界横断の連携など、私たちがこれまで進めてきた取り組みをさらに発展させるものです。
OpenAI は 2024 年以降、来歴標準の策定と普及に取り組んできました。この年に DALL·E 3(新しいウィンドウで開く) で生成された画像への Content Credentials の付与を開始し、その後 ImageGen(新しいウィンドウで開く) や Sora(新しいウィンドウで開く) にも拡大しました。また私たちは、コンテンツ来歴に関するオープンな技術標準を推進する業界横断団体 Coalition for Content Provenance and Authenticity(C2PA)の運営委員会にも参加しました。C2PA の技術的アプローチでは、メタデータと暗号署名を活用し、メディアに関する情報をコンテンツそのものとともに安全に保持・伝達できるようにしています。こうした情報には、情報源を検証するジャーナリスト、コンテンツの信頼性に関する判断を行うプラットフォーム、そしてオンラインで目にしているものを理解しようとする人々に役立つ文脈情報が含まれます。
私たちは最近、OpenAI を C2PA Conforming Generator Product(新しいウィンドウで開く) として準拠させました。C2PA 準拠となることで、プラットフォームは、私たちがコンテンツに付与した来歴情報を、信頼できる形で読み取り、保持し、引き継げるようになります。来歴情報は、コンテンツが作成された最初のプラットフォームを離れた後も保持されて初めて機能します。C2PA 準拠は、それを可能にする重要な仕組みです。
C2PA メタデータは、来歴情報を支える重要な基盤です。これにより、コンテンツに対して、その出所や作成・編集方法、さらにその情報に署名した主体に関する情報を付与できます。しかし、メタデータだけで完全とは言えません。メタデータは、アップロードやダウンロードの過程で削除・消失したり、ファイル形式の変更、サイズ変更、スクリーンショットといった変換によって破損したりする可能性があります。
来歴情報の耐久性を高めるため、私たちは多層的なアプローチを採用し、Google DeepMind の SynthID(新しいウィンドウで開く) によるウォーターマーク技術を導入しています。まずは ChatGPT、Codex、OpenAI API を通じて生成された画像から適用を開始します。SynthID は、C2PA のメタデータベースの手法を補完する不可視のウォーターマーク層を埋め込みます。
私たちは以前から、この取り組みを進めてきました。私たちはこれまで、Sora では可視ウォーターマークを、Voice Engine では音声ウォーターマークを導入し、運用を通じて精度と信頼性に関する検証と研究を継続してきました。
この 2 つの仕組みは相互に補完し合います。C2PA はコンテンツに詳細な文脈情報を付与し、SynthID はメタデータが保持されない場合でもシグナルを残す役割を果たします。ウォーターマークは、スクリーンショットのような変換にも比較的強く、一方でメタデータはウォーターマーク単体より多くの情報を提供できます。両者を組み合わせることで、単独で利用する場合よりも、来歴情報の耐久性を高められます。
信頼できるメタデータと、多くの改変に耐えられるウォーターマークを組み合わせることで、来歴シグナルの耐久性を高められます。しかし、こうしたシグナルを検出する手段も必要です。私たちは現在、一般向け検証ツールのプレビューを公開しています。このツールでは、アップロードされた画像に Content Credentials や SynthID を含む来歴シグナルが含まれているかを確認することで、その画像が ChatGPT、OpenAI API、Codex のいずれかで生成された可能性を検証できます。
私たちは、来歴情報はより簡単に検証・解釈できるべきだと考えています。また、このツールは複数のシグナルを統合することで、「これは AI によって生成されたものなのか?」という問いを判断する際の助けになると考えています。これは、2024 年に公開した画像検出分類器の初期研究プレビューから得られた知見を踏まえたものです。OpenAI 由来の SynthID ウォーターマークがメディア内に存在するかを信頼性高く検出できるほか、検出時には C2PA メタデータも表示できます。

どの検出手法も完全ではないため、検出できなかった場合には慎重に判断します。たとえば、メタデータやウォーターマークが検出されなかった場合でも、来歴情報は削除されている可能性があるため、その画像が OpenAI のツールで生成されたかどうかについて、このツールが断定的な結論を出すことはありません。
公開時点では、このツールは OpenAI が生成したコンテンツのみを対象としています。今後数か月にわたり、プラットフォームをまたいだ検証を可能にする業界横断の取り組みを支援していきます。また今後は、オンライン上で人々が目にする、より多様なコンテンツへの対応も進めていきます。
単一の来歴技術だけでは十分ではありません。私たちは、共有標準、耐久性のあるウォーターマークシグナル、そして一般向け検証を組み合わせることが重要だと考えています。Content Credentials への継続的な取り組み、C2PA 準拠、SynthID の採用、そして一般向け検証ツールのプレビュー提供を通じて、長期的には、より相互運用性の高い来歴エコシステムへの貢献を目指しています。


