
イラストレーション:Justin Jay Wang × DALL·E
私たちの目標は、他の方法では手の届かない問題を解決する力を人々に与える(新しいウィンドウで開く) AI ツールを開発することです。世界中の人々がすでに私たちのテクノロジーを利用して日常生活を向上(新しいウィンドウで開く)させています。現在、数百万人の開発者とフォーチュン500社の92%以上が当社の製品を利用しています。
ニューヨーク・タイムズの訴訟での主張には同意できませんが、私たちはこれを、事業、意図、テクノロジーの構築方法を明確にする機会と捉えています。見解としては以下の4点に集約されます。
- 私たちは報道機関と協力し、新たな機会を創出している
- 学習はフェアユースだが、正しいことだからオプトアウトを提供している
- 「再出力」は稀なバグであり、それをゼロにすることを目指している
- ニューヨーク・タイムズは全容を伝えていない
報道機関をサポートするために、技術設計プロセスに熱心に取り組んでいます。何十もの組織や、ニュース/メディア・アライアンスなどの業界をリードする組織と会い、機会を探り、懸念事項について話し合い、解決策を提供してきました。学び、教育し、フィードバックに耳を傾け、適応することを目指しています。
健全なニュースエコシステムをサポートし、良きパートナーとなり、相互に有益な機会を作ることを目標としています。これを念頭に置き、以下の目標を達成するために報道機関とのパートナーシップを追求してきました。
- 膨大な公的記録の分析や記事の翻訳といった時間のかかる作業を支援することで、記者や編集者に利益をもたらし、サポートするために当社の製品を導入してもらう。
- 過去の非公開コンテンツを追加学習させることで、AI モデルに世界について教える。
- ChatGPT で出典元の情報とともにリアルタイムコンテンツを表示し、報道機関が読者とつながる新しい方法を提供する
Associated Press(新しいウィンドウで開く)、Axel Springer(新しいウィンドウで開く)、American Journalism Project(新しいウィンドウで開く)、NYU(新しいウィンドウで開く) との初期のパートナーシップから、私たちのアプローチを垣間見ることができます。
公開されているインターネット資料を使用した AI モデルの学習は、長年にわたり広く受け入れられている前例に裏付けされたフェアユースです。私たちは、この原則はクリエイターに公平で、イノベーターに必要であり、米国の競争力にとって極めて重要だと考えています。
AI モデルの学習がフェアユースとして許可される原則は、幅広い分野の学者(新しいウィンドウで開く)、図書館協会(新しいウィンドウで開く)、市民(新しいウィンドウで開く)社会(新しいウィンドウで開く)グループ(新しいウィンドウで開く)、スタートアップ企業(新しいウィンドウで開く)、米国の(新しいウィンドウで開く)大手(新しいウィンドウで開く)企業(新しいウィンドウで開く)、クリエイター(新しいウィンドウで開く)、著者(新しいウィンドウで開く)など(新しいウィンドウで開く)によって支持されており、最近米国著作権局にコメントを提出しました。欧州連合(新しいウィンドウで開く)、日本(新しいウィンドウで開く)、Article%2047%2D5,-(1)%E3%80%80A%20person)、シンガポール(新しいウィンドウで開く)、イスラエル(新しいウィンドウで開く)など他の地域や国でも、著作権で保護されたコンテンツでのモデル学習を許可する法律があり、これは AI の革新、進歩、投資にとって有利です。
とはいえ、私たちにとって、法的権利よりも善良な市民であることの方が重要です。私たちは、AI 業界をリードし、ツールが出版社サイトにアクセスできないようにするシンプルなオプトアウトプロセス(新しいウィンドウで開く)(ニューヨーク・タイムズが2023年8月に採用)を出版社に提供しています。
私たちのモデルは、新たな問題に適用するために概念を学習するよう設計し、学習させてきました。
暗記は、継続的に進歩させている学習プロセスにおける稀な失敗ですが、特定のコンテンツが学習データに複数回出現する場合、例えば、そのコンテンツの一部が多くの異なる公開ウェブサイトに登場するような場合に、暗記はより一般的になります。そのため、うっかりした暗記を制限し、モデル出力での再出力を防ぐ対策を講じています。また、ユーザーに対しても責任ある行動を望んでいます。意図的にモデルを操作して再出力させることは、私たちのテクノロジーの適切な使用方法ではなく、利用規約にも反しています。
人間が新しい問題を解決する方法を学ぶために幅広い教育を受けるのと同じように、私たちは AI モデルがあらゆる言語、文化、業界を含む世界中の情報を観察してほしいと考えています。モデルは膨大な人間の知識の集合体から学習するため、ニュースを含む1つの分野は学習データ全体のごく一部であり、ニューヨーク・タイムズを含む1つのデータソースは、モデルの意図する学習にとって重要ではありません。
ニューヨーク・タイムズとの話し合いは、12月19日の最終段階まで建設的に進んでいるように見えました。交渉は、ChatGPT の帰属によるリアルタイム表示を軸とした価値の高いパートナーシップに焦点が当てられ、ニューヨーク・タイムズは既存および新規の読者とつながる新しい方法を獲得し、ユーザーはその報道にアクセスできるようになります。私たちはニューヨーク・タイムズに対し、他の1つの情報源と同じく、同社のコンテンツは既存モデルの学習に有意義に貢献するものではなく、将来の学習にも十分な影響を与えるものではないと説明しました。ニューヨーク・タイムズを読んで知った12月27日の同社による訴訟は、私たちにとっては驚きと失望でした。
先ほど、同社のコンテンツが再出力されていることを述べましたが、私たちが問題を調査し修正することを約束したにもかかわらず、その事例の共有を繰り返し拒否したのです。7月、ChatGPT 機能が意図せぬ(新しいウィンドウで開く)方法でリアルタイムコンテンツを再現する可能性があることを知った直後、この機能を削除したことなど、この問題を優先事項として真剣に受け止めていることを示してきました。
興味深いことに、ニューヨーク・タイムズが述べた再出力は、複数(新しいウィンドウで開く)の第三(新しいウィンドウで開く)者(新しいウィンドウで開く)のウェブサイト(新しいウィンドウで開く)に数年前に掲載されたものであるようです。同社は、モデルに再出力させるため、意図的にプロンプトを操作し、しばしば記事の長い抜粋を含めていたようです。このようなプロンプトを使用する場合でも、私たちのモデルは通常、ニューヨーク・タイムズが示唆するような動作をしません。これは、モデルが復唱するよう指示したか、多くの試みの中から抜粋した例であることを示唆しています。
同社の主張とは裏腹に、このような誤用は典型的な、あるいは許可されたユーザーの操作ではなく、ニューヨーク・タイムズの代わりに行ったものでもありません。とはいえ、私たちは学習データを再出力させる敵対的な攻撃に対し、システムをより強化する努力を続けており、最近のモデルではすでに多くの進歩を遂げています。
私たちはニューヨーク・タイムズの訴訟には根拠がないと考えています。それでも、私たちはニューヨーク・タイムズとの建設的なパートナーシップを望んでおり、60年以上前に初めて実用化されたニューラルネットワーク(新しいウィンドウで開く)を報道し、憲法修正第1条の自由を擁護したニューヨーク・タイムズの長い歴史を尊重しています。
私たちは、報道機関との継続的な協力を通じて、AI の変革の可能性を実現し、報道機関が質の高いジャーナリズムを生み出す能力を高められるよう支援していきたいと考えています。


