2024年5月7日

OpenAI のデータと AI へのアプローチ

読み込んでいます...

AI はすべての人に機会を拡大します。AI システムは、情報を新たな形で変換することで問題解決や自己表現の手助けをしています。現在、ChatGPT のような AI ツールは、ケニアやインドの農家の作物の収穫量を増やし（Digital Green⁠）、研究者が創薬を加速させる支援をし（Moderna⁠）、政府職員の日々の業務を助け（米ペンシルバニア州⁠（新しいウィンドウで開く））、教育者が学生の学習体験を向上させ⁠、視覚障害者が世界を移動する手助けをする（Be My Eyes⁠）など、世界中のさまざまな分野で活用されています。さらに、DALL·E⁠ や Sora⁠ （現在研究プレビュー段階）などの AI ツールは、アーティストを目指す人々から映画製作者⁠に至るまで、クリエイターたちに力を与えています⁠。

私たちの使命は、人類全体に利益をもたらすことです。これには、ユーザーだけでなく、クリエイターやパブリッシャーも含まれます。AI 時代におけるコンテンツ利用に関して、法的前例や健全な公共政策が学習の「フェアユース」（公正な利用）を支えるものであると信じている一方、広く有益な社会契約の発展に貢献することも重要だと感じています。

AI システムは、クリエイターやコンテンツ所有者の選択を尊重し、利益をもたらすべきだと私たちは考えています。そのため、コンテンツ所有者の意向を反映させるために業界をリードするシステムの改善を続けており、クリエイターやパブリッシャーにとって活気あるエコシステムを促進する製品やビジネスモデルの構築に努めています。

私たちはプロの作家でも、アーティストでも、ジャーナリストでもなく、そうした業界に従事しているわけでもありません。そうした職業の方々がより多くのものを創造し、より多くの成果を上げる手助けをするためのツールの構築に重点を置いています。そのため、これらのコミュニティの皆様の声に耳を傾け、緊密に連携し、今後も対話を続けていきます。以下に、私たちの現状と今後の展望について、さらに詳しくお伝えします。

OpenAI は、AI におけるクリエイターやコンテンツ所有者の選択を尊重します

数十年前、ウェブパブリッシャーがウェブクローラーによるウェブサイトへのアクセス範囲を指示するために「robots.txt」という標準が導入され、インターネットのエコシステムで自発的に採用されました。

OpenAI は昨年夏、AI に対するウェブクローラーの利用許可を先駆けて導入しました。これにより、ウェブサイトの管理者は自分たちのコンテンツが AI にどのように利用されるかについて、希望を表明できるようになりました。私たちは、新しいモデルを学習させるたびに、これらの希望を考慮に入れています。

とはいえ、これらは不完全な解決策であることも理解しています。なぜなら、クリエイターは自分のコンテンツが掲載されるウェブサイトを管理していない場合が多く、コンテンツはしばしば引用され、レビューされ、リミックスされ、再投稿され、複数のドメインでインスピレーションとして使用されるからです。コンテンツ所有者が AI システムにおける自分のコンテンツの使用に関して希望を表明できる、効率的でスケーラブルな解決策が求められています。

自分のコンテンツが AI 学習でどのように使われるかを管理できる、Media Manager を開発中です

OpenAI は、クリエイターやコンテンツ所有者が自分たちが所有するコンテンツを伝え、それが機械学習の研究や学習にどのように含まれるか、または除外されるかを指定できるツール、Media Manager を開発しています。将来的に、さらなる選択肢や機能が追加される予定です。

これには、著作権で保護されたテキスト、画像、音声、ビデオを複数のソースから識別し、クリエイターの希望を反映させるための初めてのツールを作るため、最先端の機械学習研究を必要とします。

クリエイター、コンテンツ所有者、規制当局と協力しながら Media Manager の開発を進めており、2025年までにこのツールを導入することを目標とし、AI 業界全体の標準となることを願っています。

ユーザー、クリエイター、パブリッシャーが活気に満ちたエコシステムで利益を得られる製品を開発しています

私たちは現在、ユーザーよりも広告主のために作られ、質よりも量が重視されるアテンション・エコノミーの中で生きています。私たちの目標は AI を活用してこの流れを変えることであり、クリエイターやパブリッシャーを支援し、ユーザー体験を向上させることを目指しています。

製品をより有用な情報検索エンジンにするため、継続的に改善を加えています。最近では、ChatGPT のソースリンクを改善⁠（新しいウィンドウで開く）し、ユーザーにより良いコンテキストを提供することで、ウェブパブリッシャーが新たな方法でオーディエンスとつながる手助けをしています。

また、パートナーと協力して各社のコンテンツを OpenAI の製品で提供し、読者とのつながりを強化しています。Financial Times⁠ や Le Monde⁠、Prisa Media⁠、Axel Springer⁠ など、世界的なニュースパブリッシャーとのパートナーシップを発表し、そのコンテンツを ChatGPT で提供することで、ニュースに関するユーザー体験の充実を図っています。さらなるイノベーションも進行中です。パートナーのコンテンツは、ユーザーに対して関連性の高いコンテンツを提供するための ChatGPT の学習に利用されると共に、ニュースルーム向けツールの改善にも使用される予定です。

こうしたパートナーシップは、パートナーやそのユーザーに利益をもたらすように設計されており、 OpenAI のモデルが各社の従業員、顧客、コミュニティにとってより役立つことを目指しています。教育リソースの拡充を支援するため、非営利団体のカーンアカデミー⁠や英国の ExamSolutions⁠（新しいウィンドウで開く）と提携し、AI モデルの数学パフォーマンスを改善しました。これにより、同団体のプラットフォーム上で AI による個別指導をより多くの人々に提供することができるようになりました。

基盤となる AI モデルとその構築方法について

AI モデルを「データベース」ではなく、「学習する機械」として設計しています

AI モデルはデータベースのようにデータを保存するのではなく、情報の関係性から学び、新しいものを生み出します。言語モデルを学習させる際には、数兆もの単語を使用して、単語間の関係とそれを生成した基盤となるプロセスを最もよく表す方程式をコンピューターに導き出させます。学習プロセスが完了した後、AI モデルは学習中に分析されたデータにアクセスすることはありません。ChatGPT は多くの事前学習から学んだ教師のようなものであり、概念同士の関係を学んだからこそ説明できるのであって、その教科書が頭の中に蓄積されているわけではないのです。

OpenAI のモデルは、新しいコンテンツやアイデアを生成するために設計されており、コンテンツを繰り返したり、「再利用」したりするものではありません。AI モデルはパブリックドメインにある事実をもとに回答を提供することができます。まれに、モデルが表現豊かなコンテンツを意図せず繰り返す場合がありますが、それは機械学習プロセスの失敗です。この失敗は、学習データセットの中で頻繁に登場するコンテンツ、例えば複数の異なる公共のウェブサイトに頻繁に引用されるコンテンツで発生しやすくなります。私たちは API や ChatGPT の学習と出力の過程において、最先端の技術を採用して繰り返しを防ぎ、継続的な研究開発を通じて改善を続けています。

幅広い多様なデータを活用し、すべての人に最適な AI を構築しています

私たちは、できるだけ多くの言語、文化、テーマ、業界から学習することによって、AI モデルが最大限多くの人々に利益をもたすようにしたいと考えています。データセットが多様であればあるほど、AI モデルの知識、理解、そして言語も豊かになります。これは、さまざまな文化的視点や経験に触れた人のように、AI もより多くの人々や国々に安全にサービスを提供できるようになることを意味します。

基礎モデルは世代が新しくなるたび、新しいデータセットを用いて一から学習を始めます。私たちは常にアーキテクチャを改善し、以前のモデルをはるかに超えるデータセットの規模と多様性を拡大しています。AI 分野の大手企業とは異なり、OpenAI には数十年にわたって収集された膨大なデータからなるコーパスはありません。主に一般に公開されている情報を使って、モデルに有益な存在になる方法を学ばせています。

次のような方法でモデルの学習を行っています：

公開されているデータ、主に業界標準の機械学習用データセットやウェブクローリングによって収集されたデータを使用しています。これは検索エンジンと似た方法です。ペイウォールを設けてあるソースや、主に個人を特定できる情報を集約したもの、ポリシーに違反するコンテンツ、またはオプトアウトされたものは除外します。
パートナーシップ⁠からの独自データを活用しています。OpenAI はアーカイブやメタデータなど非公開のコンテンツにアクセスするために、データパートナーシップを結んでいます。パートナーは、大手のプライベート動画ライブラリ（Sora の学習用に画像や動画を使用）からアイスランド政府⁠（アイスランド語の保存支援）まで多岐にわたります。純粋に一般公開されている情報に対して、有償のパートナーシップ契約を結ぶことはありません。
AI トレーナー、レッドチームメンバー、従業員、ユーザー（データコントロール設定によりモデル改善への貢献を許可しているユーザー）からのヒューマンフィードバックを活用しています。

個人情報や機密情報の処理を最小限に抑えるよう配慮するほか、モデルが個人情報や機密情報を提供しないように学習を行っています。学習において安全に生データを使用するためにさまざまな技術を用い、データのクレンジングや準備、生成には AI モデルの活用が進んでいます。

ユーザーのビジネスデータ（ChatGPT Team、ChatGPT Enterprise、API プラットフォームのデータ含む）を学習に使用することはありません。また、ChatGPT Free および ChatGPT Plus ユーザーは、設定⁠（新しいウィンドウで開く）を通じて今後のモデル改善に貢献するかどうかを管理できます。

私たちはパートナーシップを構築しています

AI の進化は目覚ましく、私たちの目標は一企業の力だけでは実現できないことを認識しています。私たちは、クリエイターやパブリッシャーと協力し、相互に有益なパートナーシップを築き、健全なエコシステムをサポートし、新たな経済モデルを探求することに全力を尽くしています。これらの重要な課題に共に取り組んでくださるユーザーやパートナーの皆様に感謝いたします。

著者

OpenAI