メインコンテンツにスキップ
OpenAI

このページのすべての動画は Sora によって直接生成され、修正は一切加えられていません。

読み込んでいます...

私たちは AI に物理世界の動きを理解しシミュレートすることを教えています。その目標は、現実世界の相互作用が求められる問題の解決に役立つモデルを学習させることです。

テキストから動画への変換モデル「Sora」が登場。Sora はユーザーのプロンプトに従いながら、視覚的な品質を維持しつつ、最大1分間の動画を生成することができます。

本日、Sora による重要な危害やリスクを評価するため、レッドチームのメンバーへの提供が開始されることとなりました。また、ビジュアルアーティスト、デザイナー、映画制作者にもアクセスを許可し、クリエイティブ分野の専門家に最も役立つよう今後の改善に向けてフィードバックを得たいと考えています。

私たちは Sora の研究進捗を初期段階から公開し、OpenAI の外部にいる人々と協力してフィードバックを得ることで、AI の将来の能力について一般の人々にも伝えたいと考えています。

Sora は複数のキャラクターや特定の動き、対称や背景の細部を含めた複雑なシーンを生成することができます。このモデルはユーザーがプロンプトで何を求めたかだけでなく、それらが物理世界にどのように存在するかも理解します。

Sora は言語を深く理解することでプロンプトを正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成することができます。また、生成された1つの動画の中で、キャラクターやビジュアルスタイルを正確に一貫して保ちながら複数のショットを作成することもできます。

現在のモデルには依然として改善の余地があります。複雑なシーンの物理シミュレートが難しい場合や、原因と結果の具体的な事例を理解できない場合があります(例:クッキーをかじった後、そのクッキーにかじった跡がない)。また、プロンプトに含まれる空間に関する詳細、例えば右と左の区別などに混乱することがあるほか、特定のカメラの軌跡をたどるような、時間をかけて起こる出来事の正確な描写についても苦労することがあります。

安全性

OpenAI は、Sora が製品として利用可能になる前に、レッドチームと共に重要な安全措置を講じます。レッドチームは偽情報や憎悪に満ちたコンテンツ、バイアスのような分野の専門家であり、モデルの敵対的なテストを行います。

また、Sora によっていつビデオが生成されたかを識別できる検出分類器など、誤解を招くコンテンツの検出に役立つツールも構築されています。将来的にモデルを OpenAI の製品として採用する際は、C2PA メタデータ(新しいウィンドウで開く)を含める予定です。

リリースに向けて新しい技術を開発しているだけでなく、DALL·E 3 を使用した製品で構築した既存の安全対策(新しいウィンドウで開く)を活用しており、それらはSora にも適用可能です。

仮に OpenAI の製品に組み込まれた場合、テキスト分類器が極端な暴力、性的コンテンツ、憎悪的な画像、著名人の肖像権、または他者の知的財産(IP)など、利用規約に違反するテキスト入力のプロンプトをチェックし、拒否します。また、生成された各動画のフレームを確認し、ユーザーに表示される前に OpenAI の利用規約に従っていることを確保するための堅牢な画像分類器も開発しています。

私たちは、世界中の政策立案者、教育者、アーティストとの協力を進め、彼らの懸念を理解し、この新たな技術の前向きな活用方法を見出そうとしています。広範な研究とテストを行ったとしても、人々が私たちの技術をどのように有益に利用し、または悪用するかを完全に予測することはできません。だからこそ、現実世界での使用から学ぶことが、時間をかけてより安全な AI システムを構築しリリースするための重要な要素であると考えています。

研究手法について

Sora は拡散モデルであり、静的ノイズのようなものから始めて、段階的にノイズを取り除きながら動画を変換していきます。

Sora は、動画全体を一度に生成することも、生成された動画を延長して長くすることも可能です。また、このモデルは一度に多数のフレームを先読みすることで、被写体が一時的に視界から消えても一貫性が保たれるという難題を解決しました。

Sora は GPT モデルと同様に transformer アーキテクチャを採用し、優れたスケーリング性能を実現しています。

動画や画像は、GPT のトークンに似た「パッチ」と呼ばれる小さなデータの単位の集合体として表現されます。データの表現方法を統一することで、さまざまな時間、解像度、アスペクト比にまたがる、従来よりも幅広い視覚データに対して Diffusion Transformer を学習させることができます。

Sora は、DALL·E と GPT モデルの過去の研究がベースとなっています。また、DALL·E 3 のリキャプション技術(視覚的な学習データに対して非常に説明的なキャプションを生成する技術)を Sora にも適用しています。その結果、このモデルは生成された動画においてユーザのテキスト指示に、より忠実に従うことができます。

モデルは単にテキストの指示から動画を生成できるだけでなく、既存の静止画像から動画を生成し、その画像の内容を正確かつ細部にわたってアニメーション化することができます。また、既存の動画を拡張したり、欠けているフレームを埋めることも可能です。詳しくはテクニカルレポートをご覧ください

Sora は現実世界を理解しシミュレートできるモデルの基礎となるもので、汎用人工知能を実現するための重要なマイルストーンになると、私たちは考えています。

読み込み中...