テキストから動画を作成する

このページのすべての動画は Sora によって直接生成され、修正は一切加えられていません。

読み込んでいます...

私たちは AI に物理世界の動きを理解しシミュレートすることを教えています。その目標は、現実世界の相互作用が求められる問題の解決に役立つモデルを学習させることです。

テキストから動画への変換モデル「Sora」が登場。Sora はユーザーのプロンプトに従いながら、視覚的な品質を維持しつつ、最大1分間の動画を生成することができます。

プロンプト：あたたかい光を放つネオンや賑やかな看板であふれた東京の街をスタイリッシュな女性が歩いている。彼女は黒のレザージャケットと赤のロングドレス、黒のブーツを着用し、黒いバッグを持っている。サングラスをかけており、赤い口紅をつけている。自信たっぷりに、リラックスした様子で歩いている。路面は雨に濡れ、色とりどりの光が鏡のように反射して映し出されている。多くの歩行者が行き交っている。

プロンプト：数頭の巨大な毛むくじゃらのマンモスが雪原を踏みしめながら近づいてくる。歩くたびに長い毛むくじゃらの毛が風になびいている。遠くには雪に覆われた木々と、ドラマチックに雪を頂いた山々が見える。うっすらした雲と遠くに高く昇った太陽の昼下がりの光があたたかな輝きを放ち、低いカメラアングルがその巨大な毛むくじゃらのマンモスを美しい撮影と被写界深度で見事に捉えている。

プロンプト：赤い毛糸で編まれたバイク用ヘルメットをかぶった30歳の宇宙飛行士が冒険する映画の予告編。空は青く、塩の砂漠が広がり、映画のようなスタイル。35mmフィルムで撮影され、鮮やかな色彩が特徴。

プロンプト：ビッグサーのガライポイントビーチ沿いの険しい崖に打ち寄せる波のドローン映像。打ち寄せる青い水が白い波を生み出し、夕日が岩だらけの海岸を黄金色に照らしている。遠くには灯台のある小さな島があり、崖の縁には緑の低木が茂っている。道路からビーチへと続く急な坂道はドラマチックにで、崖の縁は海に突き出ている。これは、海岸の自然の美しさとパシフィックコーストハイウェイの険しい景観を捉えた光景である。

プロンプト：背の低いふわふわのモンスターが、溶けた赤いキャンドルの横にひざまずく様子がクローズアップで描かれているアニメーションの一場面。アートスタイルは3D でリアルに描かれ、照明と質感に重点が置かれている。モンスターは目を見開き口を開けて炎を見つめ、不思議さと好奇心が漂っている。そのポーズと表情には無邪気さと遊び心があり、まるで初めて周りの世界を探索しているかのよう。暖色系の色使いとドラマチックな照明が、映像の居心地の良い雰囲気をさらに引き立てている。

プロンプト：色とりどりの魚や海の生物でいっぱいの、サンゴ礁が美しく描かれたペーパークラフトの世界。

プロンプト：オウギバトのクローズアップ映像で、鮮やかな青い羽毛と胸元の赤さが強調されている。羽冠は繊細なレースのような羽毛でできており、目は鮮やかな赤。鳥の頭はわずかに横に傾いており、威厳を感じさせ堂々としてみえる。背景はぼやけており、鳥の際立つ外見に注意が向くようになっている。

プロンプト：2隻の海賊船がコーヒーカップの中を航行しながら戦う写実的なクローズアップ動画。

プロンプト：雲の上に座って本を読む20代の若い男性の動画。

本日、Sora による重要な危害やリスクを評価するため、レッドチームのメンバーへの提供が開始されることとなりました。また、ビジュアルアーティスト、デザイナー、映画制作者にもアクセスを許可し、クリエイティブ分野の専門家に最も役立つよう今後の改善に向けてフィードバックを得たいと考えています。

私たちは Sora の研究進捗を初期段階から公開し、OpenAI の外部にいる人々と協力してフィードバックを得ることで、AI の将来の能力について一般の人々にも伝えたいと考えています。

プロンプト：ゴールドラッシュ時代のカリフォルニアの歴史的映像。

プロンプト：枯山水が中にあるガラスの球体のクローズアップ映像。球体の中には小さな小人がいて、熊手で砂に枯山水の模様を作っている。

プロンプト：マラケシュでマジックアワーにたたずむ24歳の女性がまばたきする極端なクローズアップ。70mmで撮影された映画のようなフィルムで、被写界深度があり、鮮やかな色彩で映画のよう

プロンプト：ディスコダンスを踊る漫画のカンガルー。

プロンプト：2056年のナイジェリア、ラゴスの人々を映した美しいホームビデオ。携帯電話のカメラで撮影されている。

プロンプト：シャーレの中に竹林が生い茂り、その中で赤い小さなレッサーパンダが走り回っている。

プロンプト：さまざまな番組を映しているヴィンテージテレビが山のように積み重なり、その周りをカメラが旋回している。1950年代の SF映画、ホラー映画、ニュース、砂嵐、1970年代のシットコムなどが映し出され、ニューヨークの博物館の広いギャラリーに配置されている。

プロンプト：大きくて表情豊かな目を持つ小さくて丸く、ふわふわした生き物が、活気のある魔法のような森を探索する3D アニメーション。その生き物は、ウサギとリスが混ざったような空想的な姿をしていて、柔らかな青い毛皮と、ふわふわした縞模様の尾を持っている。それはきらめく小川に沿ってぴょんぴょん跳ねながら、目を見開いて驚きを感じている。森は、光って色が変わる花や、紫色や銀色の葉を持つ木々、ホタルに似た小さな浮遊する光など、魔法の要素で生き生きとしている。その生き物は、キノコの輪の周りで踊っている小さな妖精のような群れと楽しく触れ合うために立ち止まる。その生き物は、森の中心であるかのように見える大きな光る木を驚きと共に見上げる。

Sora は複数のキャラクターや特定の動き、対称や背景の細部を含めた複雑なシーンを生成することができます。このモデルはユーザーがプロンプトで何を求めたかだけでなく、それらが物理世界にどのように存在するかも理解します。

プロンプト：黒いルーフラックを備えた白い年代物の SUV の後ろをカメラが追いかける。 SUV は山の急斜面に広がる松の木々に囲まれた未舗装の坂道を疾走する。タイヤからは土ぼこりが舞い上がり、未舗装の道路を疾走する SUV を日差しが照らし、シーン全体にあたたかな輝きをもたらしている。未舗装の道は進むにつれゆるやかにカーブし、他の車や乗り物の姿はない。道の両側のセコイアの木々の間に、緑の草木が点在している。緩やかなカーブを軽快に曲がる車を後方から捉え、険しい地形を突き進むハードなドライブのようにみえる。未舗装道路は急な丘や山に囲まれ、空は青く澄み細い雲が浮かんでいる。

プロンプト：東京郊外を走る電車の窓に映る反射映像。

プロンプト：ドローンカメラが、アマルフィ海岸沿いの大きく突き出た岩に建つ美しい歴史的な教会を旋回する。歴史的で壮大な建築の細部や段々になった小道、パティオが見える。イタリアのアマルフィ海岸の水平線と丘陵の風景を見渡す眺めが広がる中で、下の岩に打ち寄せる波が見える。遠くには数人の人々がおり、ドラマチックな海の景色を望むパティオを歩きながら景色を堪能している様子が見受けられる。午後の日差しのあたたかい光がこのシーンに魔法のようなロマンチックな雰囲気を与え、美しい映像でその見事な景色が捉えられている。

プロンプト：大きなオレンジ色のタコが海底に横たわり、砂や岩の地形に溶け込んでいる。タコの触手は体の周りに広がり、目を閉じている。タコは、岩の後ろから忍び寄り鉤爪を上げて攻撃の準備をしているタラバガニに気づいていない。タラバガニは茶色でトゲトゲしており、長い足と触角を持っている。シーンは広角で撮影されており、海の広大さと深さが示されている。水は澄んで青く、日光が差し込んでいる。映像はシャープかつ鮮明で、高いダイナミックレンジを持つ。タコとカニに焦点があたり、背景はわずかにぼかされており、被写界深度効果を生み出している。

プロンプト：紙飛行機の群れが密林をひらひらと飛びながら、まるで渡り鳥のように木々の間を縫うように飛んでいく。

プロンプト：猫が朝食を要求し、寝ている飼い主を起こそうとしている。飼い主は猫を無視しようとするが、猫は新しい戦術を試み、最終的に飼い主は枕の下にこっそり隠していた秘密のおやつを取り出して、もう少しの間猫を近づけないようにする。

プロンプト：キナバタンガン川の上のボルネオの野生生物

プロンプト：チャイニーズドラゴンがいる中国の旧正月のお祝いの動画。

Sora は言語を深く理解することでプロンプトを正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成することができます。また、生成された1つの動画の中で、キャラクターやビジュアルスタイルを正確に一貫して保ちながら複数のショットを作成することもできます。

プロンプト：さまざまなスタイルの美しいアート作品が展示されている美術館のツアー。

プロンプト：雪が積もった美しい東京の街は賑わっている。美しい雪景色を楽しみながら近くの屋台で買い物をする人々を追いかけながら、カメラは賑やかな街の通りを移動する。華やかな桜の花びらが雪片と共に風を切って舞っている。

プロンプト：郊外の家の窓辺で花が成長していくストップモーションのアニメーション。

プロンプト：サイバーパンクの世界にいるロボットの生活を描くストーリー。

プロンプト：60代のひげを生やした白髪の男性の極端なクローズアップ。彼はパリのカフェに座り、宇宙の歴史について深く考え込んでいる。彼の目は画面の外を歩く人々を見つめ、ほとんど動かずに座っている。ウールのコートとボタンダウンシャツを着ており、茶色のベレー帽をかぶり、眼鏡をかけて、非常に教授風の外見をしている。最後には、人生の謎の答えを見つけたかのように、口を閉じたまま控えめに微笑む。照明は非常にシネマティックで、金色の光が差し込み、黄金の光とパリの街並みが背景に広がっている。被写界深度、シネマティックな35mmフィルムの映像。

プロンプト：オオカミが月に向かって遠吠えするシルエットが美しいアニメーション。仲間を見つけるまで寂しそうにみえる。

プロンプト：アトランティスのように水没したニューヨーク。魚、クジラ、ウミガメ、サメがニューヨークの街を泳ぎ回る。

プロンプト：雪の中で遊ぶゴールデン・レトリバーの兄弟の子犬たち。雪の中から飛び出してきた子犬の頭は雪に覆われている。

現在のモデルには依然として改善の余地があります。複雑なシーンの物理シミュレートが難しい場合や、原因と結果の具体的な事例を理解できない場合があります（例：クッキーをかじった後、そのクッキーにかじった跡がない）。また、プロンプトに含まれる空間に関する詳細、例えば右と左の区別などに混乱することがあるほか、特定のカメラの軌跡をたどるような、時間をかけて起こる出来事の正確な描写についても苦労することがあります。

プロンプト：ランニングしている人のステップ・プリンティングシーン、35mmフィルムで撮影された映画的な映像。

弱点：Sora はしばしば、物理的にあり得ない動きを作り出します。

プロンプト：草地に囲まれた田舎の砂利道で5匹のハイイロオオカミの子どもたちがはしゃぎながら追いかけっこをしている。走ったり飛び跳ねたりしながら、お互いを追いかけ噛みつきあって遊んでいる。

弱点：特に複数の物体や存在が描かれている場面では、動物や人々が自然に現れることがあります。

プロンプト：バスケットボールがリングをくぐり爆発する。

弱点：不正確な物理的モデリングと不自然なオブジェクトの「モーフィング」の一例。

プロンプト：考古学者たちが砂漠でどこにでもあるようなプラスチック椅子を発見し、丁寧に発掘して砂を払っている。

弱点：この例では、Sora が椅子を硬い物体としてモデル化できておらず、そのため物理的な相互作用が不正確になっています。

プロンプト：白髪をきれいに整えたおばあさんが、木製のダイニングルームのテーブルに置かれたたくさんのろうそくが立てられたカラフルなバースデーケーキの後ろに立っている。その表情は純粋な喜びと幸福感に満ちており、目には幸せそうな輝きがある。彼女は前かがみになり、優しく息を吹きかけてろうそくを吹き消す。ケーキにはピンク色のフロスティングとスプリンクルが施され、ろうそくの火が消える。おばあさんは花柄模様のライトブルーのブラウスを着ている。何人かの幸せそうな友人や家族が座ってお祝いをしている姿が背景にぼんやりと見える。そのシーンは美しく映画のように捉えられており、おばあさんとダイニングルームが3/4ほど見えている。あたたかい色調と柔らかな照明が雰囲気を引き立てている。

弱点：物体や複数のキャラクター間の複雑な相互作用をシミュレーションすることはモデルにとってしばしば難しく、その結果おかしな結果が生まれることがあります。

安全性

OpenAI は、Sora が製品として利用可能になる前に、レッドチームと共に重要な安全措置を講じます。レッドチームは偽情報や憎悪に満ちたコンテンツ、バイアスのような分野の専門家であり、モデルの敵対的なテストを行います。

また、Sora によっていつビデオが生成されたかを識別できる検出分類器など、誤解を招くコンテンツの検出に役立つツールも構築されています。将来的にモデルを OpenAI の製品として採用する際は、C2PA メタデータ⁠（新しいウィンドウで開く）を含める予定です。

リリースに向けて新しい技術を開発しているだけでなく、DALL·E 3 を使用した製品で構築した既存の安全対策⁠（新しいウィンドウで開く）を活用しており、それらはSora にも適用可能です。

仮に OpenAI の製品に組み込まれた場合、テキスト分類器が極端な暴力、性的コンテンツ、憎悪的な画像、著名人の肖像権、または他者の知的財産（IP）など、利用規約に違反するテキスト入力のプロンプトをチェックし、拒否します。また、生成された各動画のフレームを確認し、ユーザーに表示される前に OpenAI の利用規約に従っていることを確保するための堅牢な画像分類器も開発しています。

私たちは、世界中の政策立案者、教育者、アーティストとの協力を進め、彼らの懸念を理解し、この新たな技術の前向きな活用方法を見出そうとしています。広範な研究とテストを行ったとしても、人々が私たちの技術をどのように有益に利用し、または悪用するかを完全に予測することはできません。だからこそ、現実世界での使用から学ぶことが、時間をかけてより安全な AI システムを構築しリリースするための重要な要素であると考えています。

プロンプト：イタリアのブラーノ島にあるカラフルな建物を真正面から撮影している。かわいらしいダルメシアンが建物の1階の窓から外を覗いている。多くの人々が建物の前の運河沿いの通りを歩いたり、自転車に乗ったりしている。

プロンプト：愛らしい幸せそうなカワウソが、黄色いライフジャケットを着てサーフボードに堂々と立ち、緑豊かな南国の島々の近くでターコイズブルーの熱帯の海をサーフィンしている姿を3D レンダリングデジタルアートスタイルで。

プロンプト：カメレオンの色が変わる驚くべき能力を際立たせたクローズアップ映像。背景はぼやけており、カメレオンの際立つ外見に注意が向くようになっている。

プロンプト：トロピカルなマウイ島で自分の Vlog を撮るコーギー。

プロンプト：白とオレンジのトラ猫が、何かを追いかけているかのように鬱蒼とした庭を楽しそうに駆け抜けている。その目は大きく開かれ幸せそうに見え、枝や花、葉っぱを見まわしながら小走りに前へと進んでいく。生い茂る植物の間に出来たような細い道が続いている。シーンは地面からのアングルで捉えられ、猫を間近で追いかけているため、低い位置で視点は親密さを感じられる。映画のような雰囲気で、あたたかみのある色調とざらついた質感が特徴。木々や植物の間から漏れる日光があたたかなコントラストを生み出し、猫のオレンジ色の毛並みを際立たせている。映像は鮮明でシャープであり、被写界深度は浅い。

プロンプト：サントリーニのブルーアワーの空撮。白いキクラデス様式の建物と青いドームが織りなす美しい建築が映し出されている。カルデラの景色は息をのむほど美しく、照明が美しく落ち着いた雰囲気を醸し出している。

プロンプト：建設現場のティルトシフト撮影で、作業員、機材、重機が並ぶ。

プロンプト：人の形をした巨大でそびえ立つ雲が地球の上に現れ、地球に向かって稲妻を放つ。

プロンプト：サモエドとゴールデン・レトリーバーが、未来的なネオンが輝く夜の都市を、はしゃぎながら駆け回っている。周囲のビルから発せられるネオンの光が、犬たちの毛にきらめきながら反射している。

プロンプト：グレンフィナン高架橋はイギリスのスコットランドにある歴史的な鉄道橋で、マレイグとフォート・ウィリアムの町を結ぶ西ハイランド線にある。アーチ構造の高架橋の上を蒸気機関車が走り、橋を渡っていく光景は圧巻だ。青々とした緑と岩山が点在する風景は、列車の旅を絵のように美しい背景にしている。空は青く、太陽は輝き、この壮大なスポットを散策するには絶好の日だ。

研究手法について

Sora は拡散モデルであり、静的ノイズのようなものから始めて、段階的にノイズを取り除きながら動画を変換していきます。

Sora は、動画全体を一度に生成することも、生成された動画を延長して長くすることも可能です。また、このモデルは一度に多数のフレームを先読みすることで、被写体が一時的に視界から消えても一貫性が保たれるという難題を解決しました。

Sora は GPT モデルと同様に transformer アーキテクチャを採用し、優れたスケーリング性能を実現しています。

動画や画像は、GPT のトークンに似た「パッチ」と呼ばれる小さなデータの単位の集合体として表現されます。データの表現方法を統一することで、さまざまな時間、解像度、アスペクト比にまたがる、従来よりも幅広い視覚データに対して Diffusion Transformer を学習させることができます。

Sora は、DALL·E と GPT モデルの過去の研究がベースとなっています。また、DALL·E 3 のリキャプション技術（視覚的な学習データに対して非常に説明的なキャプションを生成する技術）を Sora にも適用しています。その結果、このモデルは生成された動画においてユーザのテキスト指示に、より忠実に従うことができます。

モデルは単にテキストの指示から動画を生成できるだけでなく、既存の静止画像から動画を生成し、その画像の内容を正確かつ細部にわたってアニメーション化することができます。また、既存の動画を拡張したり、欠けているフレームを埋めることも可能です。詳しくはテクニカルレポートをご覧ください⁠。

Sora は現実世界を理解しシミュレートできるモデルの基礎となるもので、汎用人工知能を実現するための重要なマイルストーンになると、私たちは考えています。

読み込み中...