Membuat video dari teks

Semua video pada halaman ini dibuat langsung oleh Sora tanpa modifikasi.

Memuat…

Kami sedang mengajarkan AI untuk memahami dan melakukan simulasi dunia fisik yang bergerak, dengan sasaran melatih model sehingga membantu orang memecahkan masalah yang memerlukan interaksi dunia nyata.

Memperkenalkan Sora, model teks-ke-video kami. Sora dapat membuat video berdurasi hingga satu menit sekaligus menjaga kualitas visual dan kepatuhan terhadap prompt pengguna.

Prompt: Wanita bergaya berjalan menyusuri jalan Tokyo yang dipenuhi lampu neon yang bersinar hangat dan papan tanda kota yang hidup. Dia mengenakan jaket kulit hitam, gaun merah yang panjang, dan sepatu bot hitam, serta membawa tas hitam. Dia memakai kacamata hitam dan lipstik merah. Dia berjalan dengan percaya diri dan santai. Jalan lembap dan memantulkan cahaya, sehingga membuat efek cermin dari lampu warna-warni. Banyak pejalan kaki berjalan-jalan.

Prompt: Beberapa mammoth berbulu raksasa mendekat sekaligus berjalan melewati padang rumput bersalju, bulu mereka yang panjang dan seperti wol berkibar lembut tertiup angin ketika mereka berjalan, pohon yang tertutup salju dan pegunungan bersalju yang dramatis di kejauhan, cahaya sore hari dengan awan tipis dan matahari yang tinggi di kejauhan membuat cahaya hangat, tampilan kamera yang rendah sangat menakjubkan menangkap mamalia berbulu besar dengan fotografi yang indah dan kedalaman lapangan.

Prompt: Cuplikan film yang menampilkan petualangan angkasawan berusia 30 tahun mengenakan helm sepeda motor dengan rajutan wol merah, langit biru, padang gurun garam, gaya sinematik, direkam dengan film 35 mm, warna cerah.

Prompt: Pemandangan drone dari ombak yang menghantam tebing terjal di sepanjang pantai titik garay Big Sur. Air biru yang menghantam menciptakan gelombang berujung putih, sedangkan cahaya keemasan matahari terbenam menerangi pantai berbatu. Pulau kecil dengan mercusuar terletak di kejauhan, dan semak-semak hijau menutupi tepi tebing. Penurunan curam dari jalan menuju pantai merupakan hal yang dramatis, dengan tepi tebing yang menjorok ke laut. Ini adalah pemandangan yang menangkap keindahan alam pantai dan bentang alam terjal Pacific Coast Highway.

Prompt: Adegan animasi menampilkan jarak dekat monster berbulu pendek yang berlutut di samping lilin merah yang meleleh. Gaya seni bersifat 3D dan realistis, dengan fokus pada pencahayaan dan tekstur. Suasananya menggambarkan rasa heran dan ingin tahu, ketika monster menatap api dengan mata terbelalak dan mulut terbuka. Pose dan ekspresinya menyampaikan rasa kepolosan dan keceriaan, seolah-olah sedang menjelajahi dunia di sekitarnya pertama kali. Penggunaan warna-warna yang hangat dan pencahayaan dramatis makin meningkatkan suasana nyaman pada gambar.

Prompt: Dunia kerajinan kertas yang digambarkan sangat indah berupa terumbu karang, penuh ikan berwarna-warni dan makhluk laut.

Prompt: Foto jarak dekat burung dara mahkota Victoria ini memperlihatkan bulu biru mencolok dan dada merah. Jambulnya terbuat dari bulu-bulu halus berenda, sedangkan matanya merah mencolok. Kepala burung sedikit miring ke samping, sehingga memberi kesan anggun dan agung. Latar belakang diburamkan, sehingga menarik perhatian pada penampilan burung yang mencolok.

Prompt: Video jarak dekat fotorealistis dari dua kapal bajak laut bertarung satu sama lain ketika mereka berlayar di dalam secangkir kopi.

Prompt: Pemuda berusia 20-an sedang duduk di atas sebongkah awan di langit dan membaca buku.

Saat ini, Sora tersedia bagi tim merah untuk menilai bidang kritis guna mengetahui bahaya atau risiko. Kami juga memberi akses ke sejumlah seniman visual, perancang, dan pembuat film untuk mendapatkan masukan tentang cara memajukan model agar paling bermanfaat bagi profesional kreatif.

Kami sedang membagikan kemajuan riset lebih awal untuk mulai bekerja sama dan mendapatkan masukan dari orang di luar OpenAI serta memberi gambaran kepada masyarakat tentang kemampuan AI yang akan datang.

Prompt: Rekaman sejarah California selama demam emas.

Prompt: Tampilan jarak dekat bola kaca yang memiliki taman zen di dalamnya. Ada kurcaci kecil di dalam bola kaca sedang menyapu taman zen dan membuat pola di pasir.

Prompt: Jarak dekat ekstrem dari mata wanita berusia 24 tahun yang berkedip, berdiri di Marrakech selama jam ajaib, film sinematik yang direkam dalam 70 mm, kedalaman bidang, warna-warna cerah, sinematik

Prompt: Kanguru kartun menari disko.

Prompt: Video buatan sendiri yang indah dan menunjukkan orang Lagos, Nigeria pada tahun 2056. Diambil dengan kamera telepon seluler.

Prompt: Cawan petri dengan hutan bambu yang tumbuh di dalamnya dan ada panda merah kecil berlarian di sekitarnya.

Prompt: Kamera berputar mengelilingi tumpukan besar televisi antik yang semuanya menampilkan program berbeda—film fiksi ilmiah tahun 1950-an, film horor, berita, tayangan statis, komedi situasi tahun 1970-an, dan lain-lain, yang berlatar di dalam galeri museum New York yang besar.

Prompt: Animasi 3D dari makhluk kecil, bulat, berbulu halus dengan mata besar dan ekspresif menjelajahi hutan penuh keajaiban dan warna. Makhluk itu, campuran unik antara kelinci dan tupai, memiliki bulu biru lembut dan ekor bergaris-garis lebat. Melompat di sepanjang aliran sungai berkilauan, matanya terbelalak karena takjub. Hutan penuh unsur-unsur magis: bunga yang bersinar dan berubah warna, pohon dengan daun bernuansa ungu dan perak, serta lampu kecil yang mengambang menyerupai kunang-kunang. Makhluk berhenti untuk berinteraksi dengan kelompok makhluk kecil seperti peri yang menari mengelilingi lingkaran jamur. Makhluk menatap kagum ke arah pohon besar dan bersinar yang terlihat menjadi jantung hutan.

Sora mampu membuat adegan rumit dengan beragam karakter, jenis gerakan tertentu, serta detail subjek dan latar belakang yang akurat. Model tidak hanya memahami hal yang diminta pengguna dalam prompt, tetapi juga cara benda-benda itu ada di dunia fisik.

Prompt: Kamera mengikuti di belakang SUV klasik berwarna putih dengan rak atap berwarna hitam saat melaju dengan kecepatan tinggi di jalan tanah yang curam dikelilingi pohon pinus di lereng gunung yang curam, debu beterbangan dari bannya, sinar matahari menyinari SUV ketika melaju di sepanjang jalan tanah, memberikan cahaya hangat di atas pemandangan. Jalan tanah berkelok lembut di kejauhan, tanpa mobil atau kendaraan lain yang terlihat. Pohon di kedua sisi jalan adalah pohon kayu merah, dengan petak tanaman hijau tersebar di mana-mana. Mobil terlihat dari belakang mengikuti tikungan dengan mudah, sehingga membuatnya tampak melaju di medan terjal yang terjal. Jalan tanah itu sendiri dikelilingi bukit dan pegunungan yang curam, dengan langit biru cerah di atasnya dengan awan tipis.

Prompt: Pantulan di jendela kereta yang melaju melewati pinggiran kota Tokyo.

Prompt: Kamera drone berputar di sekitar gereja bersejarah yang indah dan dibangun di atas bongkahan batu di sepanjang Pantai Amalfi. Pemandangan itu memperlihatkan detail arsitektur bersejarah dan megah serta jalan setapak dan teras bertingkat. Deburan ombak terlihat menghantam batu di bawah saat pemandangan menghadap cakrawala perairan pantai dan lanskap perbukitan Pantai Amalfi, Italia. Beberapa orang di kejauhan terlihat berjalan dan menikmati pemandangan di teras dengan pemandangan laut yang dramatis. Cahaya hangat matahari sore membuat nuansa magis dan romantis pada pemandangan itu. Pemandangan itu menakjubkan dan diabadikan dengan fotografi yang indah.

Prompt: Gurita oranye besar terlihat tidur di dasar laut, menyatu dengan medan berpasir dan berbatu. Tentakelnya menyebar di sekujur tubuhnya, dan matanya tertutup. Gurita tidak menyadari ada kepiting raja merangkak ke arahnya dari balik batu, capitnya terangkat dan siap menyerang. Kepiting berwarna cokelat dan berduri, dengan kaki dan antena yang panjang. Pemandangan diambil dari sudut lebar, sehingga memperlihatkan luasnya dan dalamnya lautan. Air jernih dan biru, dengan sinar matahari yang menembusnya. Bidikan tajam dan jernih, dengan jangkauan dinamis yang tinggi. Gurita dan kepiting menjadi fokus, sedangkan latar belakangnya agak kabur, menciptakan efek kedalaman bidang.

Prompt: Sekawanan pesawat kertas berkibar di tengah hutan lebat, meliuk-liuk di sekitar pohon seolah-olah mereka burung yang bermigrasi.

Prompt: Kucing membangunkan pemiliknya yang tidur dan meminta sarapan. Pemiliknya mencoba mengabaikan kucing, tetapi kucing mencoba taktik baru dan akhirnya pemilik mengeluarkan setumpuk makanan yang disembunyikan dari bawah bantal untuk menahan kucing sedikit lebih lama.

Prompt: Satwa liar Kalimantan di Sungai Kinabatangan

Prompt: Video perayaan Tahun Baru Imlek dengan Naga Tiongkok.

Model memiliki pemahaman mendalam terhadap bahasa, sehingga memungkinkan menafsirkan prompt secara akurat dan membuat karakter menarik yang mengekspresikan emosi yang hidup. Sora juga dapat membuat beberapa adegan dalam satu video yang dibuat dan secara akurat mempertahankan karakter dan gaya visual.

Prompt: Tur galeri seni dengan banyak karya seni indah dalam berbagai gaya.

Prompt: Kota Tokyo yang indah dan bersalju sangat ramai. Kamera bergerak melalui jalan kota yang ramai, mengikuti beberapa orang menikmati cuaca bersalju yang indah dan berbelanja di kios terdekat. Kelopak bunga sakura yang cantik beterbangan tertiup angin bersama butiran salju.

Prompt: Animasi stop-motion bunga yang tumbuh dari ambang jendela rumah di pinggiran kota.

Prompt: Kisah kehidupan robot berlatar cyberpunk.

Prompt: Jarak dekat ekstrem pria berambut abu-abu dengan janggut berusia 60-an. Dia berpikir keras merenungkan sejarah alam semesta ketika dia duduk di kafe di Paris. Matanya fokus pada orang di luar layar ketika mereka berjalan sementara dia duduk tidak bergerak. Dia mengenakan mantel wol dengan kemeja berkancing. Dia mengenakan baret coklat dan kacamata serta memiliki penampilan sangat mirip profesor, dan akhirnya dia memberikan senyuman tipis dengan mulut tertutup seolah-olah dia menemukan jawaban atas misteri kehidupan. Pencahayaan sangat sinematik dengan cahaya keemasan dan jalan dan kota Paris di latar belakang, kedalaman bidang, film 35 mm sinematik.

Prompt: Animasi siluet yang indah menunjukkan serigala melolong ke bulan, merasa kesepian, hingga menemukan kawanannya.

Prompt: Kota New York yang tenggelam seperti Atlantis. Ikan, paus, penyu laut, dan hiu berenang di jalanan New York.

Prompt: Sekawanan anak anjing golden retriever bermain di salju. Kepala mereka muncul dari salju, tertutupi.

Model saat ini masih memiliki ruang untuk perbaikan. Model ini dapat mengalami kesulitan membuat simulasi fisika atas kejadian yang rumit, dan mungkin tidak memahami contoh tertentu tentang sebab dan akibat (misalnya: kue mungkin tidak menunjukkan bekas setelah karakter menggigitnya). Model juga dapat mengacaukan detail spasial yang disertakan dalam prompt, seperti membedakan kiri dari kanan, atau mengalami kesulitan dengan deskripsi pasti atas kejadian yang terjadi seiring waktu, seperti lintasan kamera tertentu.

Prompt: Adegan langkah kaki seseorang yang berlari, film sinematik yang direkam dalam format 35 mm.

Kelemahan: Sora terkadang membuat gerakan yang secara fisik tidak masuk akal.

Prompt: Lima anak serigala abu-abu bermain-main dan saling kejar-kejaran di jalan kerikil terpencil, dikelilingi rumput. Anak anjing itu berlarian dan melompat, saling mengejar, menggigit satu sama lain, dan bermain.

Kelemahan: Hewan atau orang dapat muncul secara spontan, terutama dalam adegan yang memuat banyak entitas.

Prompt: Bola basket melewati ring lalu meledak.

Kelemahan: Contoh pemodelan fisik yang tidak akurat dan “perubahan” objek yang tidak alami.

Prompt: Ahli arkeologi menemukan kursi plastik biasa di padang pasir, menggali dan membersihkannya dengan sangat hati-hati.

Kelemahan: Dalam contoh ini, Sora gagal membuat model kursi sebagai objek kaku, sehingga menyebabkan interaksi fisik tidak akurat.

Prompt: Nenek dengan rambut abu-abu yang disisir rapi berdiri di belakang kue ulang tahun berwarna-warni dengan banyak lilin di meja makan kayu, dengan ekspresi penuh kegembiraan dan kebahagiaan murni, dengan pancaran bahagia di matanya. Dia mencondongkan tubuh ke depan dan meniup lilin dengan lembut, kue memiliki lapisan gula dan taburan berwarna merah muda dan lilin berhenti berkedip, nenek mengenakan blus biru muda yang dihiasi motif bunga, beberapa teman dan keluarga yang bahagia duduk di meja dapat terlihat merayakan, tidak fokus. Adegan ditangkap dengan indah, sinematik, menampilkan pandangan 3/4 dari nenek dan ruang makan. Nada warna hangat dan pencahayaan lembut meningkatkan suasana hati...

Kelemahan: Membuat simulasi interaksi yang rumit antara objek dan banyak karakter sering kali menjadi tantangan bagi model, terkadang menghasilkan sesuatu yang lucu.

Safety

Kami akan mengambil beberapa langkah keselamatan penting sebelum menyediakan Sora dalam produk OpenAI. Kami sedang bekerja dengan tim merah—pakar domain di bidang seperti misinformasi, konten kebencian, dan bias—yang akan menguji model secara berlawanan.

Kami juga membangun alat untuk membantu mendeteksi konten yang menyesatkan seperti pengklasifikasi deteksi yang dapat mengetahui kapan sebuah video dibuat oleh Sora. Kami berencana untuk menyertakan metadata C2PA⁠(terbuka di jendela baru) di masa mendatang jika kami menerapkan model dalam produk OpenAI.

Selain mengembangkan teknik baru untuk mempersiapkan penerapan, kami juga memanfaatkan metode keselamatan yang ada⁠(terbuka di jendela baru) yang kami bangun untuk produk kami yang menggunakan DALL·E 3, yang juga berlaku untuk Sora.

Misalnya, pada produk OpenAI, pembuat kategori teks kami akan memeriksa dan menolak prompt masukan teks yang melanggar kebijakan penggunaan kami, seperti prompt yang meminta kekerasan ekstrem, konten seksual, gambar yang memuat kebencian, kemiripan dengan selebritas, atau IP milik orang lain. Kami juga telah mengembangkan pembuat kategori gambar yang kuat yang digunakan untuk meninjau bingkai dari setiap video yang dibuat untuk membantu memastikan bahwa video tersebut mematuhi kebijakan penggunaan kami, sebelum ditampilkan kepada pengguna.

Kami akan melibatkan pembuat kebijakan, pendidik, dan seniman di seluruh dunia untuk memahami masalah mereka dan mengidentifikasi contoh penggunaan positif untuk teknologi baru ini. Terlepas dari riset dan pengujian yang ekstensif, kami tidak dapat memprediksi semua manfaat yang akan diperoleh orang dari penggunaan teknologi kami, maupun semua cara orang akan menyalahgunakannya. Itu sebabnya kami percaya bahwa pembelajaran dari penggunaan di dunia nyata merupakan komponen sangat penting dalam membuat dan meluncurkan sistem AI yang makin aman dari waktu ke waktu.

Prompt: Kamera langsung menghadap bangunan berwarna-warni di Burano, Italia. Anjing dalmasia yang menggemaskan melihat melalui jendela bangunan di lantai dasar. Banyak orang berjalan kaki dan bersepeda di sepanjang jalan kanal di depan bangunan.

Prompt: Berang-berang yang menggemaskan dan bahagia berdiri dengan percaya diri di atas papan selancar mengenakan jaket pelampung kuning, menyusuri perairan tropis berwarna biru kehijauan di dekat kepulauan tropis yang rimbun, dalam gaya seni render digital 3D.

Prompt: Foto jarak dekat bunglon ini menunjukkan kemampuannya mengubah warna secara mencolok. Latar belakang diburamkan, sehingga menarik perhatian pada penampilan hewan yang mencolok.

Prompt: Anjing ras corgi membuat vlog dirinya sendiri di Maui yang tropis.

Prompt: Kucing belang putih dan oranye terlihat berlari riang di tengah taman yang lebat, seolah-olah sedang mengejar sesuatu. Matanya terbuka lebar dan gembira ketika dia berlari ke depan, mengamati dahan, bunga, dan dedaunan ketika dia berjalan. Jalan setapak sempit karena berada di antara semua tanaman. Pemandangan diambil dari sudut permukaan tanah, mengikuti kucing dari dekat, memberikan perspektif yang rendah dan intim. Gambar bersifat sinematik dengan nada hangat dan tekstur kasar. Cahaya matahari yang tersebar di antara daun dan tanaman di atas membuat kontras yang hangat, menonjolkan bulu oranye kucing. Bidikan jernih dan tajam, dengan kedalaman bidang pandang yang dangkal.

Prompt: Pemandangan udara Santorini ketika momen jam biru, memperlihatkan arsitektur menakjubkan bangunan Cycladic berwarna putih dengan kubah biru. Pemandangan kaldera menakjubkan, dan pencahayaan membuat suasana yang indah dan tenteram.

Prompt: Video dengan teknik tilt-shift lokasi konstruksi yang dipenuhi pekerja, peralatan, dan mesin berat.

Prompt: Awan raksasa yang menjulang tinggi berbentuk pria tampak menjulang di atas bumi. Manusia awan menembakkan petir ke bumi.

Prompt: Anjing Samoyed dan anjing Golden Retriever sedang bermain-main sambil berlarian di kota neon futuristik di malam hari. Lampu neon yang dipancarkan dari bangunan di dekatnya berkilauan di bulu mereka.

Prompt: Jembatan Glenfinnan adalah jembatan kereta api bersejarah di Skotlandia, Kerajaan Inggris, yang melintasi garis dataran tinggi barat antara kota Mallaig dan Fort William. Pemandangan menakjubkan ketika kereta uap meninggalkan jembatan, melaju di atas jembatan layang yang ditutupi lengkungan. Pemandangan dihiasi dengan pohon hijau subur dan pegunungan berbatu, membuat latar yang indah untuk perjalanan kereta api. Langit biru dan matahari bersinar, membuat hari yang indah untuk menjelajahi tempat megah ini.

Teknik riset

Sora adalah model difusi, yang membuat video dari memulai dengan video yang terlihat seperti kebisingan statis dan secara bertahap mengubahnya dengan menghilangkan derau dalam banyak langkah.

Sora mampu membuat seluruh video sekaligus atau memperluas video yang dibuat agar menjadi lebih panjang. Dengan memberi model pandangan ke depan dari banyak bingkai pada satu waktu, kami telah memecahkan masalah menantang untuk memastikan subjek tetap sama bahkan ketika subjek tidak terlihat sementara waktu.

Mirip model GPT, Sora menggunakan arsitektur transformer, sehingga menghasilkan kinerja peningkatan skala yang unggul.

Kami merepresentasikan video dan gambar sebagai kumpulan unit data yang lebih kecil yang disebut patch, yang masing-masing mirip dengan token dalam GPT. Dengan menyatukan cara kita mewakili data, kita dapat melatih transformer difusi pada rentang data visual lebih luas dari yang mungkin ada sebelumnya, yang mencakup durasi, resolusi, dan rasio aspek yang berbeda.

Sora dikembangkan berdasarkan penelitian sebelumnya pada model DALL·E dan GPT. Sora menggunakan teknik pembuatan teks ulang dari DALL·E 3, sehingga meliputi pembuatan teks yang sangat deskriptif untuk data pelatihan visual. Hasilnya, model tersebut mampu mengikuti instruksi teks pengguna dalam video yang dibuat dengan lebih tepat.

Selain mampu membuat video hanya dari instruksi teks, model ini mampu mengambil gambar diam yang ada dan membuat video dari gambar, membuat animasi konten gambar dengan keakuratan dan memperhatikan detail kecil. Model tersebut juga dapat mengambil video yang ada dan memperluasnya atau mengisi bingkai yang hilang. Pelajari selengkapnya dalam laporan teknis kami⁠.

Sora berfungsi sebagai fondasi bagi model yang dapat memahami dan membuat simulasi dunia nyata, kemampuan yang kami yakini akan menjadi pencapaian untuk mencapai AGI.

Memuat...