Langsung ke konten utama
OpenAI

Semua video pada halaman ini dibuat langsung oleh Sora tanpa modifikasi.

Memuat…

Kami sedang mengajarkan AI untuk memahami dan melakukan simulasi dunia fisik yang bergerak, dengan sasaran melatih model sehingga membantu orang memecahkan masalah yang memerlukan interaksi dunia nyata.

Memperkenalkan Sora, model teks-ke-video kami. Sora dapat membuat video berdurasi hingga satu menit sekaligus menjaga kualitas visual dan kepatuhan terhadap prompt pengguna.

Saat ini, Sora tersedia bagi tim merah untuk menilai bidang kritis guna mengetahui bahaya atau risiko. Kami juga memberi akses ke sejumlah seniman visual, perancang, dan pembuat film untuk mendapatkan masukan tentang cara memajukan model agar paling bermanfaat bagi profesional kreatif.

Kami sedang membagikan kemajuan riset lebih awal untuk mulai bekerja sama dan mendapatkan masukan dari orang di luar OpenAI serta memberi gambaran kepada masyarakat tentang kemampuan AI yang akan datang.

Sora mampu membuat adegan rumit dengan beragam karakter, jenis gerakan tertentu, serta detail subjek dan latar belakang yang akurat. Model tidak hanya memahami hal yang diminta pengguna dalam prompt, tetapi juga cara benda-benda itu ada di dunia fisik.

Model memiliki pemahaman mendalam terhadap bahasa, sehingga memungkinkan menafsirkan prompt secara akurat dan membuat karakter menarik yang mengekspresikan emosi yang hidup. Sora juga dapat membuat beberapa adegan dalam satu video yang dibuat dan secara akurat mempertahankan karakter dan gaya visual.

Model saat ini masih memiliki ruang untuk perbaikan. Model ini dapat mengalami kesulitan membuat simulasi fisika atas kejadian yang rumit, dan mungkin tidak memahami contoh tertentu tentang sebab dan akibat (misalnya: kue mungkin tidak menunjukkan bekas setelah karakter menggigitnya). Model juga dapat mengacaukan detail spasial yang disertakan dalam prompt, seperti membedakan kiri dari kanan, atau mengalami kesulitan dengan deskripsi pasti atas kejadian yang terjadi seiring waktu, seperti lintasan kamera tertentu.

Safety

Kami akan mengambil beberapa langkah keselamatan penting sebelum menyediakan Sora dalam produk OpenAI. Kami sedang bekerja dengan tim merah—pakar domain di bidang seperti misinformasi, konten kebencian, dan bias—yang akan menguji model secara berlawanan.

Kami juga membangun alat untuk membantu mendeteksi konten yang menyesatkan seperti pengklasifikasi deteksi yang dapat mengetahui kapan sebuah video dibuat oleh Sora. Kami berencana untuk menyertakan metadata C2PA(terbuka di jendela baru) di masa mendatang jika kami menerapkan model dalam produk OpenAI.

Selain mengembangkan teknik baru untuk mempersiapkan penerapan, kami juga memanfaatkan metode keselamatan yang ada(terbuka di jendela baru) yang kami bangun untuk produk kami yang menggunakan DALL·E 3, yang juga berlaku untuk Sora.

Misalnya, pada produk OpenAI, pembuat kategori teks kami akan memeriksa dan menolak prompt masukan teks yang melanggar kebijakan penggunaan kami, seperti prompt yang meminta kekerasan ekstrem, konten seksual, gambar yang memuat kebencian, kemiripan dengan selebritas, atau IP milik orang lain. Kami juga telah mengembangkan pembuat kategori gambar yang kuat yang digunakan untuk meninjau bingkai dari setiap video yang dibuat untuk membantu memastikan bahwa video tersebut mematuhi kebijakan penggunaan kami, sebelum ditampilkan kepada pengguna.

Kami akan melibatkan pembuat kebijakan, pendidik, dan seniman di seluruh dunia untuk memahami masalah mereka dan mengidentifikasi contoh penggunaan positif untuk teknologi baru ini. Terlepas dari riset dan pengujian yang ekstensif, kami tidak dapat memprediksi semua manfaat yang akan diperoleh orang dari penggunaan teknologi kami, maupun semua cara orang akan menyalahgunakannya. Itu sebabnya kami percaya bahwa pembelajaran dari penggunaan di dunia nyata merupakan komponen sangat penting dalam membuat dan meluncurkan sistem AI yang makin aman dari waktu ke waktu.

Teknik riset

Sora adalah model difusi, yang membuat video dari memulai dengan video yang terlihat seperti kebisingan statis dan secara bertahap mengubahnya dengan menghilangkan derau dalam banyak langkah.

Sora mampu membuat seluruh video sekaligus atau memperluas video yang dibuat agar menjadi lebih panjang. Dengan memberi model pandangan ke depan dari banyak bingkai pada satu waktu, kami telah memecahkan masalah menantang untuk memastikan subjek tetap sama bahkan ketika subjek tidak terlihat sementara waktu.

Mirip model GPT, Sora menggunakan arsitektur transformer, sehingga menghasilkan kinerja peningkatan skala yang unggul.

Kami merepresentasikan video dan gambar sebagai kumpulan unit data yang lebih kecil yang disebut patch, yang masing-masing mirip dengan token dalam GPT. Dengan menyatukan cara kita mewakili data, kita dapat melatih transformer difusi pada rentang data visual lebih luas dari yang mungkin ada sebelumnya, yang mencakup durasi, resolusi, dan rasio aspek yang berbeda.

Sora dikembangkan berdasarkan penelitian sebelumnya pada model DALL·E dan GPT. Sora menggunakan teknik pembuatan teks ulang dari DALL·E 3, sehingga meliputi pembuatan teks yang sangat deskriptif untuk data pelatihan visual. Hasilnya, model tersebut mampu mengikuti instruksi teks pengguna dalam video yang dibuat dengan lebih tepat.

Selain mampu membuat video hanya dari instruksi teks, model ini mampu mengambil gambar diam yang ada dan membuat video dari gambar, membuat animasi konten gambar dengan keakuratan dan memperhatikan detail kecil. Model tersebut juga dapat mengambil video yang ada dan memperluasnya atau mengisi bingkai yang hilang. Pelajari selengkapnya dalam laporan teknis kami.

Sora berfungsi sebagai fondasi bagi model yang dapat memahami dan membuat simulasi dunia nyata, kemampuan yang kami yakini akan menjadi pencapaian untuk mencapai AGI.

Memuat...