Liwati menyang isi utama
OpenAI

Nggawe video saka teks

Kabeh video ing kaca iki diasilake langsung dening Sora tanpa modifikasi.

Lagi dimuat…

Kita lagi mulang AI supaya mangerteni lan nyimulasi jagad fisik sing obah, kanthi tujuan nglatih model sing mbantu wong ngrampungake masalah sing mbutuhake interaksi ing donya nyata.

Ngenalake Sora, model teks-menyang-video kita. Sora bisa ngasilake video nganti dawane sak menit kanthi njaga kualitas visual lan tetep manut marang prompt pangguna.

Dina iki, Sora wiwit kasedhiya kanggo red teamer kanggo mriksa area kritis sing ana bebaya utawa risiko. Kita uga menehi akses marang sawetara seniman visual, desainer, lan sineas kanggo njaluk umpan balik babagan cara ngembangake model supaya paling migunani kanggo profesional kreatif.

Kita nuduhake kemajuan riset iki luwih awal supaya bisa miwiti kerja bareng lan nampa umpan balik saka wong-wong ing njaba OpenAI lan supaya publik nduweni gambaran babagan kemampuan AI sing bakal katon ing mangsa cedhak.

Sora bisa ngasilake adegan kompleks kanthi pirang-pirang karakter, jinis gerakan tartamtu, lan rincian sing akurat babagan subjek lan latar mburi. Model iki ora mung mangerteni apa sing dijaluk pangguna ing prompt, nanging uga kepiye bab-bab kasebut ana ing jagad fisik.

Model iki nduweni pangerten basa sing jero, saengga bisa napsirake prompt kanthi akurat lan ngasilake karakter sing narik kawigaten lan ngandharake emosi sing urip. Sora uga bisa nggawe pirang-pirang shot ing sak video sing diasilake, kanthi njaga karakter lan gaya visual tetep konsisten.

Model saiki isih nduweni ruang kanggo dandan. Model bisa kesulitan nyimulasi fisika saka adegan kompleks, lan bisa uga ora paham conto tartamtu saka sebab-akibat (contone: kukis bisa uga ora nuduhake bekas sawise digigit karakter). Model uga bisa bingung karo rincian spasial sing kalebu ing prompt, kayata mbedakake kiwa lan tengen, utawa kesulitan karo deskripsi presisi babagan kedadeyan sing kelakon sajrone wektu, kaya lintasan kamera tartamtu.

Keamanan

Kita bakal njupuk sawetara langkah keamanan penting sadurunge nggawe Sora kasedhiya ing produk OpenAI. Kita kerja bareng red teamer — ahli domain ing area kaya misinformasi, konten sengit, lan bias — sing bakal nguji model iki kanthi cara adversarial.

Kita uga lagi mbangun piranti kanggo mbantu ndeteksi konten sing mblusukake, kayata classifier deteksi sing bisa mbedakake kapan video diasilake dening Sora. Kita ngrancang nyakup metadata C2PA(mbukak ing jendhela anyar) ing mangsa ngarep yen kita masang model iki ing produk OpenAI.

Saliyane ngembangake teknik anyar kanggo persiapan deployment, kita uga nggunakake metode keamanan sing wis ana(mbukak ing jendhela anyar) sing wis kita bangun kanggo produk kita sing nggunakake DALL·E 3, sing uga bisa ditrapake kanggo Sora.

Contone, yen wis ana ing produk OpenAI, classifier teks kita bakal mriksa lan nolak prompt input teks sing nglanggar kabijakan panggunaan kita, kayata sing njaluk kekerasan ekstrem, konten seksual, citra kebencian, rupa selebritas, utawa IP wong liya. Kita uga wis ngembangake classifier gambar sing kuat kanggo mriksa frame saka saben video sing diasilake supaya mesthekake manut kabijakan panggunaan kita, sadurunge dituduhake menyang pangguna.

Kita bakal melu para pembuat kebijakan, pendidik, lan seniman ing saindenging jagad kanggo mangerteni keprihatinan dheweke lan ngenali kasus panggunaan positif kanggo teknologi anyar iki. Sanadyan riset lan pengujian wis ekstensif, kita ora bisa prédhiksi kabeh cara becik wong bakal nggunakake teknologi kita, utawa kabeh cara wong bakal nyalahgunakake. Mula saka iku, kita percaya yen sinau saka panggunaan ing donya nyata iku komponen kritis kanggo nggawe lan ngluncurake sistem AI sing saya aman saka wektu ke wektu.

Research techniques

Sora iku model difusi, sing ngasilake video kanthi miwiti saka video sing katon kaya noise statis lan alon-alon ngowahi kanthi mbusak noise kasebut liwat akeh langkah.

Sora bisa ngasilake video utuh sekaligus utawa ndawakake video sing wis diasilake supaya luwih dawa. Kanthi menehi model pandangan luwih dhisik marang akeh frame sekaligus, kita wis ngrampungake masalah angel kanggo mesthekake subjek tetep padha senajan metu saka pandelengan sauntara.

Kaya model GPT, Sora nggunakake arsitektur transformer, sing mbukak kinerja penskalaan sing luwih unggul.

Kita makili video lan gambar minangka kumpulan unit data cilik sing diarani patch, saben-saben mirip karo token ing GPT. Kanthi nyawijikake cara makili data, kita bisa nglatih trafo difusi ing rentang data visual sing luwih amba tinimbang sadurunge, nyakup durasi, resolusi, lan rasio aspek sing beda-beda.

Sora mbangun saka riset sadurunge ing model DALL·E lan GPT. Sora nggunakake teknik recaptioning saka DALL·E 3, yaiku ngasilake caption sing banget deskriptif kanggo data latihan visual. Akibate, model bisa ngetutake instruksi teks pangguna ing video sing diasilake kanthi luwih setya.

Saliyane bisa ngasilake video mung saka instruksi teks, model iki uga bisa njupuk gambar diam sing wis ana lan ngasilake video saka gambar kasebut, kanthi menganimasikake isi gambar kanthi akurat lan nggatekake rincian cilik. Model iki uga bisa njupuk video sing wis ana banjur ndawakake utawa ngisi frame sing ilang. Sinau luwih lengkap ing laporan teknis kami.

Sora dadi pondasi kanggo model sing bisa mangerteni lan nyimulasi jagad nyata, kemampuan sing miturut kita bakal dadi tonggak penting kanggo nggayuh AGI.

Lagi dimuat...