Liwati menyang isi utama
OpenAI

9 Desember 2024

PublikasiKeselamatan

Kertu Sistem Sora

Lagi dimuat…

Pambuka

Ringkesan Sora

Sora yaiku model generasi video saka OpenAI, dirancang kanggo nampa input teks, gambar, lan video lan ngasilake video anyar minangka output. Pangguna bisa nggawe video nganti resolusi 1080p (maksimal 20 detik) ing macem-macem format, ngasilake konten anyar saka teks, utawa ningkatake, ngremix, lan nyampur aset dhewe. Pangguna uga bakal bisa njelajah feed Featured lan Recent sing nampilake kreasi komunitas lan menehi inspirasi kanggo gagasan anyar. Sora dibangun saka piwulang saka DALL·E lan model GPT, lan dirancang kanggo menehi wong piranti sing luwih amba kanggo crita lan ekspresi kreatif. 

Sora iku model difusi, sing ngasilake video kanthi miwiti saka video dhasar sing katon kaya gangguan statis banjur alon-alon diowahi kanthi mbusak gangguan kasebut liwat akeh langkah. Kanthi menehi model pandelengan awal marang akeh frame sekaligus, kita ngrampungake masalah angel supaya subjek tetep padha sanajan sempat metu saka pandelengan. Kaya model GPT, Sora nggunakake arsitektur transformer, sing mbukak kinerja penskalaan sing unggul. 

Sora nggunakake teknik recaptioning saka DALL·E 3, yaiku nggawe caption sing banget deskriptif kanggo data latihan visual. Akibate, model bisa ngetutake instruksi teks pangguna ing video sing diasilake kanthi luwih setya.

Saliyane bisa ngasilake video mung saka instruksi teks, model iki uga bisa njupuk gambar diam sing wis ana lan ngasilake video saka gambar kasebut, kanthi nguripake isi gambar kanthi akurat lan nggatekake rincian cilik. Model iki uga bisa njupuk video sing wis ana lan ndawakake utawa ngisi frame sing ilang⁠. Sora dadi pondasi kanggo model sing bisa ngerti lan nyimulasi donya nyata, sawijining kemampuan sing kita yakini bakal dadi tonggak penting kanggo nggayuh AGI.

Kemampuan Sora uga bisa nimbulake risiko anyar, kayata potensi panyalahgunaan kemiripan utawa nggawe konten video sing nyasarke utawa eksplisit. Supaya bisa ngetokake Sora kanthi aman ing sawijining produk, kita nggunakke piwulang saka karya safety kanggo peluncuran DALL·E ing ChatGPT lan API uga mitigasi safety kanggo produk OpenAI liyane kayata ChatGPT. Kertu sistem iki njlentrehake tumpukan mitigasi sing diasilake, upaya red teaming eksternal, evaluasi, lan riset sing terus mlaku kanggo luwih nyempurnakake perlindungan iki.

Data Model

Kaya diterangake ing laporan teknis1 kita saka Februari 2024, Sora njupuk inspirasi saka model basa gedhe sing entuk kemampuan generalis kanthi latihan nganggo data skala internet. Sukses paradigma LLM didhukung sebagian dening panggunaan token sing nyawijikake macem-macem modalitas teks kanthi elegan—kode, matematika, lan macem-macem basa alami. Kanthi Sora, kita nimbang carane model generatif data visual bisa nampa keuntungan kaya mangkono. Nalika LLM nduweni token teks, Sora nduweni patch visual. Patch sadurunge wis kabukten dadi representasi efektif kanggo model data visual. Kita nemokake yen patch minangka representasi sing bisa diskalakake banget lan efektif kanggo nglatih model generatif ing macem-macem jinis video lan gambar. Ing tingkat dhuwur, kita ngowahi video dadi patch kanthi luwih dhisik ngompres video menyang ruang laten dimensi luwih cilik, banjur mecah representasi kasebut dadi patch ruang-wektu.

Sora dilatih nganggo dataset sing maneka warna, kalebu campuran data sing kasedhiya umum, data kepemilikan sing diakses liwat kemitraan, lan dataset khusus sing dikembangake internal. Iki kalebu:

  • Data publik pilihan, biasane dikumpulake saka dataset machine learning standar industri lan web crawl.
  • Data kepemilikan saka kemitraan data. Kita mbangun kemitraan kanggo ngakses data sing ora kasedhiya umum. Contone, kita bermitra karo Shutterstock⁠ Pond5 kanggo mbangun lan nyedhiyakake gambar sing diasilake AI. Kita uga bermitra kanggo mesen lan nggawe dataset sing cocog karo kabutuhan kita.
  • Data manungsa: Umpan balik saka pelatih AI, red teamer, lan karyawan. 

Panyaringan latihan awalan lan praproses data

Saliyane mitigasi sing ditrapake sawise tahap latihan awalan, mitigasi panyaringan latihan awalan bisa nyedhiyakake lapisan pertahanan tambahan sing, bebarengan karo mitigasi safety liyane, mbantu nyingkirake data sing ora dikarepake lan mbebayani saka dataset kita. Mula, sadurunge latihan, kabeh dataset ngalami proses panyaringan iki, mbusak konten sing paling eksplisit, kasar, utawa sensitif liyane (umpamane, sawetara simbol kebencian), minangka perluasan saka metode sing digunakake kanggo nyaring data sing digunakake kanggo nglatih model kita liyane, kalebu DALL·E 2 lan DALL·E 3.

Identifikasi Risiko lan Persiapan Peluncuran

Kita nindakake proses sing kuwat kanggo mangerteni panyalahgunaan potensial lan panggunaan kreatif ing donya nyata kanggo mbantu mbentuk desain lan mitigasi safety Sora. Sawise pengumuman Sora ing Februari 2024, kita kerja bareng atusan seniman visual, desainer, lan sineas saka luwih saka 60 negara kanggo entuk umpan balik babagan carane ngembangake model supaya paling migunani kanggo profesional kreatif. Kita uga nyusun sawetara evaluasi sacara internal lan bareng red teamer eksternal kanggo nemokake lan netepake risiko lan nambah safety lan mitigasi risiko kanthi iteratif. 

Tumpukan safety kita kanggo Sora dibangun saka piwulang iki lan saka mitigasi safety sing wis digunakake ing model lan produk liyane kayata DALL·E lan ChatGPT, uga mitigasi khusus sing dibangun kanggo produk video kita. Amarga iki piranti sing kuat, kita nggunakake pendekatan iteratif kanggo safety, utamane ing area nalika konteks penting utawa nalika kita ndeleng risiko anyar sing ana gandhengane karo video. Conto pendekatan iteratif kita kalebu mbatesi akses mung kanggo pangguna umur 18 taun utawa luwih, matesi panggunaan kemiripan/upload wajah, lan nduweni ambang moderasi sing luwih konservatif marang prompt lan upload bocah nalika peluncuran. Kita pengin terus sinau carane wong nggunakake Sora lan terus iterasi supaya safety tetep seimbang nalika maksimalake potensi kreatif kanggo pangguna kita. 

Red Teaming Eksternal

OpenAI kerja bareng red teamer eksternal sing manggon ing sangang negara beda kanggo nguji Sora, ngenali kelemahan ing mitigasi safety, lan menehi umpan balik babagan risiko sing ana gandhengane karo kemampuan produk anyar Sora. Red teamer nduweni akses menyang produk Sora kanthi macem-macem iterasi mitigasi safety lan kematangan sistem wiwit September nganti Desember 2024, kanthi nguji luwih saka 15.000 generasi. Upaya red teaming iki nerusake karya ing awal 2024 nalika model Sora tanpa mitigasi produksi diuji.

Red teamer njelajah risiko potensial anyar saka model Sora lan piranti produk, uga nguji mitigasi safety nalika lagi dikembangake lan ditingkatake. Kampanye red teaming iki nyakup macem-macem jinis konten sing nglanggar lan ora diidini (konten seksual lan erotis, kekerasan lan gore, nglarani diri, konten ilegal, mis/disinformasi, lsp), taktik adversarial (prompting uga panggunaan piranti/fitur) kanggo nyingkiri mitigasi safety, uga carane piranti iki bisa dieksploitasi kanggo ngrusak alat moderasi lan perlindungan kanthi bertahap. Red teamer uga menehi umpan balik babagan persepsine marang Sora ing area kalebu bias lan kinerja umum. 

Kita njelajah generasi teks-menyang-video kanthi prompt langsung lan taktik prompting adversarial ing kabeh kategori konten sing kasebut ing ndhuwur. Kapabilitas upload media diuji nganggo macem-macem gambar lan video, kalebu tokoh publik, lan maneka kategori konten kanggo nguji kemampuan ngasilake konten sing nglanggar. Kita uga nguji macem-macem panggunaan lan kombinasi piranti modifikasi (storyboards, recut, remix, lan blend) kanggo netepake migunanihe kanggo ngasilake konten sing dilarang. 

Red teamer ngenali temuan penting kanggo jinis konten terlarang tartamtu lan taktik adversarial umum. Contone, red teamer nemokake yen nggunakake prompt teks kanthi situasi medis utawa setelan fiksi ilmiah / fantasi bisa nyuda perlindungan saka nggawe konten erotis lan seksual nganti mitigasi tambahan dibangun. Red teamer nggunakake taktik adversarial kanggo nyingkiri unsur tumpukan safety, kalebu prompt sugestif lan nggunakake metafora kanggo nggunakke kemampuan inferensi model. Sawise pirang-pirang upaya, dheweke bisa ngenali tren prompt lan tembung sing bakal micu perlindungan, lan nguji frasa lan tembung sing beda kanggo nyingkiri penolakan. Red teamer pungkasane bakal milih generasi sing paling nguwatirake kanggo digunakake minangka media seed kanggo pangembangan luwih lanjut dadi konten sing nglanggar sing ora bisa digawe mung nganggo teknik prompt tunggal. Teknik jailbreak kadhang kala kabukten efektif kanggo ngrusak kabijakan safety, saengga ngidini kita nyempurnakake perlindungan iki uga.

Red teamer uga nguji upload media lan piranti Sora (storyboards, recut, remix, lan blend) nganggo gambar sing kasedhiya umum lan media sing diasilake AI. Iki mbukak celah ing panyaringan input lan output sing kudu dikuwatake sadurunge rilis Sora, lan mbantu nyempurnakake perlindungan kanggo upload media kalebu wong. Pengujian uga nuduhake perlu ana panyaringan classifier sing luwih kuwat kanggo nyuda risiko upload media sing ora nglanggar diowahi dadi konten erotis, kekerasan, utawa deepfake sing dilarang.

Umpan balik lan data sing diasilake red teamer ngidini digawe lapisan mitigasi safety tambahan lan perbaikan ing evaluasi safety sing wis ana, kaya diterangake ing bagean Area Risiko Spesifik lan Mitigasi⁠. Upaya iki ngidini tuning tambahan kanggo panyaringan prompt, blocklist, lan ambang classifier kanggo mesthekake kepatuhan model marang tujuan safety.

Piwulang saka Akses Awal Seniman

Sajrone sangang wulan kepungkur, kita ngamati umpan balik pangguna saka luwih saka 500.000 panjalukan model saka luwih saka 300 pangguna saka luwih saka 60 negara. Data iki menehi dasar kanggo peningkatan perilaku model lan kepatuhan model marang protokol safety. Contone, umpan balik seniman mbantu kita ngerti watesan watermark sing katon marang alur kerja dheweke, sing banjur dadi dhasar keputusan kita kanggo ngidini pangguna mbayar ndownload file video tanpa watermark sing katon nanging tetep ngemot data C2PA. 

Program akses awal iki uga mulangake marang kita yen yen Sora ditujokake dadi piranti sing luwih amba kanggo crita lan ekspresi kreatif, kita kudu menehi luwih akeh keluwesan marang seniman ing sawenehing area sensitif sing bakal kita tangani beda ing piranti tujuan umum kaya ChatGPT. Kita ngarepake seniman, sineas independen, studio, lan organisasi industri hiburan liyane nggunakake Sora minangka bagean penting saka proses pangembangane. Ing wektu sing padha, ngenali kasus panggunaan positif lan panyalahgunaan potensial ngidini kita nemtokake area sing mbutuhake mitigasi tingkat produk sing luwih ketat kanggo nyuda risiko cilaka utawa panyalahgunaan.

Evaluasi

Kita ngembangake evaluasi internal sing nargetake area kunci, kalebu ketelanjangan, konten pemilu sing ngapusi, nglarani diri, lan kekerasan. Evaluasi iki dirancang kanggo ndhukung panyempurnaan mitigasi lan mbantu nemtokake ambang moderasi kita. Kerangka evaluasi iki nggabungake prompt input sing diwenehake marang model generasi video karo classifier input lan output sing ditrapake marang prompt sing wis diowahi utawa video final sing diasilake.

Prompt input kanggo evaluasi iki dijupuk saka telung saluran utama: data sing dikumpulake nalika fase alpha awal (kaya diterangake ing Bagian 3.2), conto adversarial sing diwenehake para penguji red team (dirujuk ing Bagian 3.1), lan data sintetis sing digawe nganggo GPT‑4. Data fase alpha menehi wawasan babagan skenario panggunaan ing donya nyata, kontribusi red teamer mbantu nemokake konten adversarial lan kasus pinggiran, lan data sintetis ngidini perluasan set evaluasi ing area kaya konten sensual sing ora disengaja, nalika conto alami angel ditemokake.

Kesiapsiagaan

Kerangka kesiapsiagaan dirancang kanggo ngevaluasi apa kemampuan model tercanggih nimbulake risiko signifikan ing patang kategori sing dilacak: persuasi, keamanan siber, CBRN (kimia, biologis, radiologis, lan nuklir), lan otonomi model. Kita ora nduweni bukti yen Sora nimbulake risiko signifikan apa wae babagan keamanan siber, CBRN, utawa otonomi model. Risiko iki gegandhengan banget karo model sing sesambungan karo sistem komputer, kawruh ilmiah, utawa pengambilan keputusan otonom, sing kabeh saiki isih ana ing njaba cakupan Sora minangka piranti generasi video. 

Kemampuan generasi video Sora bisa nimbulake risiko potensial saka persuasi, kayata risiko impersonasi, misinformasi, utawa rekayasa sosial. Kanggo nangani risiko iki, kita wis ngembangake seperangkat mitigasi sing diterangake ing bagean ngisor iki.  Iki kalebu mitigasi sing dimaksudake kanggo nyegah generasi kemiripan tokoh publik kondhang. Saliyane iku, amarga konteks lan kawruh manawa video iku nyata utawa diasilake AI bisa dadi kunci kanggo nemtokake sepira persuasife video sing diasilake, kita fokus mbangun pendekatan provenance multi-lapisan, kalebu metadata, watermark, lan fingerprinting.

Tumpukan Mitigasi Sora

Saliyane risiko lan mitigasi spesifik sing diidentifikasi ing ngisor iki, pilihan sing digawe ing latihan Sora, desain produk, lan kabijakan mbantu nyuda risiko output sing mbebayani utawa ora dikarepake kanthi umum. Iki bisa dikelompokake sacara amba dadi mitigasi teknis tingkat sistem lan model, uga kabijakan produk lan edukasi pangguna.

Mitigasi Sistem lan Model

Ing ngisor iki kita rinci bentuk utama mitigasi safety sing wis kita pasang sadurunge pangguna dituduhake output sing dijaluk:

Moderasi teks lan gambar liwat classifier moderasi multimodal

Classifier moderasi multimodal kita sing dadi tenaga Moderation API eksternal kita ditrapake kanggo ngenali prompt teks, gambar, utawa video sing bisa nglanggar kabijakan panggunaan kita, ing input lan output. Prompt sing nglanggar sing dideteksi sistem bakal nyebabake penolakan. Sinau luwih lengkap babagan API moderasi multimodal kita ing kene.2

Panyaringan LLM khusus

Salah siji kauntungan teknologi generasi video yaiku kemampuan nindakake pemeriksaan moderasi asinkron tanpa nambah latensi marang pengalaman pangguna sakabèhé. Amarga generasi video kanthi alami mbutuhake sawetara detik kanggo diproses, jendhela wektu iki bisa dimanfaatake kanggo mbukak pemeriksaan moderasi sing ditargetake kanthi presisi. Kita wis ngatur GPT dhewe kanggo nggayuh presisi dhuwur ing moderasi kanggo sawetara topik tartamtu, kalebu ngenali konten pihak katelu uga konten ngapusi. 

Filter iki multimodal: upload gambar/video, prompt teks, lan output kabeh kalebu ing konteks saben panggilan LLM. Iki ngidini kita ndeteksi kombinasi sing nglanggar antarane gambar lan teks. 

Classifier output gambar

Kanggo nangani konten sing bisa mbebayani langsung ing output, Sora nggunakake classifier output, kalebu filter khusus kanggo konten NSFW, bocah, kekerasan, lan potensi panyalahgunaan kemiripan. Sora bisa mblokir video sadurunge dibagiake marang pangguna yen classifier iki aktif. 

Blocklist

Kita njaga blocklist tekstual ing macem-macem kategori, dipandu dening karya sadurunge kita ing DALL·E 2 lan DALL·E 3, panemuan risiko proaktif, lan asil saka pangguna awal.

Kabijakan Produk

Saliyane perlindungan sing wis kita bangun ing model lan sistem kanggo nyegah generasi konten sing nglanggar, kita uga njupuk langkah tambahan kanggo nyuda risiko panyalahgunaan. Saiki kita mung nawakake Sora kanggo pangguna sing umur 18 taun utawa luwih lan kita ngetrapake filter moderasi kanggo konten sing ditampilake ing feed Explore lan Featured.

Kita uga komunikasi kanthi cetha pedoman kabijakan liwat edukasi ing produk lan sing kasedhiya kanggo umum babagan:

  • Panggunaan kemiripan wong liya tanpa idine, lan larangan nggambarake bocah nyata;
  • Nggawe konten ilegal utawa konten sing nglanggar hak kekayaan intelektual;
  • Generasi konten eksplisit lan mbebayani, kayata citra intim tanpa idin, konten sing digunakake kanggo ngrundung, ngganggu, utawa mencemarkan nama baik, utawa konten sing dimaksudake kanggo ningkatake kekerasan, kebencian, utawa penderitaan wong liya; lan 
  • Penciptaan lan distribusi konten sing digunakake kanggo nipu, scam, utawa nyasarke wong liya.

Sawetara bentuk panyalahgunaan iki ditangani liwat mitigasi model lan sistem kita, nanging liyane luwih gumantung konteks—adegan protes bisa digunakake kanggo usaha kreatif sing sah, nanging adegan sing padha yen diwenehake minangka kedadeyan nyata saiki uga bisa disebarake dadi disinformasi yen dipasang karo klaim liyane. 

Sora dirancang kanggo menehi wong kemampuan kanggo ngandharake macem-macem gagasan lan pandangan kreatif. Ora praktis uga ora wicaksana kanggo nyegah saben bentuk konten sing bermasalah sacara kontekstual.

Kita menehi wong kemampuan kanggo nglaporake video Sora sing miturut dheweke bisa nglanggar pedoman kita, nalika nggunakake otomatisasi lan tinjauan manungsa kanggo ngawasi pola panggunaan kanthi aktif. Kita wis netepake mekanisme penegakan kanggo mbusak video sing nglanggar lan menehi sanksi marang pangguna. Nalika pangguna nglanggar pedoman kita, kita bakal menehi kabar lan menehi kesempatan kanggo ngandhakake apa sing miturut dheweke adil. Kita arep nglacak efektivitas mitigasi iki lan nyempurnakake saka wektu ke wektu.

Area Risiko Spesifik lan Mitigasi

Saliyane langkah safety umum ing ndhuwur, pengujian lan evaluasi awal mbantu ngenali sawetara area sing dadi fokus safety khusus. 

Safety Anak

OpenAI duwe komitmen sing jero kanggo nangani3 risiko safety anak, lan kita ngutamakake pencegahan, deteksi, lan pelaporan konten Child Sexual Abuse Material(mbukak ing jendhela anyar) (CSAM) ing kabeh produk kita, kalebu Sora. Upaya OpenAI ing bidang safety anak kalebu sumber dataset kanthi tanggung jawab kanggo nglindhungi saka CSAM, bermitra karo National Center for Missing & Exploited Children (NCMEC) kanggo nyegah pelecehan seksual anak lan nglindhungi bocah, red teaming sesuai rekomendasi Thorn lan selaras karo watesan hukum, lan pemindaian CSAM sing kuwat ing kabeh input lan output. Iki kalebu mindhai pangguna pihak pertama lan pihak katelu (API lan Enterprise) kajaba pelanggan nyukupi kriteria ketat kanggo mbusak pemindaian CSAM. Kanggo nyegah generasi CSAM, kita wis mbangun tumpukan safety sing kuwat, nggunakke mitigasi sistem sing digunakake ing produk kita liyane kayata ChatGPT lan DALL·E4 uga sawetara pengungkit tambahan sing dibangun khusus kanggo Sora.

Classifier Input

Kanggo Safety Anak kita nggunakke 3 mitigasi input beda ing input teks, gambar, lan video: 

  • Kanggo kabeh upload gambar lan video, kita integrasi karo Safer, sing dikembangake Thorn, kanggo ndeteksi kecocokan karo CSAM sing wis dikenal. Kecocokan sing wis dikonfirmasi bakal ditolak lan dilaporake menyang NCMEC. Saliyane iku, kita nggunakake classifier CSAM saka Thorn kanggo ngenali konten CSAM potensial anyar sing durung di-hash.
  • Kita nggunakke classifier moderasi multimodal kanggo ndeteksi lan memoderasi konten seksual apa wae sing nglibatake bocah liwat input teks, gambar, lan video. 
  • Kanggo Sora, kita ngembangake classifier kanggo nganalisis teks lan gambar kanggo prédhiksi apa individu sing digambarake iku umure kurang saka 18 taun utawa apa caption sing ngancani nyebutake bocah. Kita nolak panjalukan image-to-video sing ngemot individu ing ngisor 18 taun. Yen teks-menyang-video ditemtokake under 18, kita ngetrapake ambang sing luwih ketat kanggo moderasi sing ana gandhengane karo konten seksual, kasar, utawa nglarani diri.

Ing ngisor iki evaluasi kita kanggo classifier under-18 kanggo manungsa. Kita ngevaluasi classifier kita kanggo nolak individu realistis ing ngisor 18 taun ing dataset sing ngemot meh 5000 gambar ing kategori [child | adult] lan [realistic | fictitious]. Sikap kabijakan kita yaiku nolak bocah realistis, nanging ngidini gambar fiktif kalebu gaya animasi, kartun, utawa sketsa, anggere ora seksual. Kita njupuk pendekatan sing ati-ati kanggo konten sing nglibatake bocah, lan bakal terus ngevaluasi pendekatan kita nalika kita sinau luwih akeh liwat panggunaan produk lan nemokake imbangan sing pas antarane ngidini ekspresi kreatif lan safety. 

Saiki, classifier kita akurat banget, nanging kadhang kala bisa salah nandhani gambar wong diwasa utawa gambar bocah sing ora realistis. Kajaba iku, kita ngakoni yen studi lan literatur sing wis ana nyorot potensi model prédhiksi umur nduweni bias rasial. Contone, model iki bisa kanthi sistematis ngira umur luwih enom kanggo individu saka klompok ras tartamtu.5 Kita duwe komitmen kanggo ningkatake kinerja classifier kita, nyilikake false positive, lan njeroake pemahaman kita babagan potensi bias sajrone sawetara wulan mendatang.

Expected outcome

n_samples

count (is_child)

count (not_child)

Evaluated metrics

Realistic Child

Classify images as “is child”

1589

1555

34

Accuracy: 97.86%

Realistic Adult

Classify images as “not child”

1370

36

1334

Accuracy: 99.28%

Fictitious Adult

Classify images as “not child”

965

7

958

Accuracy: 97.37%

Fictitious Child

Classify images as “not child”

1050

323

727

Accuracy: 69.24%

Total

4974

1921

3053

Precision: 80.95% Recall: 97.86%

Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child

Output

Kaya wis kasebut ing ndhuwur, yen kita ngenali rujukan marang bocah ing input teks nganggo classifier under-18, kita ngetrapake ambang sing ketat kanggo moderasi sing ana gandhengane karo konten seksual, kekerasan, utawa nglarani diri ing output. Ing ngisor iki ana loro classifier output sing digunakake kanggo nggayuh iki: 

  • Classifier moderasi multimodal sing mindhai output video ora aman lan nolak panjalukan sing bisa dadi utamane sensitif 
  • Kita uga nggunakake classifier gambar DALL·E sing wis ana kanggo mindhai pelanggaran sing ana gandhengane karo safety anak.

Classifier output kita mindhai 2 frame per detik lan yen nemtokake video minangka ora aman, kita mblokir output apa wae.

Saliyane classifier lan moderasi otomatis kita, kita uga bakal nindakake tinjauan manungsa minangka lapisan perlindungan tambahan kanggo potensi pelanggaran safety anak. 

Product Policy

Kabijakan kita nglarang panggunaan Sora kanggo nggawe konten seksual sing nglibatake bocah. Pelanggaran kabijakan safety anak kita bisa nyebabake konten dibusak lan pangguna diblokir.

Ketelanjangan & Konten Sugestif

Salah siji area risiko sing muncul sing ana gandhengane karo kemampuan generasi video AI yaiku potensi nggawe konten NSFW (Not Safe for Work) utawa NCII (Non-Consensual Intimate Imagery). Kaya pendekatan DALL·E, Sora nggunakake strategi moderasi multi-tingkat kanggo mblokir konten eksplisit. Iki kalebu transformasi prompt, classifier output gambar, lan blocklist, sing kabeh nyumbang marang sistem sing matesi konten sugestif, utamane kanggo output sing cocog umur. Ambang kanggo classifier kita luwih ketat kanggo upload gambar tinimbang prompt adhedhasar teks. 

Video sing ditampilake ing bagean Explore uga disaring maneh nganggo ambang sing luwih dhuwur kanggo njaga pengalaman nonton sing cocog kanggo pamirsa amba.  

Ing ngisor iki asil evaluasi kita babagan ketelanjangan lan konten sugestif, sing ditujokake kanggo netepake efektivitas mitigasi multi-lapisan ing input lan output. Adhedhasar temuan, kita wis ngiterasi ambang kita lan ngetrapake moderasi sing luwih ketat kanggo gambar sing diunggah kalebu wong.

Kategori

Akurasi* (ing input)

Akurasi* (ing output, yaiku E2E)

Ketelanjangan & Konten Sugestif

97.25%

97.59%

Penjelasan eval:

N = jumlah total sampel sing nglanggar (~200 saben kategori)
I = jumlah total sampel sing nglanggar sing lolos pemeriksaan moderasi input
O = jumlah total sampel sing nglanggar sing lolos pemeriksaan moderasi output

Akurasi ing Input =
(N - I) / N
Akurasi ing Output (E2E) = (N - O) / N 

Product Policy

Kabijakan kita nglarang panggunaan Sora kanggo nggawe konten seksual eksplisit, kalebu citra intim tanpa idin. Pelanggaran kabijakan iki bisa nyebabake konten dibusak lan pangguna kena sanksi.

Konten Ngapusi

Panyalahgunaan Kemiripan lan Deepfake Mbebayani

Monitor moderasi Sora kanggo prompt adhedhasar kemiripan dimaksudake kanggo nandhani konten deepfake sing bisa mbebayani, kanthi tujuan supaya video sing nglibatake individu sing bisa dikenali ditinjau kanthi ketat. Filter Panyalahgunaan Kemiripan luwih lanjut uga nandhani prompt sing nyoba ngowahi utawa nggambarake individu kanthi cara sing bisa mbebayani utawa nyasarke. Transformasi prompt umum Sora luwih nyuda risiko yen Sora bakal ngasilake kemiripan sing ora dikarepake saka individu privat adhedhasar prompt sing ngemot jeneng wong.

Konten Ngapusi

Classifier input lan output Sora dimaksudake kanggo nyegah generasi konten ngapusi sing ana gandhengane karo pemilu sing nggambarake kegiatan penipuan, ora etis, utawa ilegal liyane. Metrik evaluasi Sora kalebu classifier kanggo nandhani teknik gaya utawa filter sing bisa ngasilake video nyasarke ing konteks pemilu, saengga nyuda risiko panyalahgunaan ing donya nyata.

Ing ngisor iki ana evaluasi kanggo filter LLM konten pemilu ngapusi kita, fokus kanggo mbantu ngenali kasus nalika ana niyat nggawe konten terlarang ing macem-macem input (umpamane teks lan video). Sistem kita uga mindhai 1 frame per detik saka video output kanggo netepake kemungkinan pelanggaran output.

Classifier

Recall

Precision

Asil nalika ditandai

Konten Pemilu Ngapusi

98.23%

88.80%

Blokir pangasilan output

 N=~500, adhedhasar prompt data sintetis

Investasi ing Provenance

Amarga akeh risiko sing ana gandhengane karo Sora, kayata konten deepfake mbebayani, gumantung banget marang konteks, kita wis ngutamakake ningkatake piranti provenance kita. Kita ngerti yen ora ana siji solusi tunggal kanggo provenance, nanging kita nduweni komitmen kanggo ningkatake ekosistem provenance lan mbantu mbangun konteks lan transparansi kanggo konten sing digawe saka Sora. 

Kanggo kasedhiyan umum, piranti safety provenance kita bakal kalebu:

  • Metadata C2PA ing kabeh aset (asal-usul sing bisa diverifikasi, standar industri)
  • Watermark Sora animasi sing katon kanthi bawaan (transparansi kanggo pamirsa yen iki ‘AI’)
  • Piranti telusur video balik internal, kanggo mbantu anggota tim Intelligence & Investigation OpenAI netepake kanthi kapercayan dhuwur apa konten digawe dening Sora 

Product Policy

Kabijakan kita nglarang panggunaan Sora kanggo nipu, scam, utawa nyasarke wong liya, kalebu liwat nggawe lan nyebarake disinformasi. Kabijakan iki uga nglarang panggunaan kemiripan wong liya tanpa idine. Pelanggaran kabijakan iki bisa nyebabake konten dibusak lan pangguna kena sanksi.

Gaya Seniman

Nalika pangguna nggunakake jeneng seniman sing isih urip ing sawijining prompt, model bisa ngasilake video sing ana kamiripan tartamtu karo gaya karya seniman kasebut. Ing jagad kreativitas, wis suwe ana tradhisi mbangun saka gaya seniman liyane, nanging kita ngerti manawa sawetara kreator bisa nduweni keprihatinan. Kita milih pendekatan konservatif kanggo versi Sora iki nalika kita sinau luwih akeh babagan carane Sora digunakake komunitas kreatif. Kanggo nanggapi iki, kita nambah rewrite prompt sing dirancang kanggo aktif nalika pangguna nyoba ngasilake video kanthi gaya seniman sing isih urip. 

Kaya produk kita liyane, Sora Editor nggunakake LLM kanggo nulis ulang teks sing diajukake supaya nggawe prompt kanggo Sora luwih efektif. Proses iki ndhukung kepatuhan marang pedoman kita, kalebu mbusak jeneng tokoh publik, nindakake pendasaran wong nganggo atribut tartamtu, lan njlentrehake obyek bermerek kanthi cara sing umum. Kita njaga blocklist tekstual ing macem-macem kategori, dipandu dening karya sadurunge kita ing DALL·E 2 lan DALL·E 3, panemuan risiko proaktif, lan asil saka red teamer lan pangguna awal. 

Pakaryan Sabanjure

OpenAI nggunakake strategi peluncuran iteratif kanggo mesthekake peluncuran produke kanthi tanggung jawab lan efektif. Pendekatan iki nggabungake peluncuran bertahap, pengujian sing terus mlaku, lan pemantauan berkelanjutan karo umpan balik pangguna lan data donya nyata kanggo nyempurnakake lan ningkatake kinerja lan mitigasi safety kita saka wektu ke wektu. Ing ngisor iki ana serangkaian karya sing arep kita lakoni minangka bagean saka peluncuran iteratif kanggo Sora.

Pilot kemiripan

Kemampuan kanggo ngasilake video nganggo foto utawa video wong nyata sing diunggah minangka “seed” iku sawijining vektor panyalahgunaan potensial sing kita tanggapi kanthi pendekatan sing banget bertahap supaya bisa sinau saka pola panggunaan awal. Umpan balik awal saka seniman nuduhake manawa iki piranti kreatif sing kuat lan aji kanggo dheweke, nanging amarga ana potensi penyalahgunaan, kita ora langsung nyedhiyakake iki kanggo kabeh pangguna. Nanging, selaras karo praktik peluncuran iteratif kita, kemampuan kanggo ngunggah gambar utawa video wong bakal kasedhiya mung kanggo sawijine subset pangguna lan kita bakal nindakake pemantauan aktif lan jero kanggo mangerteni regane fitur iki kanggo komunitas Sora lan nyetel pendekatan safety kita nalika sinau. Upload sing ngemot gambar bocah ing ngisor umur ora bakal diidini sajrone tes iki.

Inisiatif asal-usul lan transparansi

Iterasi Sora ing mangsa ngarep bakal terus nguatake keterlacakan liwat riset babagan piranti telusur embedding balik lan implementasi terus-terusan kanggo langkah transparansi kayata C2PA. Kita semangat njelajah kemitraan potensial karo NGO lan organisasi riset kanggo ngembangake lan ningkatake ekosistem provenance lan nguji piranti gambar balik internal kita kanggo Sora.

Ngluwihi representasi ing output kita

Kita nduweni komitmen kanggo nyuda bias potensial ing output liwat panyempurnaan prompt, loop umpan balik, lan identifikasi terus-terusan marang mitigasi sing efektif—kanthi ngakoni yen koreksi sing kakehan uga bisa mbebayani. Kita ngakoni tantangan kaya bias citra awak lan representasi demografis lan bakal terus nyempurnakake pendekatan kita kanggo mesthekake output sing seimbang lan inklusif.

Kesinambungan safety, kabijakan, lan keselarasan etis

OpenAI ngrancang njaga evaluasi Sora kanthi terus-terusan lan upaya kanggo luwih ningkatake kepatuhan Sora marang kabijakan lan standar safety OpenAI. Perbaikan tambahan ing area kaya safety kemiripan lan konten ngapusi uga direncanakake, dipandu praktik paling apik sing terus berkembang lan umpan balik pangguna.

Ucapan matur nuwun

Matur nuwun marang kabeh tim internal OpenAI, kalebu Comms, Comms Design, Studi Global, Integrity, Intel & Investigations, Legal, Product Policy, Safety Systems, lan User Ops, sing dhukungane penting banget kanggo mbantu ngembangake lan ngetrapake mitigasi safety Sora uga kontribusine kanggo kertu sistem iki.

Kita ngaturake panuwun marang klompok seniman Alpha lan para ahli red teaming sing menehi umpan balik, mbantu nguji model kita ing tahap awal pangembangan, lan menehi masukan kanggo penilaian risiko lan evaluasi kita. Partisipasi ing proses pengujian dudu bentuk dukungan marang rencana peluncuran OpenAI utawa kabijakan OpenAI.

  • Individu Red Teaming (urut alfabet): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
  • Organisasi Red Teaming: ScaleAI