Cara Descript nggarap dubbing video multibasa ing skala gedhé
Nggunakake model nalar OpenAI, Descript mbukak lokalisasi otomatis kanggo pustaka konten gedhé tanpa kelangan timing utawa makna.

Asil
43
Peningkatan poin persentase ing kepatuhan durasi karo OpenAI
Asil
15%
Kenaikan ekspor dubbing sawisé peluncuran
Descript(mbukak ing jendhela anyar) yaiku editor video native-AI sing dibangun saka gagasan prasaja: yen sampeyan bisa nyunting teks, sampeyan uga kudu bisa nyunting video. Wiwit jaman awal Descript, AI wis nyengkuyung saben aspek produk: transkripsi, panyuntingan, resik-resik audio, lan alur kerja kreatif sing saya rumit. Dheweke wis nggunakke OpenAI pirang-pirang taun, nganggo Whisper kanggo transkripsi lan model seri GPT ing co-editor Underlord.
Terjemahan cepet dadi kasus panggunaan sing pengaruhe gedhé. Biasane, nerjemahake video iku alon lan larang, mbutuhake ahli basa kanggo ngatur proyek, nggawe terjemahan rutin, nangani kontrol kualitas, lan ngasilake audio sing cocog. LLM nyepetake alur kerja iki kanthi drastis, saengga terjemahan kualitas dhuwur ing skala gedhé dadi bisa.
Caption lan dubbing padha-padha mbutuhake kasetyan semantik: terjemahan kudu njaga makna asli. Nanging, kepatuhan durasi nduweni peran beda ing saben kasus. Kanggo caption, iki mung nilai tambah. Kanggo dubbing, iki kritis, amarga yen omongan terjemahan kakehan dawa utawa cendhak, swarane bakal ora alami sanajan maknane bener.
Kanggo ngatasi iki, Descript ngrancang ulang pipeline terjemahane nganggo model nalar OpenAI supaya bisa ngoptimalake kasetyan semantik lan kepatuhan durasi nalika generasi, dudu sawise. Ing 30 dina pisanan sawisé diluncurake, ekspor video terjemahan nganggo dubbing mundhak 15%, lan kepatuhan durasi saya apik 13 nganti 43 poin persentase, gumantung basane.
“Dubbing dadi kasus panggunaan sing saya populer kanggo Descript, mula kita lagi mbangun cara supaya iki bisa ditindakake sacara batch kanggo perusahaan sing pengin nerjemahake lan nyelarasake gerak lambe kanggo kabeh pustaka,” ujare Laura Burkhauser, CEO.
Terjemahan dadi salah siji fitur paling awal lan paling kerep dijaluk ing Descript. Wiwitane, dheweke miwiti karo terjemahan caption wae, lan iki mlaku apik—nanging akeh pangguna pengin luwih adoh lan nduweni audio omongan (dubbing) ing basa target.
Nanging, ana siji masalah sing terus muncul: audio dubbing ora mesthi krungu pas. “Mbokmenawa keluhan nomer siji sing paling kerep kita rungokaké yaiku yen irama omongane ora alami ing basa terjemahan,” ujare Aleks Mistratov, Head of AI Product ing Descript.
Masalahe dumunung ing kasunyatan yen basa beda-beda mbutuhake wektu beda kanggo ngandharake gagasan sing padha. Descript nemokake, contone, yen rata-rata basa Jerman iku basa sing luwih “dawa” tinimbang basa Inggris. Supaya muat ing segmen video sing tetep, omongan terjemahan kerep kudu dicepetake utawa dilambatake kanthi artifisial. “Asile bisa kaya swara tupai, utawa raksasa sing ngantuk,” terang Mistratov.
Inggris: | Jerman: |
“Mangga delengen pedoman keamanan sadurunge ngoperasikake mesin.” Suku kata: 18 | “Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.” Suku kata: 24 (mundhak 40%) |
Ing kasus iki, audio Jerman kudu dipercepat kanthi ora alami, utawa terjemahane kudu ditulis ulang supaya pas karo jatah wektu.
Pangguna pungkasane mung duwe rong pilihan: nyetel maneh timing audio saben segmen kanthi manual, utawa nulis ulang terjemahane dhewe supaya pas. Loro-lorone mbutuhake panyuntingan timeline sing jero lan kerep uga kefasihan sing meh kaya penutur asli ing basa target. Iki ngrepoti para kreator, lan dadi alangan kanggo nggedhekake fitur iki menyang proyek lokalisasi enterprise skala gedhé.
Tim nduweni teori sing cetha bab apa sing dibutuhake supaya dubbing bisa mlaku. Sistem ora mung kudu ngoptimalake makna semantik, nanging uga kudu ngerti watesan timing. Nalika nerjemahake saka basa Inggris menyang basa Jerman, contone, model kudu ngerti carane nggunakake tembung luwih sithik utawa nyederhanakake konsep, supaya audio dubbing tetep alami.
Pendekatan sing luwih lawas ngoptimalake kasetyan semantik luwih dhisik lan nyoba mbenerake timing sawisé kuwi. Terjemahane kerep bener sacara semantik, nanging bola-bali luput saka watesan durasi, lan kualitas sakabèhé isih durung cukup apik.
“Kita nindakake tes bertahap, malah ora nganti ngasilake apa-apa, mung njaluk model ngeluarake jumlah suku kata ing sak potongan teks,” ujare Mistratov. “Model sing luwih lawas pancen durung apik ing bab kuwi.”
Ngitung suku kata kanthi andal jebul dadi kritis. Yen model ora bisa ngetung suku kata kanthi konsisten, model ora bisa kanthi andal nyasar jendhela durasi tartamtu.
Model seri GPT‑5 nggawa tingkat konsistensi nalar sing ora diduweni model sadurunge, utamane kanggo tugas kaya ngitung suku kata lan nglacak kendala. Kanthi perbaikan iki, Descript ngrancang ulang pipeline terjemahan lan dubbing-e.
Kaping pisan, sistem Descript mecah transkrip dadi potongan-potongan, dipandu dening wates ukara, jeda alami, lan pola omongan ing rekaman asli. Saben potongan njaga kontinuitas semantik, nanging cukup cilik kanggo ditalar minangka unit timing.
Saka kono, model ngetung jumlah suku kata ing potongan kasebut. Kanthi nggunakake asumsi laju omong khusus saben basa, sistem ngira-ngira pira suku kata sing kudu dituju potongan terjemahan supaya iramane tetep alami (“kepatuhan durasi”). Prompt njaluk model ngoptimalake kepatuhan durasi lan njaga makna bebarengan. Potongan ing sakupenge dilebokake dadi konteks supaya model njaga koherensi semantik antarsegmen.
Tim ngevaluasi pirang-pirang konfigurasi kanggo ngimbangi kepatuhan durasi, kasetyan semantik, latensi, lan biaya. Setelan sing dipilih menehi kepatuhan kendala sing kuwat kanthi kacepetan produksi, saengga terjemahan volume dhuwur bisa ditindakake tanpa nyetel timing maneh kanthi manual. Asile yaiku pipeline terjemahan sing nganggep irama minangka variabel utama, dudu barang sing mung dibenerake sawise proses.
Kanggo ngembangake kritéria panriman kanggo eval, tim nindakake tes ngrungokake: dheweke ngasilake conto audio terjemahan lan nyetel kacepetan playback kanthi increment cilik, banjur njaluk pangguna menehi rating kapan omongan wiwit krungu ora alami.
“Apa wae sing dilambatake 10%, utawa dicepetake 20%, umume isih krungu alami,” ujare Mistratov. Ngluwihi rentang iki, omongan dadi kakehan distorsi.
Sistem sadurunge kinerjane ala miturut ukuran iki. Gumantung basane, mung 40% nganti 60% segmen sing mlebu ing jendhela irama sing bisa ditampa. Kanthi pipeline sing dirancang ulang, angka iki mundhak saka 40%–60% dadi antara 73% lan 83%, gumantung basane.
Tim uga ngevaluasi kasetyan semantik nganggo rating model-liyane-minangka-juri ing skala saka 1 (“beda banget”) nganti 5 (“setara sacara semantik”). Kanggo dubbing, dheweke mutusake nampa ambang semantik sing luwih endhek tinimbang terjemahan caption wae, sing watesan durasine ora relevan. Sanajan ana tradeoff iki, 85,5% segmen entuk rating papat utawa lima saka limang kanggo kepatuhan semantik.
Asile yaiku sistem sing bisa ngimbangi rong kendala sing saling saingan—timing lan makna—kanthi kapercayan sing bisa diukur. Lan amarga loro metrike otomatis, Descript bisa terus ngevaluasi rilis model anyar lan variasi prompt nganggo tolok ukur sing padha.
Nalika terjemahan pindhah saka video siji menyang pustaka konten gedhé, Descript lagi nambah kontrol luwih akeh ing cara terjemahan disetel, kalebu kemampuan kanggo menehi prioritas marang kasetyan semantik sing luwih ketat yen dibutuhake.
Terjemahan ing njero Descript mung salah siji lapisan saka sistem multimodal sing luwih amba. Teks terjemahan mlebu menyang generasi swara, sing banjur nggerakake lip sync lan rendering video pungkasan.
Perbaikan ing lapisan teks ndadekake irama alami dadi mungkin, nanging pengalaman sakabèhé uga gumantung marang sepira apik model audio njaga tone, cadence, lan ciri nonverbal saka omongan. Ing kono tim ndeleng frontier sabanjure.
“Akeh sing bakal nambah output terjemahan yaiku nggawe pipeline luwih multimodal: nggabungake audio, video, lan teks bebarengan nalika mutusake cara nerjemahake,” ujare Mistratov. “Kuwi kudune luwih apik njaga ciri nonverbal saka omongan, kaya tone lan penekanan, lan ngreksa luwih akeh cara panyampaian asline.”
Kanggo Descript, model nalar sing luwih kuwat ndadekake kerumitan dubbing dadi bisa ditangani. Kanthi ngliwati titik nalika model bisa kanthi andal ngimbangi tradeoff antarane irama lan makna, terjemahan dadi perkara sing bisa ditingkatake tim kanthi sistematis, lan diterapake ing skala gedhé.


