Kif l-inġiniera ta’ Descript jagħmlu d-dubbing bil-kbir
Bl-użu tal-mudelli tar-raġunament ta’ OpenAI, Descript awtomatizza l-lokalizzazzjoni ta’ libreriji kbar ta’ kontenut mingħajr ma titlef it-timing jew it-tifsira.

Riżultati
43
Titjib f’punti perċentwali fl-aderenza mat-tul b’OpenAI
Riżultati
15%
Żieda fl-esportazzjonijiet b’dubbing wara t-tnedija
Descript(jinfetaħ f’tieqa ġdida) huwa editur tal-vidjo nattiv għall-IA mibni fuq idea sempliċi: jekk tista’ teditja test, għandek tkun tista’ teditja vidjo. Mill-bidu nett ta’ Descript, l-IA ħaddmet kull aspett tal-prodott: it-traskrizzjoni, l-editjar, it-tindif tal-awdjo, u flussi kreattivi tax-xogħol dejjem aktar kumplessi. Ilhom jibnu fuq OpenAI għal snin, billi jużaw Whisper għat-traskrizzjoni u mudelli tas-serje GPT ġewwa l-koeditur tagħhom Underlord.
It-traduzzjoni malajr saret każ ta’ użu b’impatt għoli. Tradizzjonalment, it-traduzzjoni tal-vidjo kienet bil-mod u għalja, u kienet teħtieġ esperti tal-lingwa biex jimmaniġġjaw proġetti, jipproduċu traduzzjonijiet rutinjarji, jieħdu ħsieb il-kontroll tal-kwalità, u joħolqu awdjo korrispondenti. LLMs iqassru drastikament dan il-proċess, u jagħmlu possibbli traduzzjoni ta’ kwalità għolja fuq skala kbira.
Kemm is-sottotitli kif ukoll id-dubbing jeħtieġu fedeltà semantika: it-traduzzjoni trid iżżomm it-tifsira oriġinali. Iżda l-konformità mat-tul għandha rwol differenti f’kull wieħed. Għas-sottotitli, hija vantaġġ. Għad-dubbing, hija kruċjali, għaliex jekk id-diskors tradott ikun twil wisq jew qasir wisq, jinstema’ mhux naturali anke jekk it-tifsira tkun korretta.
Biex jindirizza dan, Descript iddisinja mill-ġdid il-pipeline tat-traduzzjoni tiegħu billi uża mudelli tar-raġunament ta’ OpenAI biex jottimizza għall-fedeltà semantika u għall-konformità mat-tul waqt il-ġenerazzjoni, mhux wara. Fl-ewwel 30 jum wara t-tnedija, l-esportazzjonijiet ta’ vidjos tradotti b’dubbing żdiedu b’15%, u l-konformità mat-tul tjiebet bi 13 sa 43 punt perċentwali, skont il-lingwa.
“Id-dubbing huwa każ ta’ użu dejjem aktar popolari għal Descript, għalhekk qed nibnu modi biex nagħmluh bil-lott għal kumpaniji li jridu jittraduċu u jissinkronizzaw max-xufftejn libreriji sħaħ,” qalet il-CEO Laura Burkhauser.
It-traduzzjoni kienet waħda mill-ewwel u l-aktar karatteristiċi mitluba ta’ Descript. Bdew bi traduzzjoni tas-sottotitli biss, li kienet taħdem tajjeb—iżda ħafna utenti riedu jmorru lil hinn u jkollhom awdjo mitkellem (dubbing) fil-lingwa fil-mira.
Madankollu, problema waħda baqgħet tidher: l-awdjo ddubbjat mhux dejjem kien jinstema’ tajjeb. “Probabbilment l-ilment numru wieħed li smajna kien li l-pass tad-diskors ma kienx naturali fil-lingwa tradotta,” qal Aleks Mistratov, Kap tal-Prodott tal-IA f’Descript.
Il-problema kienet ġejja mill-fatt li lingwi differenti jieħdu ammonti differenti ta’ ħin biex jesprimu l-istess idea. Descript osserva, pereżempju, li bħala medja l-Ġermaniż huwa lingwa “itwal” mill-Ingliż. Biex jidħol f’segmenti tal-vidjo fissi, id-diskors tradott spiss kellu jitħaffef jew jitnaqqas artifiċjalment. “Tispiċċa b’xi ħaġa li tinstema’ bħal chipmunks, jew ġgant bi ngħas,” spjega Mistratov.
Ingliż: | Ġermaniż: |
“Jekk jogħġbok irrevedi l-linji gwida tas-sigurtà qabel tħaddem il-magna.” Sillabi: 18 | “Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.” Sillabi: 24 (żieda ta’ 40%) |
F’dan il-każ, l-awdjo bil-Ġermaniż jew ikollu jiġi aċċellerat b’mod mhux naturali, jew it-traduzzjoni jkollha tinkiteb mill-ġdid biex tidħol fil-baġit taż-żmien.
L-utenti baqgħu b’żewġ għażliet: ibiddlu manwalment il-ħin tal-awdjo segment b’segment, jew jiktbu mill-ġdid it-traduzzjoni nnifisha biex taqbel. Iż-żewġ approċċi kienu jeħtieġu edits profondi fil-kalendarju tal-ħin u, ħafna drabi, ħeffa kważi nattiva fil-lingwa fil-mira. Kien tedjanti għall-kreaturi, u sar ostaklu biex il-karatteristika teskala għal proġetti kbar ta’ lokalizzazzjoni għal intrapriżi.
It-tim kellu teorija ċara ta’ x’kien hemm bżonn biex id-dubbing jaħdem. Is-sistema kellha mhux biss tottimizza għat-tifsira semantika, iżda tkun konxja wkoll mir-restrizzjonijiet tat-timing. Meta tittraduċi mill-Ingliż għall-Ġermaniż, pereżempju, il-mudell kellu jifhem kif juża inqas kliem jew jissimplifika l-kunċett, sabiex l-awdjo ddubbjat jibqa’ naturali.
Approċċi preċedenti l-ewwel ottimizzaw il-fedeltà semantika u ppruvaw jikkoreġu t-timing wara. It-traduzzjonijiet spiss kienu semantikament korretti, iżda regolarment ma laħqux ir-restrizzjonijiet tat-tul, u l-kwalità ġenerali xorta ma kinitx tajba biżżejjed.
“Għamilna testijiet inkrementali, lanqas biss konna qed niġġeneraw xi ħaġa, sempliċement nitolbu lill-mudell joħroġ in-numru ta’ sillabi f’biċċa test,” qal Mistratov. “Mudelli aktar bikrija sempliċement ma kinux tajbin f’dan.”
L-għadd affidabbli tas-sillabi rriżulta kruċjali. Jekk il-mudell ma setax jikkalkula s-sillabi b’mod konsistenti, ma setax jimmira b’mod affidabbli lejn tieqa speċifika ta’ tul.
Il-mudelli tas-serje GPT‑5 ġabu livell ta’ konsistenza fir-raġunament li kien nieqes fil-mudelli preċedenti, speċjalment f’kompiti bħall-għadd tas-sillabi u s-segwitu tar-restrizzjonijiet. B’dak it-titjib, Descript iddisinja mill-ġdid il-pipeline tat-traduzzjoni u tad-dubbing tiegħu.
L-ewwel, is-sistema ta’ Descript taqsam it-traskrizzjoni f’biċċiet, iggwidata mil-limiti tas-sentenzi, waqfiet naturali, u xejriet tat-taħdit fir-reġistrazzjoni oriġinali. Kull biċċa żżomm il-kontinwità semantika, iżda tkun żgħira biżżejjed biex wieħed jirraġuna fuqha bħala unità ta’ timing.
Wara, il-mudell jikkalkula n-numru ta’ sillabi fil-biċċa. Bl-użu ta’ suppożizzjonijiet speċifiċi għal kull lingwa dwar ir-rata tat-taħdit, is-sistema tistma kemm sillabi għandha timmira għalihom il-biċċa tradotta biex iżżomm pass naturali (“konformità mat-tul”). Il-prompt jitlob lill-mudell jottimizza kemm għall-konformità mat-tul kif ukoll għall-preservazzjoni tat-tifsira. Biċċiet ta’ madwarhom jgħaddu bħala kuntest sabiex il-mudell iżomm koerenza semantika bejn is-segmenti.
It-tim evalwa diversi konfigurazzjonijiet biex jibbilanċja l-konformità mat-tul, il-fedeltà semantika, il-latenza, u l-ispiża. Is-setup magħżul ta konformità qawwija mar-restrizzjonijiet b’veloċità ta’ produzzjoni, u ppermetta traduzzjoni ta’ volum għoli mingħajr retiming manwali. Ir-riżultat huwa pipeline tat-traduzzjoni fejn il-pass jiġi trattat bħala varjabbli ta’ l-ewwel importanza minflok xi ħaġa kkoreġuta wara l-fatt.
Biex jiżviluppa l-kriterji ta’ aċċettazzjoni għall-evals, it-tim għamel testijiet ta’ smigħ: iġġeneraw kampjuni ta’ awdjo tradott u aġġustaw il-veloċità tal-plejbek f’inkrementi żgħar, u talbu lill-utenti jivvalutaw meta d-diskors beda jinstema’ mhux naturali.
“Kwalunkwe ħaġa li kienet imnaqqsa b’10%, jew imħaffa b’20%, ġeneralment xorta kienet tinstema’ naturali,” qal Mistratov. Lil hinn minn dan il-medda, id-diskors sar wisq distort.
Sistemi preċedenti marru ħażin skont dik il-miżura. Skont il-lingwa, 40% sa 60% biss tas-segmenti waqgħu fit-tieqa aċċettabbli tal-pass. Bil-pipeline ddisinjat mill-ġdid, dak in-numru żdied minn 40%–60% għal bejn 73% u 83%, skont il-lingwa.
It-tim evalwa wkoll il-fedeltà semantika bl-użu ta’ klassifikazzjoni separata ta’ mudell-bħala-imħallef fuq skala minn 1 (“kompletament differenti”) sa 5 (“semantikament ekwivalenti”). Għad-dubbing, iddeċidew li jaċċettaw limitu semantiku aktar baxx milli għat-traduzzjoni tas-sottotitli biss, fejn ir-restrizzjonijiet tat-tul huma irrilevanti. Anke b’dan il-kompromess, 85.5% tas-segmenti ngħataw erbgħa jew ħamsa minn ħamsa għall-konformità semantika.
Ir-riżultat kien sistema li setgħet tibbilanċja żewġ restrizzjonijiet kompetitivi—it-timing u t-tifsira—b’kunfidenza li tista’ titkejjel. U billi ż-żewġ metriċi kienu awtomatizzati, Descript jista’ jevalwa kontinwament rilaxxi ġodda ta’ mudelli u varjazzjonijiet tal-prompt kontra l-istess punti ta’ riferiment.
Hekk kif it-traduzzjoni timxi minn vidjos singoli għal libreriji kbar ta’ kontenut, Descript qed jibni aktar kontroll fuq kif it-traduzzjonijiet jiġu rfinati, inkluża l-kapaċità li tingħata prijorità lil fedeltà semantika aktar stretta fejn meħtieġ.
It-traduzzjoni ġewwa Descript hija biss saff wieħed ta’ sistema multimodali usa’. It-test tradott jidħol fil-ġenerazzjoni tad-diskors, li mbagħad tmexxi s-sinkronizzazzjoni max-xufftejn u r-rendering finali tal-vidjo.
Titjib fis-saff tat-test jagħmel possibbli pass naturali, iżda l-esperjenza ġenerali tiddependi wkoll minn kemm il-mudell tal-awdjo jżomm tajjeb it-ton, il-kadenza, u l-karatteristiċi mhux verbali tad-diskors. Hawnhekk it-tim jara l-fruntiera li jmiss.
“Ħafna minn dak li se jtejjeb l-output tat-traduzzjoni hu li l-pipeline isir aktar multimodali: billi ninkorporaw l-awdjo, il-vidjo, u t-test flimkien meta niddeċiedu kif nittraduċu,” qal Mistratov. “Dan għandu jżomm aħjar il-karatteristiċi mhux verbali tad-diskors, bħat-ton u l-enfasi, u jippreserva saħansitra aktar mill-kunsinna oriġinali.”
Għal Descript, mudelli tar-raġunament aktar b’saħħithom għamlu l-kumplessità tad-dubbing maniġġabbli. Billi qasmu l-limitu fejn il-mudelli setgħu jibbilanċjaw b’mod affidabbli l-kompromessi bejn il-pass u t-tifsira, it-traduzzjoni saret xi ħaġa li t-tim seta’ jtejjeb b’mod sistematiku, u jqiegħed fis-seħħ fuq skala kbira.


