Пређите на главни садржај
OpenAI

6. март 2026.

Стартап

Kako Descript razvija višejezičnu sinhronizaciju videa u obimu

Koristeći OpenAI modele rezonovanja, Descript je omogućio automatsku lokalizaciju velikih biblioteka sadržaja bez gubitka tajminga ili značenja.

Logo i logotip Descript preko apstraktne talasne pozadine u roze i ljubičastoj boji.
Veličina kompanije: Стартап
Region: Северна Америка
Industrija: Технологија
Proizvodi: API

Rezultati

43

Poboljšanje usklađenosti trajanja u procentnim poenima uz OpenAI

Rezultati

15%

Povećanje sinhronizovanih izvoza nakon uvođenja

Учитавање…

Descript(отвара се у новом прозору) je video editor zasnovan na AI, izgrađen oko jednostavne ideje: ako možete da uređujete tekst, trebalo bi da možete da uređujete i video. Od ranih dana Descript-a, AI pokreće svaki aspekt proizvoda: transkripciju, uređivanje, čišćenje zvuka i sve složenije kreativne tokove rada. Godinama grade na OpenAI tehnologiji, koristeći model Whisper za transkripciju i modele serije GPT unutar svog ko-urednika Underlord. 

Prevođenje se brzo pojavilo kao slučaj upotrebe sa velikim učinkom. Tradicionalno, prevođenje videa bilo je sporo i skupo, zahtevalo je jezičke stručnjake za upravljanje projektima, izradu rutinskih prevoda, kontrolu kvaliteta i generisanje odgovarajućeg zvuka. Veliki jezički modeli (LLM) drastično sažimaju taj tok rada, omogućavajući visokokvalitetno prevođenje u obimu.

Titlovi i sinhronizacija govora zahtevaju semantičku vernost: prevod mora da očuva izvorno značenje. Ali usklađenost trajanja ima drugačiju ulogu u svakom od njih. Kod titlova, to je poželjno. Kod sinhronizacije govora, to je ključno, jer ako prevedeni govor traje predugo ili prekratko, zvučaće neprirodno čak i ako je značenje tačno.

Da bi to rešio, Descript je redizajnirao svoj proces prevođenja koristeći OpenAI modele rezonovanja kako bi optimizovao semantičku vernost i usklađenost trajanja tokom generisanja, a ne naknadno. U prvih 30 dana nakon uvođenja, izvoz prevedenih videa sa sinhronizacijom govora porastao je za 15%, a usklađenost trajanja poboljšana je za 13 do 43 procentna poena, u zavisnosti od jezika.

„Sinhronizacija govora je sve popularniji slučaj upotrebe za Descript, pa gradimo načine da se to radi grupno za kompanije koje žele da prevedu i usklade pokrete usana sa čitavim bibliotekama sadržaja“, rekla je izvršna direktorka Laura Burkhauser.

Gde je sinhronizacija govora počela da zapinje

Prevođenje je bilo jedna od najranijih i najtraženijih funkcija Descript-a. Počeli su sa prevođenjem samo titlova, što je dobro funkcionisalo — ali mnogi korisnici želeli su da odu korak dalje i dobiju izgovoreni zvuk (sinhronizaciju govora) na ciljnom jeziku.

Međutim, jedan problem se stalno pojavljivao: sinhronizovani zvuk nije uvek zvučao kako treba. „Verovatno glavna pritužba koju smo slušali bila je da je tempo govora neprirodan na prevedenom jeziku“, rekao je Aleks Mistratov, rukovodilac AI proizvoda u kompaniji Descript.

Problem se svodio na to da različitim jezicima treba različito vreme da izraze istu ideju. Descript je, na primer, primetio da je nemački u proseku „duži“ jezik od engleskog. Da bi se uklopio u fiksne video segmente, prevedeni govor je često morao veštački da se ubrza ili uspori. „Na kraju biste dobili nešto što zvuči kao veverice na helijumu ili pospani džin“, objasnio je Mistratov.

Engleski:

Nemački:

„Pregledajte bezbednosne smernice pre rukovanja mašinom.“

Slogovi: 18

„Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.“

Slogovi: 24 (povećanje od 40%)

U ovom slučaju, nemački audio bi morao ili da se neprirodno ubrza, ili bi prevod morao da se preradi da bi se uklopio u vremenski budžet.

Korisnicima su ostale dve opcije: ručno ponovno tempiranje zvuka segment po segment ili prepravljanje samog prevoda da bi se uklopio. Oba pristupa zahtevala su duboke izmene na vremenskoj liniji i često gotovo izvorni nivo tečnosti u ciljnom jeziku. To je bilo zamorno za autore i postalo prepreka za skaliranje funkcije na velike projekte lokalizacije u preduzećima.

Optimizacija prevoda za tajming, a ne samo za značenje

Tim je imao jasnu teoriju o tome šta je potrebno da bi sinhronizacija govora funkcionisala. Sistem bi morao ne samo da optimizuje semantičko značenje, već i da bude svestan vremenskih ograničenja. Kada se, na primer, prevodi sa engleskog na nemački, model bi morao da razume kako da upotrebi manje reči ili pojednostavi koncept, kako bi sinhronizovani govor ostao prirodan.

Raniji pristupi su prvo optimizovali semantičku vernost, a zatim pokušavali da isprave tajming. Prevodi su često bili semantički tačni, ali su rutinski promašivali ograničenja trajanja, pa ukupan kvalitet i dalje nije bio dovoljno dobar. 

„Radili smo inkrementalne testove, bez ikakvog generisanja, samo smo tražili od modela da izbaci broj slogova u delu teksta“, rekao je Mistratov. „Raniji modeli jednostavno nisu bili dobri u tome.“

Pouzdano brojanje slogova pokazalo se kao ključno. Ako model ne može dosledno da izračuna slogove, ne može pouzdano ni da cilja određeni vremenski opseg trajanja.

Modeli serije GPT‑5 doneli su nivo doslednosti u rezonovanju koji je nedostajao ranijim modelima, naročito kod zadataka kao što su brojanje slogova i praćenje ograničenja. Uz to poboljšanje, Descript je redizajnirao svoj proces prevođenja i sinhronizacije govora.

Najpre, sistem Descript-a razlaže transkript na celine, vodeći se granicama rečenica, prirodnim pauzama i obrascima govora u originalnom snimku. Svaka celina zadržava semantički kontinuitet, ali je dovoljno mala da se o njoj rezonuje kao o vremenskoj jedinici.

Odatle model izračunava broj slogova u celini. Koristeći pretpostavke o brzini govora specifične za jezik, sistem procenjuje koliko slogova prevedena celina treba da cilja kako bi se očuvao prirodan tempo („usklađenost trajanja“). Instrukcija traži od modela da optimizuje i usklađenost trajanja i očuvanje značenja. Okolne celine se prosleđuju kao kontekst kako bi model zadržao semantičku koherentnost kroz segmente.

Tim je procenjivao više konfiguracija kako bi uravnotežio usklađenost trajanja, semantičku vernost, latenciju i trošak. Izabrana postavka donela je snažno praćenje ograničenja pri produkcionoj brzini, omogućavajući prevođenje velikog obima bez ručnog ponovnog tempiranja. Rezultat je proces prevođenja u kojem se tempo tretira kao promenljiva prvog reda, umesto kao nešto što se naknadno ispravlja.

Definisanje i merenje prirodnog tempa

Da bi razvili kriterijume prihvatljivosti za evaluacije, tim je sprovodio testove slušanja: generisali su prevedene audio uzorke i podešavali brzinu reprodukcije u malim koracima, tražeći od korisnika da ocene kada govor postaje neprirodan. 

„Sve što je usporeno za 10% ili ubrzano za 20% uglavnom je i dalje zvučalo prirodno“, rekao je Mistratov. Izvan tog opsega, govor je postajao previše izobličen. 

Raniji sistemi su po tom merilu imali loše rezultate. U zavisnosti od jezika, samo 40% do 60% segmenata spadalo je u prihvatljiv prozor tempa. Sa redizajniranim procesom, taj broj je porastao sa 40%–60% na između 73% i 83%, u zavisnosti od jezika.

Tim je takođe procenjivao semantičku vernost koristeći odvojeni model-kao-sudiju, sa ocenama na skali od 1 („potpuno drugačije“) do 5 („semantički ekvivalentno“).  Za sinhronizaciju govora odlučili su da prihvate niži semantički prag nego za prevođenje samo titlova, gde ograničenja trajanja nisu relevantna. Čak i uz taj kompromis, 85,5% segmenata dobilo je ocenu četiri ili pet od pet za semantičku usklađenost.

Rezultat je bio sistem koji je mogao da uravnoteži dva suprotstavljena ograničenja — tajming i značenje — uz merljivo poverenje. A pošto su obe metrike bile automatizovane, Descript može kontinuirano da procenjuje nova izdanja modela i varijacije instrukcija prema istim merilima.

Otključavanje lokalizacije videa u velikom obimu

Kako prevođenje prelazi sa pojedinačnih videa na velike biblioteke sadržaja, Descript ugrađuje više kontrole u način na koji se prevodi podešavaju, uključujući mogućnost da se po potrebi prioritet da strožoj semantičkoj vernosti.

Prevođenje unutar Descript-a samo je jedan sloj šireg multimodalnog sistema. Prevedeni tekst ulazi u generisanje govora, koje zatim pokreće usklađivanje pokreta usana i finalno renderovanje videa. 

Poboljšanja na tekstualnom sloju omogućavaju prirodan tempo, ali celokupno iskustvo zavisi i od toga koliko dobro audio model čuva ton, kadencu i neverbalne karakteristike govora. Tu tim vidi sledeću granicu. 

„Veliki deo onoga što će poboljšati izlaz prevođenja jeste da proces učinimo više multimodalnim: da zajedno uključimo audio, video i tekst kada odlučujemo kako da prevodimo“, rekao je Mistratov. „To bi trebalo bolje da očuva neverbalne karakteristike govora, poput tona i naglaska, i sačuva još više originalne interpretacije.“

Za Descript, snažniji modeli rezonovanja učinili su složenost sinhronizacije govora rešivom. Prelaskom praga na kojem modeli mogu pouzdano da uravnoteže kompromise između tempa i značenja, prevođenje je postalo nešto što tim može sistematski da unapređuje i primenjuje u velikom obimu.