Com Descript dissenya el doblatge multilingüe de vídeo a escala
Amb els models de raonament d’OpenAI, Descript va fer possible la localització automàtica de grans biblioteques de contingut sense perdre ni el temps ni el sentit.

Resultats
43
Millora en punts percentuals de l’ajust a la durada amb OpenAI
Resultats
15%
Augment de les exportacions doblades després del desplegament
Descript(s'obre en una finestra nova) és un editor de vídeo nadiu d’IA construït al voltant d’una idea senzilla: si pots editar text, hauries de poder editar vídeo. Des dels primers dies de Descript, la IA ha impulsat tots els aspectes del producte: la transcripció, l’edició, la neteja d’àudio i fluxos de treball creatius cada cop més complexos. Fa anys que treballen amb OpenAI, utilitzant Whisper per a la transcripció i models de la sèrie GPT dins del seu coeditor Underlord.
La traducció va emergir ràpidament com un cas d’ús d’alt impacte. Tradicionalment, traduir vídeo ha estat lent i car, i requeria experts lingüístics per gestionar projectes, produir traduccions rutinàries, fer el control de qualitat i generar l’àudio corresponent. Els LLM comprimeixen dràsticament aquest flux de treball i fan possible una traducció d’alta qualitat a escala.
Tant els subtítols com el doblatge requereixen fidelitat semàntica: la traducció ha de preservar el significat original. Però l’ajust a la durada hi té un paper diferent. Per als subtítols, és desitjable. Per al doblatge, és crític, perquè si la parla traduïda dura massa o massa poc, sonarà antinatural encara que el significat sigui correcte.
Per abordar-ho, Descript va redissenyar la seva canalització de traducció utilitzant models de raonament d’OpenAI per optimitzar la fidelitat semàntica i l’ajust a la durada durant la generació, no després. En els primers 30 dies després del desplegament, les exportacions de vídeos traduïts amb doblatge van augmentar un 15%, i l’ajust a la durada va millorar entre 13 i 43 punts percentuals, segons l’idioma.
«El doblatge és un cas d’ús cada cop més popular per a Descript, així que estem desenvolupant maneres de fer-lo per lots per a empreses que volen traduir i sincronitzar els llavis de biblioteques senceres», va dir Laura Burkhauser, CEO.
La traducció va ser una de les funcionalitats més primerenques i més sol·licitades de Descript. Van començar amb traducció només de subtítols, que funcionava bé, però molts usuaris volien anar més enllà i tenir àudio parlat (doblatge) en la llengua de destinació.
Tanmateix, hi havia un problema que continuava apareixent: l’àudio doblat no sempre sonava bé. «Probablement la queixa número u que sentíem era que el ritme de la parla era antinatural en l’idioma traduït», va dir Aleks Mistratov, cap de producte d’IA de Descript.
El problema es reduïa al fet que diferents idiomes necessiten quantitats diferents de temps per expressar la mateixa idea. Descript va observar, per exemple, que de mitjana l’alemany és una llengua «més llarga» que l’anglès. Per encaixar en segments de vídeo fixos, la parla traduïda sovint s’havia d’accelerar o alentir artificialment. «Acabaves amb alguna cosa que sonava com esquirols, o com un gegant endormiscat», va explicar Mistratov.
Anglès: | Alemany: |
«Reviseu les directrius de seguretat abans de fer servir la màquina.» Síl·labes: 18 | «Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.» Síl·labes: 24 (augment del 40%) |
En aquest cas, l’àudio en alemany s’hauria d’accelerar de manera antinatural, o bé caldria reescriure la traducció perquè s’ajustés al temps disponible.
Els usuaris es quedaven amb dues opcions: reajustar manualment l’àudio segment per segment, o reescriure la traducció mateixa perquè encaixés. Tots dos enfocaments requerien edicions profundes de la línia de temps i, sovint, una fluïdesa gairebé nativa en la llengua de destinació. Era tediós per als creadors i es va convertir en un obstacle per escalar la funcionalitat a grans projectes empresarials de localització.
L’equip tenia una teoria clara del que caldria per fer que el doblatge funcionés. El sistema no només hauria d’optimitzar el significat semàntic, sinó que també hauria de tenir en compte les restriccions de temps. En traduir de l’anglès a l’alemany, per exemple, el model hauria d’entendre com fer servir menys paraules o simplificar el concepte, perquè l’àudio doblat continués sent natural.
Els enfocaments anteriors optimitzaven primer la fidelitat semàntica i intentaven corregir el temps després. Les traduccions sovint eren semànticament correctes, però rutinàriament no complien les restriccions de durada, i la qualitat general continuava sense ser prou bona.
«Vam fer proves incrementals, sense ni tan sols generar res, simplement demanant al model que indiqués el nombre de síl·labes d’un fragment de text», va dir Mistratov. «Els models anteriors senzillament no eren bons en això.»
Un recompte fiable de síl·labes va resultar ser crític. Si el model no podia calcular síl·labes de manera consistent, no podia apuntar de manera fiable a una finestra de durada específica.
Els models de la sèrie GPT‑5 van aportar un nivell de consistència de raonament que faltava als models anteriors, especialment en tasques com el recompte de síl·labes i el seguiment de restriccions. Amb aquesta millora, Descript va redissenyar la seva canalització de traducció i doblatge.
Primer, el sistema de Descript divideix la transcripció en fragments, guiat pels límits de les frases, les pauses naturals i els patrons de parla de la gravació original. Cada fragment manté la continuïtat semàntica, però és prou petit per poder raonar-hi com una unitat temporal.
A partir d’aquí, el model calcula el nombre de síl·labes del fragment. Utilitzant supòsits específics de la llengua sobre la velocitat de parla, el sistema estima a quantes síl·labes hauria d’apuntar el fragment traduït per preservar un ritme natural («ajust a la durada»). La indicació demana al model que optimitzi tant l’ajust a la durada com la preservació del significat. Els fragments del voltant es passen com a context perquè el model mantingui la coherència semàntica entre segments.
L’equip va avaluar múltiples configuracions per equilibrar l’ajust a la durada, la fidelitat semàntica, la latència i el cost. La configuració escollida va oferir un seguiment fort de restriccions a velocitat de producció, fent possible una traducció d’alt volum sense reajust manual. El resultat és una canalització de traducció en què el ritme es tracta com una variable de primer ordre en lloc d’una cosa que es corregeix després.
Per desenvolupar els criteris d’acceptació per a les avaluacions, l’equip va fer proves d’escolta: van generar mostres d’àudio traduït i van ajustar la velocitat de reproducció en petits increments, demanant als usuaris que valoressin quan la parla es tornava antinatural.
«Qualsevol cosa que s’alentís un 10% o s’accelerés un 20% generalment encara sonava natural», va dir Mistratov. Més enllà d’aquest rang, la parla es tornava massa distorsionada.
Els sistemes anteriors rendien malament segons aquesta mesura. Segons l’idioma, només entre el 40% i el 60% dels segments queien dins de la finestra de ritme acceptable. Amb la canalització redissenyada, aquesta xifra va augmentar del 40%–60% a entre el 73% i el 83%, segons l’idioma.
L’equip també va avaluar la fidelitat semàntica amb una puntuació separada d’un model-com-a-jutge en una escala de l’1 («completament diferent») al 5 («semànticament equivalent»). Per al doblatge, van decidir acceptar un llindar semàntic més baix que per a la traducció només de subtítols, on les restriccions de durada són irrellevants. Fins i tot amb aquest compromís, el 85,5% dels segments van rebre una puntuació de quatre o cinc sobre cinc pel que fa a l’ajust semàntic.
El resultat va ser un sistema que podia equilibrar dues restriccions competidores —el temps i el significat— amb una confiança mesurable. I, com que totes dues mètriques estaven automatitzades, Descript pot avaluar contínuament noves versions de models i variacions d’indicacions amb els mateixos punts de referència.
A mesura que la traducció passa de vídeos individuals a grans biblioteques de contingut, Descript està incorporant més control en la manera com s’ajusten les traduccions, inclosa la capacitat de prioritzar una fidelitat semàntica més estricta quan calgui.
La traducció dins de Descript és només una capa d’un sistema multimodal més ampli. El text traduït alimenta la generació de parla, que al seu torn impulsa la sincronització labial i el renderitzat final del vídeo.
Les millores a la capa de text fan possible un ritme natural, però l’experiència global també depèn de com de bé el model d’àudio preserva el to, la cadència i les característiques no verbals de la parla. És aquí on l’equip veu la pròxima frontera d’avantguarda.
«Bona part del que millorarà la sortida de la traducció és fer que la canalització sigui més multimodal: incorporar àudio, vídeo i text conjuntament a l’hora de decidir com traduir», va dir Mistratov. «Això hauria de mantenir millor les característiques no verbals de la parla, com ara el to i l’èmfasi, i preservar encara més la manera original d’expressar-se.»
Per a Descript, uns models de raonament més sòlids van fer abordable la complexitat del doblatge. En superar el llindar en què els models podien equilibrar de manera fiable els compromisos entre ritme i significat, la traducció es va convertir en una cosa que l’equip podia millorar sistemàticament i desplegar a escala.


