Descript ауқымды көптілді видео дубляжын қалай жасайды

OpenAI ойлайтын модельдерін пайдалана отырып, Descript уақыт сәйкестігін не мағынаны жоғалтпай, үлкен контент кітапханаларын автоматты жерсіндіруді іске қосты.

Құрастыруды бастау

Қызғылт және күлгін абстрактілі толқын фонындағы Descript логотипі мен мәтіндік белгісі.

Компания көлемі: Стартап

Аймақ: Солтүстік Америка

Сала: Технология

Өнімдер: API

Нәтижелер

OpenAI көмегімен ұзақтыққа сәйкестіктің пайыздық тармаққа жақсаруы

Нәтижелер

15%

Іске қосылғаннан кейін дубляждалған экспорттардың артуы

Жүктелуде…

Descript⁠(жаңа терезеде ашылады) — қарапайым идеяға негізделген, AI-ға бейімделген видео редакторы: егер мәтінді өңдей алсаңыз, видеоны да өңдей алуыңыз керек. Descript-тің алғашқы күндерінен бері AI өнімнің әр қырын қуаттандырып келеді: транскрипция, өңдеу, аудионы тазалау және барған сайын күрделене түсетін шығармашылық жұмыс ағындары. Олар жылдар бойы OpenAI негізінде жұмыс істеп, транскрипция үшін Whisper-ді және өздерінің Underlord ко-редакторы ішінде GPT сериялы модельдерді пайдаланды.

Аударма тез арада әсері жоғары қолдану сценарийіне айналды. Дәстүрлі түрде видеоны аудару баяу әрі қымбат болатын, өйткені ол тіл мамандарының жобаларды басқаруын, тура аудармалар жасауды, сапаны бақылауды және сәйкес аудио өндіруді талап ететін. LLM (үлкен тілдік модель) бұл жұмыс ағынын айтарлықтай қысқартып, жоғары сапалы аударманы ауқымда мүмкін етті.

Субтитрлер де, дубляж да мағыналық дәлдікті талап етеді: аударма бастапқы мағынаны сақтауы керек. Бірақ ұзақтыққа сәйкестік олардың әрқайсында әртүрлі рөл атқарады. Субтитрлер үшін бұл болғаны жақсы нәрсе. Ал дубляж үшін бұл аса маңызды, өйткені аударылған сөйлеу тым ұзақ не тым қысқа болса, мағынасы дұрыс болса да, табиғи естілмейді.

Мұны шешу үшін Descript өз аударма құбырын OpenAI ойлайтын модельдерін пайдаланып, генерациядан кейін емес, генерация барысында мағыналық дәлдік пен ұзақтыққа сәйкестікті оңтайландыруға қайта құрды. Іске қосылғаннан кейінгі алғашқы 30 күнде дубляжы бар аударылған видеолар экспорты 15%-ға өсті, ал ұзақтыққа сәйкестік тілге байланысты 13-тен 43 пайыздық тармаққа дейін жақсарды.

«Дубляж — Descript үшін барған сайын танымал қолдану сценарийі, сондықтан бүкіл кітапханаларды аударып, ерін қимылын сәйкестендіргісі келетін компаниялар үшін оны пакеттік режимде жасау жолдарын құрып жатырмыз», — деді CEO Лора Буркхаузер.

Дубляж қай жерде бұзыла бастады

Аударма Descript-тің ең алғашқы әрі ең көп сұралған мүмкіндіктерінің бірі болды. Олар тек субтитр аудармасынан бастады, бұл жақсы жұмыс істеді, бірақ көптеген пайдаланушылар одан әрі барып, мақсатты тілде айтылған аудионы да (дубляжды) алғысы келді.

Алайда бір мәселе қайта-қайта шыға берді: дубляждалған аудио әрдайым дұрыс естілмейтін. «Бәлкім, біз ең көп естіген шағым — аударылған тілдегі сөйлеу қарқынының табиғи еместігі болды», — деді Descript-тегі AI Product бөлімінің басшысы Алекс Мистратов.

Мәселе әртүрлі тілдердің бір ойды жеткізуге әртүрлі уақыт жұмсайтығында еді. Мысалы, Descript орта есеппен неміс тілі ағылшын тіліне қарағанда «ұзынырақ» тіл екенін байқады. Бекітілген видео сегменттеріне сыйдыру үшін аударылған сөйлеуді жиі жасанды түрде жылдамдатуға немесе баяулатуға тура келетін. «Нәтижесінде бурундук сияқты немесе қалғып тұрған алып сияқты естілетін дүние шығатын», — деп түсіндірді Мистратов.

Ағылшын:

Неміс:

«Құрылғыны іске қоспас бұрын қауіпсіздік нұсқаулықтарын қарап шығыңыз.»

Буындар: 18

«Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.»

Буындар: 24 (40% арту)

Бұл жағдайда неміс тіліндегі аудионы не табиғи емес түрде жылдамдату керек болар еді, не аударманы уақыт шегіне сыйдыру үшін қайта жазу қажет болар еді.

Пайдаланушылардың алдында екі таңдау қалды: аудионы сегмент бойынша қолмен қайта уақыттау немесе аударманың өзін сыйатындай етіп қайта жазу. Екі тәсіл де таймлайнды терең өңдеуді және көбіне мақсатты тілді ана тіліне жуық деңгейде меңгеруді талап етті. Бұл креаторлар үшін машақатты болды және мүмкіндікті ірі корпоративтік жерсіндіру жобаларына ауқымдаудың алдындағы кедергіге айналды.

Аударманы тек мағынаға емес, уақытқа да оңтайландыру

Топта дубляжды жұмыс істету үшін не қажет екені туралы нақты түсінік болды. Жүйе тек мағынаны ғана оңтайландырмай, уақыт шектеулерін де ескеруі керек еді. Мысалы, ағылшын тілінен неміс тіліне аударғанда, модель дубляждалған аудио табиғи болып қалуы үшін аз сөз қолдануды немесе ұғымды жеңілдетуді түсінуі керек болды.

Бұрынғы тәсілдер алдымен мағыналық дәлдікті оңтайландырып, уақытты кейін түзетуге тырысатын. Аудармалар көбіне мағыналық тұрғыдан дұрыс болды, бірақ олар ұзақтық шектеулерін үнемі мүлт жіберетін, сондықтан жалпы сапа бәрібір жеткіліксіз еді.

«Біз кезең-кезеңімен тесттер жүргіздік, тіпті ештеңе өндірмей, модельден тек мәтін бөлігіндегі буын санын шығаруды сұрадық», — деді Мистратов. «Бұрынғы модельдер мұнда жай ғана жақсы болмады.»

Сенімді буын санау шешуші фактор болып шықты. Егер модель буындарды тұрақты түрде есептей алмаса, ол белгілі бір ұзақтық терезесін сенімді нысанаға ала алмайды.

GPT‑5 сериялы модельдер буын санау мен шектеулерді бақылау сияқты тапсырмаларда, әсіресе, бұрынғы модельдерде болмаған ой қорыту тұрақтылығы деңгейін әкелді. Осы жақсартудан кейін Descript өз аударма және дубляж құбырын қайта жасады.

Алдымен Descript жүйесі транскриптті бастапқы жазбадағы сөйлем шекаралары, табиғи кідірістер және сөйлеу үлгілеріне сүйене отырып бөліктерге бөледі. Әр бөлік мағыналық тұтастықты сақтайды, бірақ уақыт бірлігі ретінде ой қорытуға жеткілікті шағын болады.

Одан кейін модель бөліктегі буын санын есептейді. Тілге тән сөйлеу жылдамдығы туралы жорамалдарды пайдалана отырып, жүйе табиғи қарқынды («ұзақтыққа сәйкестікті») сақтау үшін аударылған бөліктің қанша буынға нысаналануы керегін бағалайды. Көмексөз модельден ұзақтыққа сәйкестік пен мағынаны сақтауды қатар оңтайландыруды сұрайды. Модель сегменттер арасында мағыналық үйлесімділікті сақтау үшін контекст ретінде айналасындағы бөліктерді де алады.

Топ ұзақтыққа сәйкестік, мағыналық дәлдік, кідіріс және шығын арасындағы тепе-теңдікті табу үшін бірнеше конфигурацияны бағалады. Таңдалған баптау өндірістік жылдамдықта шектеулерді мықты ұстануды қамтамасыз етіп, қолмен қайта уақыттаусыз жоғары көлемді аудармаға мүмкіндік берді. Нәтижесінде қарқын кейін түзетілетін нәрсе емес, бірінші дәрежелі айнымалы ретінде қарастырылатын аударма құбыры пайда болды.

Табиғи қарқынды анықтау және өлшеу

Бағалауларға арналған қабылдау критерийлерін әзірлеу үшін топ тыңдау сынақтарын жүргізді: олар аударылған аудио үлгілерін жасап, ойнату жылдамдығын шағын қадамдармен өзгертіп, пайдаланушылардан сөйлеу қай сәтте табиғи емес бола бастағанын бағалауды сұрады.

«10%-ға баяулатылған немесе 20%-ға жылдамдатылған кез келген нәрсе, әдетте, әлі де табиғи естілетін», — деді Мистратов. Осы ауқымнан тыс жерде сөйлеу тым бұрмаланып кететін.

Бұрынғы жүйелер бұл өлшем бойынша нашар нәтиже көрсетті. Тілге байланысты сегменттердің тек 40%-дан 60%-ға дейіні ғана қолайлы қарқын терезесіне түсті. Қайта жасалған құбырмен бұл көрсеткіш тілге байланысты 40%–60%-дан 73–83% аралығына дейін өсті.

Топ сондай-ақ мағыналық дәлдікті 1-ден («мүлде басқа») 5-ке («мағыналық тұрғыдан баламалы») дейінгі шкалада бағалайтын бөлек модель-судья рейтингі арқылы тексерді. Дубляж үшін олар ұзақтық шектеулері маңызды емес тек субтитр аудармасына қарағанда төменірек мағыналық шекті қабылдауды шешті. Осы ымыраның өзінде сегменттердің 85,5%-ы мағыналық сәйкестік бойынша бестен төрт не бес деген баға алды.

Нәтижесінде уақыт пен мағына деген бір-бірімен бәсекелес екі шектеуді өлшенетін сеніммен теңестіре алатын жүйе алынды. Екі метрика да автоматтандырылғандықтан, Descript жаңа модель релиздері мен көмексөз нұсқаларын сол бір эталондармен үздіксіз бағалай алады.

Ауқымды видео жерсіндіруді іске қосу

Аударма жекелеген видеолардан үлкен контент кітапханаларына ауысқан сайын, Descript аудармаларды қалай баптау керегіне көбірек бақылау қосуды, соның ішінде қажет болғанда қатаңырақ мағыналық дәлдікке басымдық беру мүмкіндігін де жасап жатыр.

Descript ішіндегі аударма — анағұрлым кең мультимодалды жүйенің бір ғана қабаты. Аударылған мәтін сөйлеу генерациясына түседі, ал ол өз кезегінде ерін қимылының сәйкестігін және видеоны соңғы рендерлеуді басқарады.

Мәтін қабатындағы жақсартулар табиғи қарқынды мүмкін етеді, бірақ жалпы тәжірибе аудио модельдің сөйлеудің реңкін, ырғағын және бейвербалды сипаттарын қаншалықты жақсы сақтайтынына да байланысты. Команда келесі озық бағытты дәл осы жерден көреді.

«Аударма нәтижесін жақсартатын көп нәрсе құбырды анағұрлым мультимодалды етуге байланысты болады: қалай аудару керегін шешкенде аудио, видео және мәтінді бірге қосу», — деді Мистратов. «Бұл сөйлеудің реңк пен екпін сияқты бейвербалды сипаттарын жақсырақ сақтауға және бастапқы жеткізудің одан да көбірек бөлігін сақтауға көмектесуі тиіс.»

Descript үшін күштірек ойлайтын модельдер дубляждың күрделілігін еңсеруге болатын етті. Модельдер қарқын мен мағына арасындағы ымыраларды сенімді түрде теңестіре алатын межеден асқанда, аударма топ жүйелі түрде жетілдіріп, ауқымда енгізе алатын нәрсеге айналды.