Descript олон хэлт видео дубляжийг хэрхэн өргөжүүлж байна
OpenAI сэтгэн бодох загваруудыг ашигласнаар Descript цаглалт, утгыг алдалгүйгээр их хэмжээний контентын санг автоматаар нутагшуулах боломжийг нээлээ.

Үр дүн
43
OpenAI-тай хугацаа мөрдөлтийн сайжралтын хувийн пункт
Үр дүн
15%
Нэвтрүүлсний дараах дубляжтай экспортын өсөлт
Descript(шинэ цонхонд нээгдэнэ) нь нэг энгийн санаанд тулгуурлан бүтээгдсэн AI-д суурилсан видео засварлагч юм: хэрэв та текст засварлаж чаддаг бол видео ч засварлаж чаддаг байх ёстой. Descript-ийн эхэн үеэс л AI нь бүтээгдэхүүний бүх талыг тэтгэж ирсэн: транскрипц, засварлалт, аудио цэвэрлэгээ, мөн улам бүр төвөгтэй бүтээлч ажлын урсгалууд. Тэд олон жилийн турш OpenAI дээр тулгуурлан бүтээж, транскрипцэд Whisper, харин хамтран засварлагч Underlord дотор GPT цувралын загваруудыг ашиглаж ирсэн.
Орчуулга хурдан хугацаанд өндөр нөлөөтэй хэрэглээний тохиолдол болж гарч ирсэн. Уламжлал ёсоор видео орчуулах нь удаан бөгөөд өртөг өндөртэй байсан бөгөөд хэлний мэргэжилтнүүд төслийг удирдах, шууд орчуулга хийх, чанарын хяналт хийх, тохирох аудио үүсгэх шаардлагатай болдог байв. Том хэлний загвар (LLM)-ууд энэ ажлын урсгалыг эрс шахаж, өндөр чанартай орчуулгыг өргөн хэмжээнд хийх боломжийг нээсэн.
Субтитр болон дубляж хоёуланд нь утгын үнэнч байдал шаардлагатай: орчуулга нь эх утгыг хадгалах ёстой. Гэхдээ хугацаанд нийцэх байдал тус бүрт өөр үүрэгтэй. Субтитрт бол байвал сайн зүйл. Харин дубляжид бол маш чухал, учир нь орчуулсан яриа хэт урт эсвэл хэт богино байвал утга нь зөв байсан ч хиймэл сонсогдоно.
Үүнийг шийдэхийн тулд Descript орчуулгын шугамаа OpenAI сэтгэн бодох загваруудыг ашиглан дахин загварчилж, үүсгэх явцад утгын үнэнч байдал болон хугацаанд нийцэх байдлыг дараа нь биш, шууд оновчлох болсон. Нэвтрүүлснээс хойших эхний 30 хоногт дубляжтай орчуулагдсан видеоны экспорт 15%-иар өсөж, хэлнээс хамааран хугацаанд нийцэх байдал 13-43 хувийн пунктээр сайжирсан.
“Дубляж нь Descript-ийн хувьд улам түгээмэл хэрэглээ болж байгаа тул бүхэл бүтэн санг орчуулж, уруулын синк хийхийг хүсдэг компаниудад зориулан үүнийг багцаар хийх аргуудыг бид бүтээж байна” гэж Гүйцэтгэх захирал Лаура Буркхаузер хэлэв.
Орчуулга нь Descript-ийн хамгийн эхний бөгөөд хамгийн их хүсэлттэй функцуудын нэг байсан. Тэд зөвхөн субтитрийн орчуулгаар эхэлсэн бөгөөд энэ нь сайн ажилласан—гэвч олон хэрэглэгч нэг алхам урагшилж, зорилтот хэл дээр ярианы аудио (дубляж)-тай байхыг хүссэн.
Гэвч нэг асуудал дахин дахин гарч ирсээр байв: дубляжтай аудио дандаа зөв сонсогддоггүй байсан. “Бидний сонссон хамгийн том гомдол бол орчуулсан хэл дээрх ярианы хэмнэл хиймэл байсан явдал” гэж Descript-ийн AI бүтээгдэхүүний албаны дарга Алекс Мистратов хэлэв.
Асуудлын гол нь ижил санааг өөр өөр хэлээр илэрхийлэхэд өөр өөр хугацаа шаарддагт байсан. Жишээлбэл, дунджаар герман хэл англиас илүү “урт” хэл гэдгийг Descript ажигласан. Тогтсон видео сегментүүдэд багтаахын тулд орчуулсан яриаг ихэвчлэн хиймлээр хурдасгах эсвэл удаашруулах шаардлагатай болдог байв. “Эцэст нь жиргээтэй амьтад шиг, эсвэл нойрмог аварга шиг сонсогдох зүйл болдог” гэж Мистратов тайлбарлав.
Англи: | Герман: |
“Машиныг ажиллуулахын өмнө аюулгүй ажиллагааны зааврыг шалгана уу.” Үе: 18 | “Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.” Үе: 24 (40%-ийн өсөлт) |
Энэ тохиолдолд герман аудиог эсвэл хиймлээр хэт хурдасгах, эсвэл орчуулгыг хугацааны төсөвт тааруулан дахин бичих шаардлагатай болно.
Хэрэглэгчдэд хоёрхон сонголт үлддэг байв: аудиог сегмент бүрээр гараар дахин цаглах, эсвэл тааруулахын тулд орчуулгаа өөрийг нь дахин бичих. Аль аль арга нь таймлайны гүн засвар, мөн ихэнхдээ зорилтот хэл дээр төрөлх хэлтэй ойролцоо түвшний мэдлэг шаарддаг байв. Энэ нь бүтээгчдэд төвөгтэй байсан төдийгүй, том хэмжээний байгууллагын нутагшуулалтын төслүүдэд уг функцийг өргөжүүлэхэд саад болж байв.
Багийнханд дубляжийг ажиллуулахад юу хэрэгтэй талаар тодорхой онол байсан. Систем нь зөвхөн утгын оновчлол хийхээс гадна цаглалтын хязгаарлалтыг мэдэрдэг байх шаардлагатай байв. Жишээлбэл, англиас герман руу орчуулахдаа загвар нь цөөн үг ашиглах эсвэл ойлголтыг хялбарчлах аргыг ойлгох хэрэгтэй бөгөөд ингэснээр дубляжтай аудио байгалийн сонсогдсон хэвээр байна.
Өмнөх аргууд эхлээд утгын үнэнч байдлыг оновчлоод, дараа нь цаглалтыг засахыг оролддог байсан. Орчуулгууд нь ихэвчлэн утгын хувьд зөв байсан ч хугацааны хязгаарлалтыг тогтмол алддаг байсан бөгөөд нийт чанар нь хангалттай сайн биш хэвээр байв.
“Бид юу ч үүсгэхгүйгээр, зүгээр л загвараас текстийн хэсэг дэх үеийн тоог гаргахыг асууж, шат дараалсан туршилтууд хийсэн” гэж Мистратов хэлэв. “Өмнөх загварууд тийм зүйл дээр зүгээр л сайн байгаагүй.”
Үеийг найдвартай тоолох нь маш чухал болох нь тодорхой болсон. Хэрэв загвар үеийг тогтвортой тооцоолж чадахгүй бол тодорхой хугацааны цонхыг найдвартай онилох боломжгүй.
GPT‑5 цувралын загварууд нь ялангуяа үе тоолох, хязгаарлалтыг мөрдөх зэрэг даалгаварт өмнөх загваруудад байгаагүй түвшний сэтгэн бодох тогтвортой байдлыг авчирсан. Энэ сайжруулалтын ачаар Descript орчуулга болон дубляжийн шугамаа дахин загварчилсан.
Эхлээд Descript-ийн систем транскриптийг өгүүлбэрийн зааг, байгалийн завсарлага, анхны бичлэг дэх ярианы хэв маягийг баримжаалан хэсгүүдэд хуваадаг. Хэсэг бүр утгын залгамж чанарыг хадгалдаг боловч цаглалтын нэгж гэж авч үзэхэд хангалттай жижиг байдаг.
Дараа нь загвар тухайн хэсгийн үеийн тоог тооцоолдог. Хэл тус бүрийн ярианы хурдны таамаглал дээр тулгуурлан систем орчуулсан хэсэг байгалийн хэмнэлийг хадгалахын тулд хэдэн үе рүү чиглэх ёстойг тооцоолдог (“хугацаанд нийцэх байдал”). Өгөгдөл нь загвараас хугацаанд нийцэх байдал болон утга хадгалалтыг хоёуланг нь оновчлохыг хүсдэг. Загвар сегментүүдийн хооронд утгын уялдаа холбоог хадгалахын тулд ойр орчмын хэсгүүдийг контекст болгон дамжуулдаг.
Баг хугацаанд нийцэх байдал, утгын үнэнч байдал, саатал, өртгийг тэнцвэржүүлэхийн тулд олон тохиргоог үнэлсэн. Сонгосон тохиргоо нь үйлдвэрлэлийн хурд дээр хязгаарлалт сайн дагаж, гараар дахин цаглахгүйгээр их хэмжээний орчуулга хийх боломжийг бүрдүүлсэн. Үр дүнд нь хэмнэлийг дараа нь засдаг зүйл биш, харин үндсэн хувьсагч гэж үздэг орчуулгын шугам бий болсон.
Үнэлгээний хүлээн зөвшөөрөх шалгуурыг боловсруулахын тулд баг сонсголын туршилтууд явуулсан: тэд орчуулагдсан аудио жишээнүүд үүсгэж, тоглуулах хурдыг бага багаар өөрчилж, яриа хэзээнээс хиймэл болж байгааг хэрэглэгчдээр үнэлүүлсэн.
“10%-иар удаашруулсан, эсвэл 20%-иар хурдасгасан ямар ч зүйл ерөнхийдөө байгалийн сонсогдсоор байсан” гэж Мистратов хэлэв. Энэ хүрээнээс цааш яриа хэт гажууддаг болсон.
Өмнөх системүүд энэ хэмжүүрээр муу үзүүлэлттэй байсан. Хэлнээс хамааран сегментүүдийн зөвхөн 40%-60% нь зөвшөөрөгдөх хэмнэлийн цонхонд багтдаг байв. Дахин загварчилсан шугамтай болсноор энэ тоо 40%-60%-аас хэлнээс хамааран 73-83% хүртэл өссөн.
Мөн баг утгын үнэнч байдлыг 1 (“бүрэн өөр”) -ээс 5 (“утгын хувьд ижил”) хүртэлх шаталбарт тусдаа загвар-шүүгчийн үнэлгээгээр хэмжсэн. Дубляжийн хувьд тэд хугацааны хязгаарлалт хамааралгүй зөвхөн субтитрийн орчуулгатай харьцуулахад утгын босгыг арай доогуур байлгахаар шийдсэн. Тийм буулт хийсэн ч сегментүүдийн 85.5% нь утга хадгалалтын хувьд 5-аас 4 эсвэл 5 гэсэн үнэлгээ авсан.
Үр дүнд нь баг хугацаа ба утга гэсэн хоорондоо өрсөлддөг хоёр хязгаарлалтыг хэмжиж болохуйц итгэлтэйгээр тэнцвэржүүлж чаддаг системтэй болсон. Мөн аль аль хэмжүүр нь автоматжсан тул Descript ижил жишиг үзүүлэлтүүдийн дагуу шинэ загварын хувилбарууд болон өгөгдлийн өөрчлөлтүүдийг тасралтгүй үнэлэх боломжтой болсон.
Орчуулга ганц видеогоос том хэмжээний контентын сан руу шилжихийн хэрээр Descript орчуулгыг хэрхэн тааруулахад илүү их хяналт нэмж байгаа бөгөөд шаардлагатай үед илүү хатуу утгын үнэнч байдлыг чухалчлах боломжийг багтааж байна.
Descript доторх орчуулга нь илүү өргөн мультимодал системийн зөвхөн нэг давхарга юм. Орчуулагдсан текст нь яриа үүсгэх рүү орж, улмаар уруулын синк болон эцсийн видео рэндэрлэлтийг хөдөлгөдөг.
Текстийн түвшний сайжруулалтууд нь байгалийн хэмнэлийг боломжтой болгодог ч нийт туршлага нь мөн аудио загвар өнгө аяс, хэмнэл, ярианы үгэн бус шинжүүдийг хэр сайн хадгалж байгаагаас шалтгаална. Багийн харж буй дараагийн хил хязгаар тэнд байна.
“Орчуулгын үр дүнг сайжруулах гол зүйлсийн нэг нь шугамыг илүү мультимодал болгох явдал: хэрхэн орчуулахыг шийдэхдээ аудио, видео, текстийг хамтад нь оруулах” гэж Мистратов хэлэв. “Ингэснээр өнгө аяс, онцлол зэрэг ярианы үгэн бус шинжүүдийг илүү сайн хадгалж, анхны хүргэлтийн илүү их хэсгийг хамгаална.”
Descript-ийн хувьд илүү хүчтэй сэтгэн бодох загварууд дубляжийн төвөгтэй байдлыг шийдвэрлэхүйц болгосон. Загварууд хэмнэл ба утгын хоорондын буултуудыг найдвартай тэнцвэржүүлж чадах босгыг давснаар орчуулга нь баг системтэйгээр сайжруулж, өргөн хэмжээнд нэвтрүүлэх боломжтой зүйл болсон.


