გადადით მთავარ შინაარსზე
OpenAI

6 მარტი, 2026

სტარტაპი

როგორ ქმნის Descript მრავალენოვან ვიდეოდუბლაჟს მასშტაბურად

OpenAI-ის მსჯელობის მოდელების გამოყენებით, Descript-მა დიდი კონტენტბიბლიოთეკების ავტომატური ლოკალიზაცია დროისა და აზრის დაკარგვის გარეშე გახადა შესაძლებელი.

Descript-ის ლოგო და სიტყვითი ნიშანი ვარდისფერ და იისფერ აბსტრაქტულ ტალღურ ფონზე.
კომპანიის ზომა: სტარტაპი
რეგიონი: ჩრდილოეთ ამერიკა
ინდუსტრია: ტექნოლოგია
პროდუქტები: API

შედეგები

43

OpenAI-ით ხანგრძლივობის შესაბამისობის გაუმჯობესება, პროცენტული პუნქტებით

შედეგები

15%

გაშვების შემდეგ გახმოვანებული ექსპორტების ზრდა

იტვირთება…

Descript(იხსნება ახალ ფანჯარაში) არის AI-ზე დაფუძნებული ვიდეორედაქტორი, რომელიც მარტივ იდეას ეყრდნობა: თუ ტექსტის რედაქტირება შეგიძლია, ვიდეოსაც უნდა არედაქტირებდე. Descript-ის ადრეული დღეებიდანვე, AI პროდუქტის ყველა ასპექტს ამუშავებდა: ტრანსკრიფციას, რედაქტირებას, აუდიოს გაწმენდას და სულ უფრო კომპლექსურ შემოქმედებით სამუშაო პროცესებს. ისინი წლებია OpenAI-ს ეყრდნობიან და ტრანსკრიფციისთვის Whisper-ს, ხოლო მათი თანარედაქტორის, Underlord-ის შიგნით GPT სერიის მოდელებს იყენებენ. 

თარგმანი სწრაფად გადაიქცა მაღალი გავლენის მქონე გამოყენების შემთხვევად. ტრადიციულად, ვიდეოს თარგმნა ნელი და ძვირი იყო — საჭიროებდა ენის სპეციალისტებს, რომლებიც პროექტებს მართავდნენ, მექანიკურ თარგმანებს ამზადებდნენ, ხარისხს აკონტროლებდნენ და შესაბამის აუდიოს ქმნიდნენ. LLM-ები ამ სამუშაო პროცესს მნიშვნელოვნად ამოკლებს და მასშტაბურად მაღალი ხარისხის თარგმანს შესაძლებელს ხდის.

როგორც სუბტიტრები, ისე დუბლაჟი სემანტიკურ სიზუსტეს მოითხოვს: თარგმანმა საწყისი აზრი უნდა შეინარჩუნოს. თუმცა ხანგრძლივობასთან შესაბამისობა თითოეულში განსხვავებულ როლს ასრულებს. სუბტიტრებისთვის ეს სასურველია, მაგრამ არა აუცილებელი. დუბლაჟისთვის კი კრიტიკულია, რადგან თუ ნათარგმნი ხმა მეტისმეტად გრძელია ან მოკლეა, სწორი აზრის შემთხვევაშიც არაბუნებრივად ჟღერს.

ამის გადასაჭრელად, Descript-მა OpenAI-ის მსჯელობის მოდელების გამოყენებით თავიდან დააპროექტა თავისი თარგმნის პაიპლაინი, რათა გენერაციის დროს მოეხდინა სემანტიკური სიზუსტისა და ხანგრძლივობასთან შესაბამისობის ოპტიმიზაცია და არა შემდეგ. დანერგვიდან პირველ 30 დღეში დუბლაჟიანი ნათარგმნი ვიდეოების ექსპორტი 15%-ით გაიზარდა, ხოლო ხანგრძლივობასთან შესაბამისობა, ენის მიხედვით, 13-დან 43 პროცენტულ პუნქტამდე გაუმჯობესდა.

„დუბლაჟი Descript-ისთვის სულ უფრო პოპულარული გამოყენების შემთხვევაა, ამიტომ ჩვენ ვქმნით გზებს, რომ ეს პარტიულად გავაკეთოთ იმ კომპანიებისთვის, რომლებსაც მთელი ბიბლიოთეკების თარგმნა და ტუჩების სინქრონიზაცია სურთ,“ — თქვა CEO-მ, ლორა ბურკჰაუზერმა.

სად დაიწყო დუბლაჟმა ჩავარდნა

თარგმანი Descript-ის ერთ-ერთი ყველაზე ადრეული და მოთხოვნადი ფუნქცია იყო. მათ დაიწყეს მხოლოდ სუბტიტრების თარგმნით, რაც კარგად მუშაობდა — მაგრამ ბევრ მომხმარებელს უფრო შორს წასვლა სურდა და სამიზნე ენაზე გახმოვანებული აუდიოც (დუბლაჟი) უნდოდა.

თუმცა ერთი პრობლემა მუდმივად იჩენდა თავს: დუბლირებული აუდიო ყოველთვის სწორად არ ჟღერდა. „ალბათ ნომერ პირველი საჩივარი, რაც გვესმოდა, ის იყო, რომ ნათარგმნ ენაზე მეტყველების ტემპი არაბუნებრივი იყო,“ — თქვა Descript-ის AI პროდუქტის ხელმძღვანელმა, ალექს მისტრატოვმა.

პრობლემა იმაში იყო, რომ სხვადასხვა ენას ერთი და იმავე აზრის გამოსახატად სხვადასხვა დრო სჭირდება. Descript-მა, მაგალითად, დააკვირდა, რომ საშუალოდ გერმანული ინგლისურზე „უფრო გრძელი“ ენაა. ფიქსირებულ ვიდეოსეგმენტებში ჩასატევად, ნათარგმნი მეტყველება ხშირად ხელოვნურად უნდა დაეჩქარებინათ ან შეენელებინათ. „საბოლოოდ იღებდი რაღაცას, რაც თახვების ხმას ჰგავდა ან მძინარე გიგანტს,“ — განმარტა მისტრატოვმა.

ინგლისური:

გერმანული:

„გთხოვთ, მანქანის გამოყენებამდე გაეცნოთ უსაფრთხოების მითითებებს.“

მარცვლები: 18

„Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.“

მარცვლები: 24 (40%-იანი ზრდა)

ამ შემთხვევაში გერმანული აუდიო ან არაბუნებრივად უნდა დაჩქარებულიყო, ან თარგმანი თავიდან უნდა გადამუშავებულიყო, რომ დროის ბიუჯეტში ჩატეულიყო.

მომხმარებლებს ორი არჩევანი რჩებოდათ: ხელით გადაეწყოთ აუდიო სეგმენტ-სეგმენტად, ან თავად თარგმანი გადაეწერათ ისე, რომ დროის ჩარჩოში ჩატეულიყო. ორივე მიდგომა მოითხოვდა ტაიმლაინზე ღრმა რედაქტირებას და ხშირად სამიზნე ენის თითქმის მშობლიურ ფლობასაც. ეს შემქმნელებისთვის შრომატევადი იყო და ფუნქციის მასშტაბირებას დიდი საწარმოების ლოკალიზაციის პროექტებზე აფერხებდა.

თარგმანების ოპტიმიზაცია დროისთვის და არა მხოლოდ აზრისთვის

გუნდს ნათელი წარმოდგენა ჰქონდა, რა დასჭირდებოდა დუბლაჟის ამუშავებას. სისტემას არა მხოლოდ სემანტიკური აზრისთვის უნდა გაეკეთებინა ოპტიმიზაცია, არამედ დროით შეზღუდვებზეც უნდა ჰქონოდა წარმოდგენა. მაგალითად, ინგლისურიდან გერმანულად თარგმნისას, მოდელს უნდა გაეგო, როგორ გამოეყენებინა ნაკლები სიტყვა ან გაემარტივებინა კონცეფცია, რათა დუბლირებული აუდიო ბუნებრივი დარჩენილიყო.

ადრეული მიდგომები ჯერ სემანტიკურ სიზუსტეს ანიჭებდა უპირატესობას და მხოლოდ შემდეგ ცდილობდა დროის გასწორებას. თარგმანები ხშირად სემანტიკურად სწორი იყო, მაგრამ სისტემატურად აცდენდა ხანგრძლივობის შეზღუდვებს და საერთო ხარისხი მაინც საკმარისად კარგი არ იყო. 

„ჩვენ ეტაპობრივ ტესტებს ვატარებდით, ჯერ არაფერსაც კი ვაგენერირებდით — უბრალოდ მოდელს ვთხოვდით, ტექსტის ნაწყვეტში მარცვლების რაოდენობა დაეთვალა,“ — თქვა მისტრატოვმა. „ადრეული მოდელები ამას უბრალოდ კარგად ვერ აკეთებდნენ.“

საიმედო მარცვლების დათვლა კრიტიკულად მნიშვნელოვანი აღმოჩნდა. თუ მოდელს მარცვლების თანმიმდევრულად გამოთვლა არ შეეძლო, კონკრეტულ ხანგრძლივობის ფანჯარაზე საიმედოდ ვერც დამიზნდებოდა.

GPT‑5 სერიის მოდელებმა მსჯელობის ისეთი თანმიმდევრულობა მოიტანა, რომელიც ადრეულ მოდელებს აკლდათ, განსაკუთრებით ისეთ ამოცანებში, როგორიცაა მარცვლების დათვლა და შეზღუდვების თვალყურის დევნება. ამ გაუმჯობესებით Descript-მა თავიდან დააპროექტა თავისი თარგმნისა და დუბლაჟის პაიპლაინი.

პირველ რიგში, Descript-ის სისტემა ტრანსკრიპტს ნაწილებად ყოფს, რასაც წინადადებების საზღვრები, ბუნებრივი პაუზები და საწყის ჩანაწერში მეტყველების ნიმუშები მიმართულებას აძლევს. თითოეული ნაწილი სემანტიკურ უწყვეტობას ინარჩუნებს, მაგრამ საკმარისად მცირეა, რომ დროით ერთეულად გაანალიზდეს.

ამის შემდეგ მოდელი ნაწილში მარცვლების რაოდენობას ითვლის. ენისთვის სპეციფიკურ მეტყველების სიჩქარის დაშვებებზე დაყრდნობით, სისტემა აფასებს, რამდენ მარცვალზე უნდა იყოს გათვლილი ნათარგმნი ნაწილი, რათა ბუნებრივი ტემპი შენარჩუნდეს („ხანგრძლივობასთან შესაბამისობა“). მოთხოვნა მოდელს სთხოვს, ოპტიმიზაცია გააკეთოს როგორც ხანგრძლივობასთან შესაბამისობაზე, ისე აზრის შენარჩუნებაზე. კონტექსტად გადაეცემა მომიჯნავე ნაწილებიც, რათა მოდელმა სეგმენტებს შორის სემანტიკური თანმიმდევრულობა შეინარჩუნოს.

გუნდმა შეაფასა რამდენიმე კონფიგურაცია, რათა დაებალანსებინა ხანგრძლივობასთან შესაბამისობა, სემანტიკური სიზუსტე, დაყოვნება და ღირებულება. არჩეულმა კონფიგურაციამ წარმოების სიჩქარეზე ძლიერი შესაბამისობა აჩვენა შეზღუდვებთან, რამაც დიდი მოცულობის თარგმანი ხელით გადათვლის გარეშე შესაძლებელი გახადა. შედეგად მიიღეს თარგმნის პაიპლაინი, სადაც ტემპი პირველხარისხოვან ცვლადად მიიჩნევა და არა იმ ფაქტორად, რომელიც მოგვიანებით უნდა გასწორდეს.

ბუნებრივი ტემპის განსაზღვრა და გაზომვა

ევალების მისაღები კრიტერიუმების შესამუშავებლად, გუნდმა მოსმენის ტესტები ჩაატარა: მათ შექმნეს ნათარგმნი აუდიოს ნიმუშები და დაკვრის სიჩქარეს მცირე მატებით ცვლიდნენ, მომხმარებლებს კი სთხოვდნენ შეეფასებინათ, როდის ხდებოდა მეტყველება არაბუნებრივი. 

„ყველაფერი, რაც 10%-ით იყო შენელებული ან 20%-ით აჩქარებული, ზოგადად მაინც ბუნებრივად ჟღერდა,“ — თქვა მისტრატოვმა. ამ დიაპაზონის მიღმა მეტყველება ზედმეტად დამახინჯებული ხდებოდა. 

ამ საზომით ადრეული სისტემები სუსტად მუშაობდა. ენის მიხედვით, სეგმენტების მხოლოდ 40%-დან 60%-მდე ხვდებოდა მისაღებ ტემპის ფანჯარაში. თავიდან დაპროექტებული პაიპლაინით ეს მაჩვენებელი 40%–60%-დან 73%-დან 83%-მდე გაიზარდა, ენის მიხედვით.

გუნდმა ასევე შეაფასა სემანტიკური სიზუსტე ცალკე მოდელ-როგორც-მსაჯულის შეფასებით, 1-დან („სრულიად განსხვავებული“) 5-მდე („სემანტიკურად ეკვივალენტური“) შკალაზე.  დუბლაჟისთვის მათ გადაწყვიტეს, მიეღოთ უფრო დაბალი სემანტიკური ზღვარი, ვიდრე მხოლოდ სუბტიტრების თარგმნისთვის, სადაც ხანგრძლივობის შეზღუდვები არსებითი არ არის. ამ კომპრომისის მიუხედავადაც, სეგმენტების 85.5% სემანტიკური შესაბამისობის მიხედვით ხუთიდან ოთხით ან ხუთით შეფასდა.

შედეგად მიიღეს სისტემა, რომელსაც შეეძლო ორი კონკურენტი შეზღუდვის — დროისა და აზრის — დაბალანსება გაზომვადი სანდოობით. და რადგან ორივე მეტრიკა ავტომატიზებული იყო, Descript-ს შეუძლია, ერთი და იმავე ნიშნულების მიმართ განუწყვეტლივ შეაფასოს მოდელების ახალი ვერსიები და მოთხოვნის ვარიაციები.

ვიდეოლოკალიზაციის გახსნა ფართო მასშტაბით

რადგან თარგმანი ცალკეული ვიდეოებიდან კონტენტის დიდ ბიბლიოთეკებზე გადადის, Descript თარგმანების რეგულირებაში უფრო მეტ კონტროლს ამატებს, მათ შორის შესაძლებლობასაც, საჭიროების შემთხვევაში უფრო მკაცრ სემანტიკურ სიზუსტეს მიანიჭოს პრიორიტეტი.

Descript-ში თარგმანი უფრო ფართო მულტიმოდალური სისტემის მხოლოდ ერთი ფენაა. ნათარგმნი ტექსტი მეტყველების გენერაციას მიეწოდება, რაც შემდეგ ტუჩების სინქრონიზაციასა და საბოლოო ვიდეორენდერს ამოძრავებს. 

ტექსტის ფენაში გაუმჯობესებები ბუნებრივ ტემპს შესაძლებელს ხდის, მაგრამ საერთო გამოცდილება ასევე დამოკიდებულია იმაზე, რამდენად კარგად ინარჩუნებს აუდიო მოდელი მეტყველების ტონს, კადენსსა და არავერბალურ მახასიათებლებს. სწორედ აქ ხედავს გუნდი შემდეგ მოწინავე საზღვარს. 

„იმის დიდი ნაწილი, რაც თარგმანის შედეგს გააუმჯობესებს, არის პაიპლაინის უფრო მულტიმოდალურად ქცევა: თარგმნის გადაწყვეტისას აუდიოს, ვიდეოსა და ტექსტის ერთად ჩართვა,“ — თქვა მისტრატოვმა. „ეს უკეთ შეინარჩუნებს მეტყველების არავერბალურ მახასიათებლებს, როგორიცაა ტონი და აქცენტირება, და თავდაპირველ მიწოდებას კიდევ უფრო მეტად შეინარჩუნებს.“

Descript-ისთვის უფრო ძლიერმა მსჯელობის მოდელებმა დუბლაჟის სირთულე მართვადი გახადა. მას შემდეგ, რაც მოდელებმა გადალახეს ზღვარი, სადაც ტემპსა და აზრს შორის კომპრომისების საიმედოდ დაბალანსება შეძლეს, თარგმანი იქცა ისეთ რამედ, რომლის სისტემურად გაუმჯობესება და მასშტაბურად დანერგვა გუნდს შეეძლო.