મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

6 માર્ચ, 2026

સ્ટાર્ટઅપ

Descript મોટા પાયે બહુભાષી વિડિયો ડબિંગ કેવી રીતે બનાવે છે

OpenAI રিজનિંગ મોડેલ્સનો ઉપયોગ કરીને, Descript એ સમય અથવા અર્થ ગુમાવ્યા વિના મોટી કન્ટેન્ટ લાઇબ્રેરીઓનું સ્વચાલિત લોકલાઇઝેશન શક્ય બનાવ્યું.

ગુલાબી અને જાંબલી એબ્સ્ટ્રેક્ટ વેવફોર્મ પૃષ્ઠભૂમિ પર Descriptનો લોગો અને વર્ડમાર્ક.
કંપનીનું કદ: સ્ટાર્ટઅપ
પ્રદેશ: ઉત્તર અમેરિકા
ઉદ્યોગ: ટેકનોલોજી
પ્રોડક્ટ્સ: API

પરિણામો

43

OpenAI સાથે અવધિ પાલનમાં ટકાવારી-બિંદુ સુધારો

પરિણામો

15%

રોલઆઉટ પછી ડબ્ડ એક્સપોર્ટ્સમાં વધારો

લોડિંગ…

Descript(નવી વિન્ડોમાં ખૂલે છે) એક AI-નેટિવ વિડિયો એડિટર છે, જે એક સરળ વિચાર પર બનાવવામાં આવ્યું છે: જો તમે લખાણ સંપાદિત કરી શકો, તો તમે વિડિયો પણ સંપાદિત કરી શકશો. Descript ના શરૂઆતના દિવસોથી જ AI એ પ્રોડક્ટના દરેક પાસાને શક્તિ આપી છે: ટ્રાન્સક્રિપ્શન, એડિટિંગ, ઑડિયો ક્લીનઅપ, અને વધતી જતી જટિલ સર્જનાત્મક વર્કફ્લોઝ. તેઓ વર્ષોથી OpenAI પર નિર્માણ કરી રહ્યા છે, ટ્રાન્સક્રિપ્શન માટે Whisper અને તેમના સહ-સંપાદક Underlord માં GPT શ્રેણીના મોડેલ્સનો ઉપયોગ કરીને.

અનુવાદ ઝડપથી ઊંચા પ્રભાવ ધરાવતો ઉપયોગ કેસ બની ગયો. પરંપરાગત રીતે, વિડિયોનું અનુવાદન ધીમું અને મોંઘું હતું, જેમાં ભાષા નિષ્ણાતોને પ્રોજેક્ટ સંચાલિત કરવું, સીધાસાદા અનુવાદ બનાવવું, ગુણવત્તા નિયંત્રણ સંભાળવું અને અનુરૂપ ઑડિયો તૈયાર કરવો પડતો હતો. LLMs એ આ વર્કફ્લોને બહુ સંકુચિત કરી દીધો, જેથી મોટા પાયે ઉચ્ચ-ગુણવત્તાવાળો અનુવાદ શક્ય બન્યો.

કૅપ્શન અને ડબિંગ બંનેમાં અર્થની વફાદારી જરૂરી છે: અનુવાદે મૂળ અર્થ જાળવવો જોઈએ. પરંતુ સમયગાળા સાથે સુસંગતતા બંનેમાં અલગ ભૂમિકા ભજવે છે. કૅપ્શન માટે, તે હોય તો સારું. ડબિંગ માટે, તે અત્યંત મહત્વપૂર્ણ છે, કારણ કે જો અનુવાદિત ભાષણ બહુ લાંબું કે બહુ ટૂંકું થાય, તો અર્થ સાચો હોવા છતાં પણ તે અસ્વાભાવિક લાગશે.

આને ઉકેલવા માટે, Descript એ OpenAI રિઝનિંગ મોડેલ્સનો ઉપયોગ કરીને તેની અનુવાદ પાઇપલાઇનને ફરી ડિઝાઇન કરી, જેથી જનરેશન દરમિયાન જ અર્થની વફાદારી અને સમયગાળા સાથેની સુસંગતતા માટે ઑપ્ટિમાઇઝ કરી શકાય, પછી નહીં. રોલઆઉટ પછીના પ્રથમ 30 દિવસોમાં, ડબિંગ સાથેના અનુવાદિત વિડિયોના એક્સપોર્ટમાં 15% વધારો થયો, અને ભાષા અનુસાર સમયગાળા સુસંગતતામાં 13 થી 43 ટકાબિંદુઓનો સુધારો થયો.

CEO લૌરા બર્કહાઉઝરે કહ્યું, “Descript માટે ડબિંગ વધતો જતો લોકપ્રિય ઉપયોગ કેસ છે, તેથી જે કંપનીઓ સંપૂર્ણ લાઇબ્રેરીઓનું અનુવાદ અને લિપ-સિંક કરવા માંગે છે, તેમના માટે અમે બેચમાં આ કરવાની રીતો બનાવી રહ્યા છીએ.”

જ્યાં ડબિંગ તૂટી પડવા લાગ્યું

અનુવાદ Descript ની સૌથી પ્રારંભિક અને સૌથી વધુ માંગવાળી સુવિધાઓમાંની એક હતી. તેમણે ફક્ત કૅપ્શન અનુવાદથી શરૂઆત કરી, જે સારી રીતે કામ કરતું હતું—પરંતુ ઘણા વપરાશકર્તાઓ આગળ વધીને લક્ષ્ય ભાષામાં બોલાતું ઑડિયો (ડબિંગ) પણ ઇચ્છતા હતા.

પરંતુ, એક સમસ્યા વારંવાર સામે આવતી રહી: ડબ કરેલું ઑડિયો હંમેશા યોગ્ય લાગતું નહોતું. Descript માં AI પ્રોડક્ટના હેડ એલેક્સ મિસ્ત્રાટોવે કહ્યું, “અમે સાંભળેલી કદાચ નંબર એક ફરિયાદ એ હતી કે અનુવાદિત ભાષામાં ભાષણની ગતિ અસ્વાભાવિક હતી.”

સમસ્યાનો મૂળ મુદ્દો એ હતો કે જુદી જુદી ભાષાઓને એક જ વિચાર વ્યક્ત કરવા જુદો સમય લાગે છે. Descript એ ઉદાહરણ તરીકે જોયું કે સરેરાશ જર્મન અંગ્રેજી કરતાં “લાંબી” ભાષા છે. નક્કી કરાયેલા વિડિયો સેગમેન્ટમાં ફિટ થવા માટે, અનુવાદિત ભાષણને ઘણી વાર કૃત્રિમ રીતે ઝડપી કે ધીમું કરવું પડતું હતું. મિસ્ત્રાટોવે સમજાવ્યું, “અંતે તમને એવું કંઈક મળતું કે જે ચિપમંક્સ અથવા ઉંઘેલા દૈત્ય જેવું લાગતું.”

અંગ્રેજી:

જર્મન:

“મશીન ચલાવતાં પહેલાં કૃપા કરીને સુરક્ષા માર્ગદર્શિકાઓની સમીક્ષા કરો.”

અક્ષરખંડ: 18

“Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.”

અક્ષરખંડ: 24 (40% વધારો)

આ કેસમાં, જર્મન ઑડિયોને તો અસ્વાભાવિક રીતે ઝડપી કરવું પડે, અથવા સમય મર્યાદામાં ફિટ થાય તે માટે અનુવાદ ફરી લખવો પડે.

વપરાશકર્તાઓ પાસે બે વિકલ્પો રહેતા: ઑડિયોને સેગમેન્ટ દીઠ હાથથી ફરી સમયબદ્ધ કરવું, અથવા અનુવાદને જ ફરી લખવો જેથી તે ફિટ થાય. બંને અભિગમોમાં ટાઇમલાઇન પર ઊંડા સંપાદનો અને ઘણી વાર લક્ષ્ય ભાષામાં લગભગ માતૃભાષા જેવી પારંગતતા જરૂરી હતી. સર્જકો માટે આ કંટાળાજનક હતું, અને મોટા એન્ટરપ્રાઇઝ લોકલાઇઝેશન પ્રોજેક્ટ્સ સુધી આ સુવિધાને વિસ્તારવામાં અવરોધ બનતું હતું.

ફક્ત અર્થ નહીં, સમય માટે અનુવાદ ઑપ્ટિમાઇઝ કરવો

ટીમ પાસે ડબિંગ કાર્યક્ષમ બનાવવા માટે શું જોઈએ તેની સ્પષ્ટ સમજ હતી. સિસ્ટમે ફક્ત અર્થ માટે જ નહીં, પણ સમય મર્યાદાઓ માટે પણ સચેત રહેવું જોઈએ. ઉદાહરણ તરીકે, અંગ્રેજીમાંથી જર્મનમાં અનુવાદ કરતી વખતે, મોડલે ઓછા શબ્દો કેવી રીતે વાપરવા અથવા વિચારને કેવી રીતે સરળ બનાવવો તે સમજવું જોઈએ, જેથી ડબ કરેલું ઑડિયો સ્વાભાવિક રહે.

અગાઉના અભિગમો પહેલાં અર્થની વફાદારી માટે ઑપ્ટિમાઇઝ કરતા અને પછી સમય સુધારવાનો પ્રયાસ કરતા. અનુવાદો ઘણી વાર અર્થની દૃષ્ટિએ સાચા હતા, પરંતુ તેઓ વારંવાર સમયગાળાની મર્યાદાઓ ચૂકી જતા, અને કુલ ગુણવત્તા હજી પણ પૂરતી સારી નહોતી.

મિસ્ત્રાટોવે કહ્યું, “અમે વધારાના પરીક્ષણો કર્યા, કશું જનરેટ પણ નહોતાં કરતા, ફક્ત મોડલને લખાણના ભાગમાં અક્ષરખંડોની સંખ્યા આઉટપુટ કરવા કહેતા. અગાઉના મોડેલ્સ તેમાં સારા નહોતા.”

વિશ્વસનીય અક્ષરખંડ ગણતરી નિર્ણાયક સાબિત થઈ. જો મોડલ સતત રીતે અક્ષરખંડોની ગણતરી કરી શકતું ન હોય, તો તે વિશ્વસનીય રીતે ચોક્કસ સમયગાળાની વિન્ડોને લક્ષ્ય બનાવી શકતું ન હતું.

GPT‑5 શ્રેણીના મોડેલ્સે અગાઉના મોડેલ્સમાં ન હોતી તેવી રિઝનિંગની સ્થિરતા આપી, ખાસ કરીને અક્ષરખંડ ગણતરી અને મર્યાદા ટ્રેકિંગ જેવી કામગીરીમાં. આ સુધારા સાથે, Descript એ તેની અનુવાદ અને ડબિંગ પાઇપલાઇનને ફરી ડિઝાઇન કરી.

પ્રથમ, Descript ની સિસ્ટમ ટ્રાન્સક્રિપ્ટને ભાગોમાં વહેંચે છે, જેમાં વાક્યની સીમાઓ, સ્વાભાવિક વિરામો અને મૂળ રેકોર્ડિંગમાં બોલવાની પદ્ધતિઓ માર્ગદર્શન આપે છે. દરેક ભાગ અર્થની સતતતા જાળવે છે, પરંતુ સમય એકમ તરીકે વિચારવા માટે પૂરતો નાનો હોય છે.

પછી, મોડલ તે ભાગમાં અક્ષરખંડોની સંખ્યા ગણે છે. ભાષા-વિશિષ્ટ બોલવાની ગતિના અનુમાનોનો ઉપયોગ કરીને, સિસ્ટમ અંદાજ કરે છે કે સ્વાભાવિક ગતિ જાળવવા માટે અનુવાદિત ભાગે કેટલા અક્ષરખંડોને લક્ષ્ય બનાવવું જોઈએ (“duration adherence”). પ્રોમ્પ્ટ મોડલને સમયગાળા સુસંગતતા અને અર્થ જાળવણી બંને માટે ઑપ્ટિમાઇઝ કરવા કહે છે. આસપાસના ભાગો સંદર્ભ તરીકે આપવામાં આવે છે જેથી મોડલ સેગમેન્ટ્સ વચ્ચે અર્થની સુસંગતતા જાળવે.

ટીમે સમયગાળા સુસંગતતા, અર્થની વફાદારી, વિલંબ અને ખર્ચ વચ્ચે સંતુલન બનાવવા માટે અનેક રૂપરેખાઓનું મૂલ્યાંકન કર્યું. પસંદ કરાયેલ સેટઅપે પ્રોડક્શન ગતિએ મજબૂત મર્યાદા-અનુસરણ આપ્યું, જેથી હાથથી ફરી સમયબદ્ધ કર્યા વિના મોટા પ્રમાણમાં અનુવાદ શક્ય બન્યો. પરિણામે એવી અનુવાદ પાઇપલાઇન મળી જેમાં ગતિને પછીથી સુધારવાની બાબત નહીં પરંતુ પ્રથમ શ્રેણીના પરિબળ તરીકે ગણવામાં આવે છે.

સ્વાભાવિક ગતિને વ્યાખ્યાયિત અને માપવી

એવલ્સ માટે સ્વીકાર્યતા માપદંડ વિકસાવવા ટીમે સાંભળવાના ટેસ્ટ્સ ચલાવ્યા: તેમણે અનુવાદિત ઑડિયો નમૂનાઓ બનાવ્યા અને પ્લેબેક ગતિને નાના વધારો સાથે બદલી, અને વપરાશકર્તાઓને પૂછ્યું કે ભાષણ ક્યારે અસ્વાભાવિક બનતું હતું.

મિસ્ત્રાટોવે કહ્યું, “જે કંઈ 10% ધીમું કરવામાં આવ્યું હોય, અથવા 20% ઝડપી કરવામાં આવ્યું હોય, તે સામાન્ય રીતે હજી પણ સ્વાભાવિક લાગતું હતું.” આ શ્રેણીથી આગળ ભાષણ ખૂબ વિકારિત બનતું હતું.

અગાઉની સિસ્ટમો આ માપદંડથી નબળી સાબિત થઈ. ભાષા મુજબ, ફક્ત 40% થી 60% સેગમેન્ટ્સ જ સ્વીકાર્ય ગતિ વિન્ડોમાં આવતા હતા. ફરી ડિઝાઇન કરેલી પાઇપલાઇન સાથે, આ સંખ્યા 40%–60% માંથી વધીને ભાષા મુજબ 73% થી 83% વચ્ચે પહોંચી.

ટીમે અર્થની વફાદારીનું પણ અલગ મોડલ-એઝ-જજ રેટિંગ દ્વારા મૂલ્યાંકન કર્યું, જેમાં સ્કેલ 1 (“સંપૂર્ણપણે જુદું”) થી 5 (“અર્થની દૃષ્ટિએ સમકક્ષ”) સુધી હતું. ડબિંગ માટે, તેમણે ફક્ત કૅપ્શન અનુવાદ કરતા અર્થ માટે થોડું નીચું માપદંડ સ્વીકારવાનું નક્કી કર્યું, જ્યાં સમય મર્યાદાઓ સંબંધિત નથી. આ સમજૂતી છતાં, 85.5% સેગમેન્ટ્સને અર્થ સુસંગતતા માટે પાંચમાંથી ચાર કે પાંચ રેટિંગ મળ્યું.

પરિણામે એવી સિસ્ટમ મળી કે જે બે સ્પર્ધાત્મક મર્યાદાઓ—સમય અને અર્થ—વચ્ચે માપી શકાય તેવા વિશ્વાસ સાથે સંતુલન બનાવી શકે. અને બંને મેટ્રિક્સ સ્વચાલિત હોવાથી, Descript સમાન બેન્ચમાર્ક્સ સામે નવા મોડલ રિલીઝ અને પ્રોમ્પ્ટના ફેરફારોનું સતત મૂલ્યાંકન કરી શકે છે.

મોટા પાયે વિડિયો લોકલાઇઝેશન અનલૉક કરવું

જ્યારે અનુવાદ એકલ વિડિયોથી મોટી કન્ટેન્ટ લાઇબ્રેરીઓ સુધી આગળ વધી રહ્યો છે, ત્યારે Descript અનુવાદ કેવી રીતે ટ્યુન થાય છે તેમાં વધુ નિયંત્રણ ઉમેરી રહ્યું છે, જેમાં જરૂર પડે ત્યારે વધુ કડક અર્થ વફાદારીને પ્રાથમિકતા આપવાની ક્ષમતા પણ સામેલ છે.

Descript માંનો અનુવાદ વિશાળ મલ્ટીમોડલ સિસ્ટમનું ફક્ત એક સ્તર છે. અનુવાદિત લખાણ ભાષણ જનરેશનમાં જાય છે, જે પછી લિપ-સિંક અને અંતિમ વિડિયો રેન્ડરિંગને સંચાલિત કરે છે.

લખાણ સ્તરે સુધારાઓ સ્વાભાવિક ગતિ શક્ય બનાવે છે, પરંતુ કુલ અનુભવ એ પર પણ આધારિત છે કે ઑડિયો મોડલ ભાષણનો સ્વર, લય અને અભાષિક લક્ષણો કેટલી સારી રીતે જાળવે છે. ટીમને લાગે છે કે આગળનું અત્યાધુનિક ક્ષેત્ર અહીં છે.

મિસ્ત્રાટોવે કહ્યું, “અનુવાદ આઉટપુટને સુધારનાર મોટો ભાગ એ છે કે પાઇપલાઇનને વધુ મલ્ટીમોડલ બનાવવી: અનુવાદ કેવી રીતે કરવો તે નક્કી કરતી વખતે ઑડિયો, વિડિયો અને લખાણને સાથે સામેલ કરવું. તે ભાષણના અભાષિક લક્ષણો, જેમ કે સ્વર અને ભાર, વધુ સારી રીતે જાળવશે અને મૂળ રજૂઆતને વધુ પ્રમાણમાં સાચવી રાખશે.”

Descript માટે, વધુ મજબૂત રિઝનિંગ મોડેલ્સે ડબિંગની જટિલતાને વ્યવહારુ બનાવી. જ્યાં મોડેલ્સ ગતિ અને અર્થ વચ્ચેના સમજૂતીઓને વિશ્વસનીય રીતે સંતુલિત કરી શકે એવા સ્તર સુધી પહોંચ્યા, ત્યાં અનુવાદ એવી બાબત બની ગયો જેને ટીમ પદ્ધતિસર સુધારી શકે અને મોટા પાયે અમલમાં મૂકી શકે.