ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

6 ਮਾਰਚ 2026

ਸਟਾਰਟਅੱਪ

Descript ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਬਹੁਭਾਸ਼ੀ ਵੀਡੀਓ ਡੱਬਿੰਗ ਕਿਵੇਂ ਬਣਾਉਂਦਾ ਹੈ

OpenAI ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਨਾਲ, Descript ਨੇ ਸਮਾਂ ਜਾਂ ਅਰਥ ਗੁਆਏ ਬਿਨਾਂ ਵੱਡੀਆਂ ਕੰਟੈਂਟ ਲਾਇਬ੍ਰੇਰੀਆਂ ਦੀ ਸਵੈਚਾਲਿਤ ਲੋਕਲਾਈਜ਼ੇਸ਼ਨ ਸੰਭਵ ਬਣਾਈ.

ਗੁਲਾਬੀ ਅਤੇ ਜਾਮਨੀ ਅਬਸਟ੍ਰੈਕਟ ਵੇਵਫਾਰਮ ਬੈਕਗ੍ਰਾਊਂਡ ਉੱਤੇ Descript ਦਾ ਲੋਗੋ ਅਤੇ ਵਰਡਮਾਰਕ।
ਕੰਪਨੀ ਦਾ ਆਕਾਰ: ਸਟਾਰਟਅੱਪ
ਖੇਤਰ: ਉੱਤਰੀ ਅਮਰੀਕਾ
ਉਦਯੋਗ: ਤਕਨਾਲੋਜੀ
ਉਤਪਾਦ: API

ਨਤੀਜੇ

43

OpenAI ਨਾਲ ਮਿਆਦ ਪਾਲਣਾ ਵਿੱਚ ਪ੍ਰਤੀਸ਼ਤ-ਅੰਕ ਸੁਧਾਰ

ਨਤੀਜੇ

15%

ਰੋਲਆਉਟ ਤੋਂ ਬਾਅਦ ਡੱਬਡ ਐਕਸਪੋਰਟਾਂ ਵਿੱਚ ਵਾਧਾ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

Descript(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਇੱਕ AI-ਨੇਟਿਵ ਵੀਡੀਓ ਐਡੀਟਰ ਹੈ ਜੋ ਇੱਕ ਸਧਾਰਣ ਵਿਚਾਰ 'ਤੇ ਬਣਿਆ ਹੈ: ਜੇ ਤੁਸੀਂ ਟੈਕਸਟ ਐਡਿਟ ਕਰ ਸਕਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ ਵੀਡੀਓ ਵੀ ਐਡਿਟ ਕਰਨ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ. Descript ਦੇ ਸ਼ੁਰੂਆਤੀ ਦਿਨਾਂ ਤੋਂ ਹੀ, AI ਨੇ ਉਤਪਾਦ ਦੇ ਹਰ ਪੱਖ ਨੂੰ ਤਾਕਤ ਦਿੱਤੀ ਹੈ: ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ, ਐਡਿਟਿੰਗ, ਆਡੀਓ ਸਾਫ਼-ਸਫ਼ਾਈ, ਅਤੇ ਵੱਧਦੇ ਤੌਰ 'ਤੇ ਜਟਿਲ ਰਚਨਾਤਮਕ ਵਰਕਫ਼ਲੋ. ਉਹ ਸਾਲਾਂ ਤੋਂ OpenAI 'ਤੇ ਨਿਰਮਾਣ ਕਰਦੇ ਆਏ ਹਨ, ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਲਈ Whisper ਅਤੇ ਆਪਣੇ ਕੋ-ਐਡੀਟਰ Underlord ਦੇ ਅੰਦਰ GPT ਸੀਰੀਜ਼ ਮਾਡਲ ਵਰਤਦੇ ਹੋਏ. 

ਅਨੁਵਾਦ ਤੇਜ਼ੀ ਨਾਲ ਇੱਕ ਉੱਚ-ਪ੍ਰਭਾਵ ਵਾਲਾ ਯੂਜ਼ ਕੇਸ ਬਣ ਕੇ ਸਾਹਮਣੇ ਆਇਆ. ਰਵਾਇਤੀ ਤੌਰ 'ਤੇ, ਵੀਡੀਓ ਦਾ ਅਨੁਵਾਦ ਹੌਲਾ ਅਤੇ ਮਹਿੰਗਾ ਹੁੰਦਾ ਸੀ, ਜਿਸ ਵਿੱਚ ਭਾਸ਼ਾ ਵਿਸ਼ੇਸ਼ਗਿਆਨਾਂ ਨੂੰ ਪ੍ਰੋਜੈਕਟ ਸੰਭਾਲਣੇ, ਸਿੱਧੇ ਅਨੁਵਾਦ ਤਿਆਰ ਕਰਨੇ, ਗੁਣਵੱਤਾ ਨਿਯੰਤਰਣ ਕਰਨਾ ਅਤੇ ਸੰਬੰਧਿਤ ਆਡੀਓ ਬਣਾਉਣਾ ਪੈਂਦਾ ਸੀ. LLMs ਇਸ ਵਰਕਫ਼ਲੋ ਨੂੰ ਕਾਫ਼ੀ ਘੱਟ ਕਰ ਦਿੰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਉੱਚ-ਗੁਣਵੱਤਾ ਅਨੁਵਾਦ ਸੰਭਵ ਹੁੰਦਾ ਹੈ.

ਕੈਪਸ਼ਨ ਅਤੇ ਡੱਬਿੰਗ ਦੋਵੇਂ ਲਈ ਅਰਥਾਤਮਕ ਨਿਸ਼ਠਾ ਲਾਜ਼ਮੀ ਹੈ: ਅਨੁਵਾਦ ਨੂੰ ਮੂਲ ਅਰਥ ਸੰਭਾਲਣਾ ਚਾਹੀਦਾ ਹੈ. ਪਰ ਮਿਆਦ ਦੀ ਪਾਲਣਾ ਹਰ ਇੱਕ ਵਿੱਚ ਵੱਖਰੀ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੀ ਹੈ. ਕੈਪਸ਼ਨਾਂ ਲਈ, ਇਹ ਹੋਵੇ ਤਾਂ ਚੰਗਾ ਹੈ. ਡੱਬਿੰਗ ਲਈ, ਇਹ ਨਿਰਣਾਇਕ ਹੈ, ਕਿਉਂਕਿ ਜੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਬੋਲ ਬਹੁਤ ਲੰਮਾ ਜਾਂ ਬਹੁਤ ਛੋਟਾ ਹੋਵੇ, ਤਾਂ ਅਰਥ ਸਹੀ ਹੋਣ ਦੇ ਬਾਵਜੂਦ ਇਹ ਗੈਰ-ਕੁਦਰਤੀ ਲੱਗੇਗਾ.

ਇਸ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਰਨ ਲਈ, Descript ਨੇ ਆਪਣੀ ਅਨੁਵਾਦ ਪਾਈਪਲਾਈਨ ਨੂੰ OpenAI ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨਾਲ ਮੁੜ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਤਾਂ ਜੋ ਬਣਾਉਣ ਦੇ ਦੌਰਾਨ ਹੀ ਅਰਥਾਤਮਕ ਨਿਸ਼ਠਾ ਅਤੇ ਮਿਆਦ ਪਾਲਣਾ ਲਈ ਅਨੁਕੂਲਤਾ ਕੀਤੀ ਜਾਵੇ, ਬਾਅਦ ਵਿੱਚ ਨਹੀਂ. ਰੋਲਆਉਟ ਤੋਂ ਬਾਅਦ ਪਹਿਲੇ 30 ਦਿਨਾਂ ਵਿੱਚ, ਡੱਬਿੰਗ ਵਾਲੀਆਂ ਅਨੁਵਾਦਿਤ ਵੀਡੀਓਆਂ ਦੇ ਐਕਸਪੋਰਟ 15% ਵਧੇ, ਅਤੇ ਭਾਸ਼ਾ ਦੇ ਅਨੁਸਾਰ ਮਿਆਦ ਪਾਲਣਾ ਵਿੱਚ 13 ਤੋਂ 43 ਪ੍ਰਤੀਸ਼ਤ ਅੰਕਾਂ ਦਾ ਸੁਧਾਰ ਆਇਆ.

Laura Burkhauser, CEO ਨੇ ਕਿਹਾ, “Descript ਲਈ ਡੱਬਿੰਗ ਇੱਕ ਤੇਜ਼ੀ ਨਾਲ ਲੋਕਪ੍ਰਿਯ ਹੁੰਦਾ ਯੂਜ਼ ਕੇਸ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਉਹਨਾਂ ਕੰਪਨੀਆਂ ਲਈ ਇਸਨੂੰ ਬੈਚ ਵਿੱਚ ਕਰਨ ਦੇ ਤਰੀਕੇ ਤਿਆਰ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਪੂਰੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਦਾ ਅਨੁਵਾਦ ਅਤੇ ਲਿਪ-ਸਿੰਕ ਕਰਨਾ ਚਾਹੁੰਦੀਆਂ ਹਨ.”

ਡੱਬਿੰਗ ਕਿੱਥੇ ਆ ਕੇ ਖਰਾਬ ਹੋਣ ਲੱਗੀ

ਅਨੁਵਾਦ Descript ਦੀਆਂ ਸਭ ਤੋਂ ਪਹਿਲੀਆਂ ਅਤੇ ਸਭ ਤੋਂ ਵੱਧ ਮੰਗੀਆਂ ਗਈਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਸੀ. ਉਨ੍ਹਾਂ ਨੇ ਕੇਵਲ ਕੈਪਸ਼ਨ ਅਨੁਵਾਦ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕੀਤੀ, ਜੋ ਚੰਗਾ ਕੰਮ ਕਰਦਾ ਸੀ—ਪਰ ਬਹੁਤ ਸਾਰੇ ਯੂਜ਼ਰ ਹੋਰ ਅੱਗੇ ਜਾਣਾ ਚਾਹੁੰਦੇ ਸਨ ਅਤੇ ਟਾਰਗੇਟ ਭਾਸ਼ਾ ਵਿੱਚ ਬੋਲੀ ਗਈ ਆਡੀਓ (ਡੱਬਿੰਗ) ਵੀ ਚਾਹੁੰਦੇ ਸਨ.

ਹਾਲਾਂਕਿ, ਇੱਕ ਸਮੱਸਿਆ ਵਾਰ-ਵਾਰ ਸਾਹਮਣੇ ਆਉਂਦੀ ਰਹੀ: ਡੱਬ ਕੀਤੀ ਆਡੀਓ ਹਮੇਸ਼ਾਂ ਠੀਕ ਨਹੀਂ ਲੱਗਦੀ ਸੀ. Aleks Mistratov, Head of AI Product at Descript ਨੇ ਕਿਹਾ, “ਸ਼ਾਇਦ ਸਾਡੇ ਕੋਲ ਆਉਣ ਵਾਲੀ ਸਭ ਤੋਂ ਵੱਡੀ ਸ਼ਿਕਾਇਤ ਇਹ ਸੀ ਕਿ ਅਨੁਵਾਦ ਕੀਤੀ ਭਾਸ਼ਾ ਵਿੱਚ ਬੋਲਣ ਦੀ ਰਫ਼ਤਾਰ ਗੈਰ-ਕੁਦਰਤੀ ਸੀ.”

ਸਮੱਸਿਆ ਦਾ ਕਾਰਣ ਇਹ ਸੀ ਕਿ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਇੱਕੋ ਵਿਚਾਰ ਪ੍ਰਗਟ ਕਰਨ ਲਈ ਵੱਖਰਾ ਸਮਾਂ ਲੱਗਦਾ ਹੈ. ਉਦਾਹਰਨ ਵਜੋਂ, Descript ਨੇ ਦੇਖਿਆ ਕਿ ਔਸਤਨ ਜਰਮਨ ਅੰਗਰੇਜ਼ੀ ਨਾਲੋਂ “ਲੰਮੀ” ਭਾਸ਼ਾ ਹੈ. ਨਿਰਧਾਰਤ ਵੀਡੀਓ ਹਿੱਸਿਆਂ ਵਿੱਚ ਫਿੱਟ ਕਰਨ ਲਈ, ਅਨੁਵਾਦਿਤ ਬੋਲ ਨੂੰ ਅਕਸਰ ਕ੍ਰਿਤ੍ਰਿਮ ਤੌਰ 'ਤੇ ਤੇਜ਼ ਜਾਂ ਹੌਲਾ ਕਰਨਾ ਪੈਂਦਾ ਸੀ. Mistratov ਨੇ ਸਮਝਾਇਆ, “ਆਖ਼ਿਰ ਵਿੱਚ ਤੁਹਾਨੂੰ ਕੁਝ ਐਸਾ ਮਿਲਦਾ ਸੀ ਜੋ ਚਿਪਮੰਕਸ ਜਾਂ ਸੁਸਤ ਦੈਤ ਵਰਗਾ ਲੱਗਦਾ ਸੀ.”

ਅੰਗਰੇਜ਼ੀ:

ਜਰਮਨ:

“ਕਿਰਪਾ ਕਰਕੇ ਮਸ਼ੀਨ ਚਲਾਉਣ ਤੋਂ ਪਹਿਲਾਂ ਸੁਰੱਖਿਆ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਸਮੀਖਿਆ ਕਰੋ।”

ਸਿਲੇਬਲ: 18

“Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.”

ਸਿਲੇਬਲ: 24 (40% ਵਾਧਾ)

ਇਸ ਮਾਮਲੇ ਵਿੱਚ, ਜਰਮਨ ਆਡੀਓ ਨੂੰ ਜਾਂ ਤਾਂ ਗੈਰ-ਕੁਦਰਤੀ ਢੰਗ ਨਾਲ ਤੇਜ਼ ਕਰਨਾ ਪੈਂਦਾ, ਜਾਂ ਸਮੇਂ ਦੀ ਸੀਮਾ ਵਿੱਚ ਫਿੱਟ ਕਰਨ ਲਈ ਅਨੁਵਾਦ ਨੂੰ ਮੁੜ ਲਿਖਣਾ ਪੈਂਦਾ।

ਯੂਜ਼ਰਾਂ ਕੋਲ ਦੋ ਵਿਕਲਪ ਰਹਿ ਜਾਂਦੇ ਸਨ: ਆਡੀਓ ਨੂੰ ਹਿੱਸਾ-ਦਰ-ਹਿੱਸਾ ਹੱਥੋਂ ਮੁੜ-ਸਮੇਂਬੱਧ ਕਰਨਾ, ਜਾਂ ਅਨੁਵਾਦ ਨੂੰ ਹੀ ਫਿੱਟ ਬਣਾਉਣ ਲਈ ਮੁੜ ਲਿਖਣਾ. ਦੋਹਾਂ ਤਰੀਕਿਆਂ ਲਈ ਟਾਈਮਲਾਈਨ ਵਿੱਚ ਡੂੰਘੀਆਂ ਸੋਧਾਂ ਅਤੇ ਅਕਸਰ ਟਾਰਗੇਟ ਭਾਸ਼ਾ ਵਿੱਚ ਲਗਭਗ ਮਾਤਭਾਸ਼ਾਈ ਦੱਖਲ ਦੀ ਲੋੜ ਹੁੰਦੀ ਸੀ. ਇਹ ਕ੍ਰੀਏਟਰਾਂ ਲਈ ਥਕਾਵਟ ਭਰਿਆ ਸੀ ਅਤੇ ਵੱਡੇ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਲੋਕਲਾਈਜ਼ੇਸ਼ਨ ਪ੍ਰੋਜੈਕਟਾਂ ਤੱਕ ਇਸ ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਸਕੇਲ ਕਰਨ ਵਿੱਚ ਰੁਕਾਵਟ ਬਣ ਗਿਆ.

ਸਿਰਫ਼ ਅਰਥ ਨਹੀਂ, ਸਮੇਂ ਲਈ ਅਨੁਵਾਦਾਂ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣਾ

ਟੀਮ ਕੋਲ ਇਹ ਸਪਸ਼ਟ ਧਾਰਣਾ ਸੀ ਕਿ ਡੱਬਿੰਗ ਨੂੰ ਕੰਮਯੋਗ ਬਣਾਉਣ ਲਈ ਕੀ ਲੋੜ ਹੋਵੇਗੀ. ਸਿਸਟਮ ਨੂੰ ਸਿਰਫ਼ ਅਰਥਾਤਮਕ ਮਤਲਬ ਲਈ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਸਮੇਂ ਦੀਆਂ ਪਾਬੰਦੀਆਂ ਲਈ ਵੀ ਅਨੁਕੂਲ ਬਣਾਉਣਾ ਪਵੇਗਾ. ਉਦਾਹਰਨ ਵਜੋਂ, ਅੰਗਰੇਜ਼ੀ ਤੋਂ ਜਰਮਨ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਦੇ ਸਮੇਂ, ਮਾਡਲ ਨੂੰ ਇਹ ਸਮਝਣਾ ਪਵੇਗਾ ਕਿ ਘੱਟ ਸ਼ਬਦਾਂ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕਰਨੀ ਹੈ ਜਾਂ ਧਾਰਣਾ ਨੂੰ ਕਿਵੇਂ ਸਰਲ ਬਣਾਉਣਾ ਹੈ, ਤਾਂ ਜੋ ਡੱਬ ਕੀਤੀ ਆਡੀਓ ਕੁਦਰਤੀ ਰਹੇ.

ਪਹਿਲਾਂ ਦੇ ਤਰੀਕੇ ਪਹਿਲਾਂ ਅਰਥਾਤਮਕ ਨਿਸ਼ਠਾ ਲਈ ਅਨੁਕੂਲਤਾ ਕਰਦੇ ਸਨ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਸਮੇਂ ਨੂੰ ਠੀਕ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਸਨ. ਅਨੁਵਾਦ ਅਕਸਰ ਅਰਥਾਤਮਕ ਤੌਰ 'ਤੇ ਸਹੀ ਹੁੰਦੇ ਸਨ, ਪਰ ਉਹ ਨਿਯਮਿਤ ਤੌਰ 'ਤੇ ਮਿਆਦ ਦੀਆਂ ਪਾਬੰਦੀਆਂ ਨੂੰ ਚੁੱਕ ਜਾਂਦੇ ਸਨ, ਅਤੇ ਕੁੱਲ ਗੁਣਵੱਤਾ ਫਿਰ ਵੀ ਕਾਫ਼ੀ ਨਹੀਂ ਸੀ. 

Mistratov ਨੇ ਕਿਹਾ, “ਅਸੀਂ ਕ੍ਰਮਵਾਰ ਟੈਸਟ ਚਲਾਏ, ਕੁਝ ਬਣਾਇਆ ਵੀ ਨਹੀਂ, ਸਿਰਫ਼ ਮਾਡਲ ਨੂੰ ਟੈਕਸਟ ਦੇ ਇੱਕ ਹਿੱਸੇ ਵਿੱਚ ਸਿਲੇਬਲਾਂ ਦੀ ਗਿਣਤੀ ਦੱਸਣ ਲਈ ਕਿਹਾ. ਪਹਿਲਾਂ ਦੇ ਮਾਡਲ ਇਸ ਵਿੱਚ ਸਿਰਫ਼ ਚੰਗੇ ਨਹੀਂ ਸਨ.”

ਭਰੋਸੇਯੋਗ ਸਿਲੇਬਲ-ਗਿਣਤੀ ਨਿਰਣਾਇਕ ਸਾਬਤ ਹੋਈ. ਜੇ ਮਾਡਲ ਲਗਾਤਾਰ ਸਿਲੇਬਲਾਂ ਦੀ ਗਿਣਤੀ ਨਹੀਂ ਕਰ ਸਕਦਾ ਸੀ, ਤਾਂ ਉਹ ਕਿਸੇ ਖਾਸ ਮਿਆਦੀ ਸੀਮਾ ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਟਾਰਗੇਟ ਨਹੀਂ ਕਰ ਸਕਦਾ ਸੀ.

GPT‑5 ਸੀਰੀਜ਼ ਮਾਡਲਾਂ ਨੇ ਰੀਜ਼ਨਿੰਗ ਦੀ ਇੱਕ ਐਸੀ ਸਥਿਰਤਾ ਦਿੱਤੀ ਜੋ ਪਹਿਲਾਂ ਦੇ ਮਾਡਲਾਂ ਵਿੱਚ ਨਹੀਂ ਸੀ, ਖ਼ਾਸ ਕਰਕੇ ਸਿਲੇਬਲ ਗਿਣਤੀ ਅਤੇ ਪਾਬੰਦੀ ਟ੍ਰੈਕਿੰਗ ਵਰਗੇ ਕੰਮਾਂ ਵਿੱਚ. ਇਸ ਸੁਧਾਰ ਨਾਲ, Descript ਨੇ ਆਪਣੀ ਅਨੁਵਾਦ ਅਤੇ ਡੱਬਿੰਗ ਪਾਈਪਲਾਈਨ ਨੂੰ ਮੁੜ ਡਿਜ਼ਾਈਨ ਕੀਤਾ.

ਸਭ ਤੋਂ ਪਹਿਲਾਂ, Descript ਦਾ ਸਿਸਟਮ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਨੂੰ ਹਿੱਸਿਆਂ ਵਿੱਚ ਤੋੜਦਾ ਹੈ, ਜੋ ਵਾਕ ਸੀਮਾਵਾਂ, ਕੁਦਰਤੀ ਠਹਿਰਾਵਾਂ ਅਤੇ ਮੂਲ ਰਿਕਾਰਡਿੰਗ ਦੇ ਬੋਲਣ ਦੇ ਪੈਟਰਨਾਂ ਦੁਆਰਾ ਨਿਰਦੇਸ਼ਤ ਹੁੰਦਾ ਹੈ. ਹਰ ਹਿੱਸਾ ਅਰਥਾਤਮਕ ਲਗਾਤਾਰਤਾ ਕਾਇਮ ਰੱਖਦਾ ਹੈ, ਪਰ ਸਮੇਂ ਦੀ ਇਕਾਈ ਵਜੋਂ ਸੋਚਣ ਲਈ ਕਾਫ਼ੀ ਛੋਟਾ ਹੁੰਦਾ ਹੈ.

ਇਸ ਤੋਂ ਬਾਅਦ, ਮਾਡਲ ਉਸ ਹਿੱਸੇ ਵਿੱਚ ਸਿਲੇਬਲਾਂ ਦੀ ਗਿਣਤੀ ਕਰਦਾ ਹੈ. ਭਾਸ਼ਾ-ਵਿਸ਼ੇਸ਼ ਬੋਲਣ ਦੀ ਰਫ਼ਤਾਰ ਬਾਰੇ ਧਾਰਣਾਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਸਿਸਟਮ ਅੰਦਾਜ਼ਾ ਲਗਾਉਂਦਾ ਹੈ ਕਿ ਕੁਦਰਤੀ ਗਤੀ ਬਣਾਈ ਰੱਖਣ ਲਈ ਅਨੁਵਾਦਿਤ ਹਿੱਸੇ ਨੂੰ ਕਿੰਨੇ ਸਿਲੇਬਲਾਂ ਦਾ ਟਾਰਗੇਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ (“duration adherence”). ਪ੍ਰੌੰਪਟ ਮਾਡਲ ਨੂੰ duration adherence ਅਤੇ ਅਰਥ ਸੰਭਾਲਣ ਦੋਹਾਂ ਲਈ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਕਹਿੰਦਾ ਹੈ. ਆਲੇ-ਦੁਆਲੇ ਦੇ ਹਿੱਸੇ ਸੰਦਰਭ ਵਜੋਂ ਦਿੱਤੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਜੋ ਮਾਡਲ ਸੈਗਮੈਂਟਾਂ ਵਿੱਚ ਅਰਥਾਤਮਕ ਸੰਗਤਤਾ ਕਾਇਮ ਰੱਖੇ.

ਟੀਮ ਨੇ duration adherence, ਅਰਥਾਤਮਕ ਨਿਸ਼ਠਾ, ਲੈਟੈਂਸੀ ਅਤੇ ਲਾਗਤ ਵਿੱਚ ਸੰਤੁਲਨ ਲਈ ਕਈ ਕਨਫ਼ਿਗਰੇਸ਼ਨਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ. ਚੁਣੀ ਗਈ ਸੈਟਅੱਪ ਨੇ ਪ੍ਰੋਡਕਸ਼ਨ ਗਤੀ 'ਤੇ ਮਜ਼ਬੂਤ ਪਾਬੰਦੀ-ਪਾਲਣਾ ਦਿੱਤੀ, ਜਿਸ ਨਾਲ ਬਿਨਾਂ ਹੱਥੋਂ ਮੁੜ-ਸਮੇਂਬੱਧ ਕੀਤੇ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਅਨੁਵਾਦ ਸੰਭਵ ਹੋਇਆ. ਨਤੀਜਾ ਇੱਕ ਐਸੀ ਅਨੁਵਾਦ ਪਾਈਪਲਾਈਨ ਹੈ ਜਿਸ ਵਿੱਚ ਗਤੀ ਨੂੰ ਬਾਅਦ ਵਿੱਚ ਠੀਕ ਕੀਤੀ ਜਾਣ ਵਾਲੀ ਚੀਜ਼ ਦੀ ਬਜਾਏ ਪਹਿਲੇ ਦਰਜੇ ਦੇ ਵੇਰੀਏਬਲ ਵਜੋਂ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ.

ਕੁਦਰਤੀ ਗਤੀ ਦੀ ਪਰਿਭਾਸ਼ਾ ਅਤੇ ਮਾਪ

ਮੁਲਾਂਕਣਾਂ ਲਈ ਸਵੀਕਾਰਤਾ ਮਾਪਦੰਡ ਤਿਆਰ ਕਰਨ ਵਾਸਤੇ, ਟੀਮ ਨੇ ਸੁਣਨ ਟੈਸਟ ਚਲਾਏ: ਉਨ੍ਹਾਂ ਨੇ ਅਨੁਵਾਦਿਤ ਆਡੀਓ ਨਮੂਨੇ ਬਣਾਏ ਅਤੇ ਪਲੇਬੈਕ ਗਤੀ ਨੂੰ ਛੋਟੇ-ਛੋਟੇ ਕਦਮਾਂ ਵਿੱਚ ਠੀਕ ਕੀਤਾ, ਯੂਜ਼ਰਾਂ ਨੂੰ ਪੁੱਛਿਆ ਕਿ ਬੋਲ ਕਦੋਂ ਗੈਰ-ਕੁਦਰਤੀ ਹੋ ਜਾਂਦਾ ਹੈ. 

Mistratov ਨੇ ਕਿਹਾ, “ਜੋ ਵੀ ਚੀਜ਼ 10% ਹੌਲੀ ਕੀਤੀ ਗਈ ਸੀ, ਜਾਂ 20% ਤੇਜ਼ ਕੀਤੀ ਗਈ ਸੀ, ਉਹ ਆਮ ਤੌਰ 'ਤੇ ਫਿਰ ਵੀ ਕੁਦਰਤੀ ਲੱਗਦੀ ਸੀ. ਇਸ ਹੱਦ ਤੋਂ ਬਾਹਰ, ਬੋਲ ਬਹੁਤ ਵਿਗੜ ਜਾਂਦਾ ਸੀ.” 

ਪਹਿਲੇ ਸਿਸਟਮ ਇਸ ਮਾਪਦੰਡ ਅਨੁਸਾਰ ਕਮਜ਼ੋਰ ਸਾਬਤ ਹੋਏ. ਭਾਸ਼ਾ ਦੇ ਅਨੁਸਾਰ, ਸਿਰਫ਼ 40% ਤੋਂ 60% ਸੈਗਮੈਂਟ ਹੀ ਸਵੀਕਾਰਯੋਗ ਗਤੀ ਵਾਲੀ ਸੀਮਾ ਵਿੱਚ ਆਉਂਦੇ ਸਨ. ਮੁੜ ਡਿਜ਼ਾਈਨ ਕੀਤੀ ਪਾਈਪਲਾਈਨ ਨਾਲ, ਇਹ ਗਿਣਤੀ 40%–60% ਤੋਂ ਵਧ ਕੇ ਭਾਸ਼ਾ ਦੇ ਅਨੁਸਾਰ 73% ਤੋਂ 83% ਦੇ ਵਿਚਕਾਰ ਹੋ ਗਈ.

ਟੀਮ ਨੇ ਅਰਥਾਤਮਕ ਨਿਸ਼ਠਾ ਦਾ ਵੀ ਇੱਕ ਵੱਖਰੇ model-as-judge ਰੇਟਿੰਗ ਨਾਲ ਮੁਲਾਂਕਣ ਕੀਤਾ, ਜਿਸ ਦਾ ਸਕੇਲ 1 (“ਪੂਰੀ ਤਰ੍ਹਾਂ ਵੱਖਰਾ”) ਤੋਂ 5 (“ਅਰਥਾਤਮਕ ਤੌਰ 'ਤੇ ਸਮਾਨ”) ਤੱਕ ਸੀ.  ਡੱਬਿੰਗ ਲਈ, ਉਨ੍ਹਾਂ ਨੇ ਕੈਪਸ਼ਨ-ਕੇਵਲ ਅਨੁਵਾਦ ਨਾਲੋਂ ਘੱਟ ਅਰਥਾਤਮਕ ਸੀਮਾ ਸਵੀਕਾਰ ਕਰਨ ਦਾ ਫ਼ੈਸਲਾ ਕੀਤਾ, ਜਿੱਥੇ ਮਿਆਦ ਦੀਆਂ ਪਾਬੰਦੀਆਂ ਅਪ੍ਰਸੰਗਿਕ ਹਨ. ਇਸ ਸਮਝੌਤੇ ਦੇ ਬਾਵਜੂਦ, 85.5% ਸੈਗਮੈਂਟਾਂ ਨੂੰ ਅਰਥਾਤਮਕ ਪਾਲਣਾ ਲਈ ਪੰਜ ਵਿੱਚੋਂ ਚਾਰ ਜਾਂ ਪੰਜ ਦੀ ਰੇਟਿੰਗ ਮਿਲੀ.

ਨਤੀਜਾ ਇੱਕ ਐਸਾ ਸਿਸਟਮ ਸੀ ਜੋ ਦੋ ਮੁਕਾਬਲੇਬਾਜ਼ ਪਾਬੰਦੀਆਂ—ਸਮਾਂ ਅਤੇ ਅਰਥ—ਨੂੰ ਮਾਪਯੋਗ ਭਰੋਸੇ ਨਾਲ ਸੰਤੁਲਿਤ ਕਰ ਸਕਦਾ ਸੀ. ਅਤੇ ਕਿਉਂਕਿ ਦੋਵੇਂ ਮੈਟ੍ਰਿਕਸ ਆਟੋਮੈਟਿਕ ਸਨ, Descript ਨਵੇਂ ਮਾਡਲ ਰਿਲੀਜ਼ਾਂ ਅਤੇ ਪ੍ਰੌੰਪਟ ਤਬਦੀਲੀਆਂ ਦਾ ਉਹਨਾਂ ਹੀ ਬੈਂਚਮਾਰਕਾਂ ਖ਼ਿਲਾਫ਼ ਲਗਾਤਾਰ ਮੁਲਾਂਕਣ ਕਰ ਸਕਦਾ ਹੈ.

ਵੱਡੇ ਪੱਧਰ ਦੀ ਵੀਡੀਓ ਲੋਕਲਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਸੰਭਵ ਬਣਾਉਣਾ

ਜਿਵੇਂ-ਜਿਵੇਂ ਅਨੁਵਾਦ ਇਕੱਲੀਆਂ ਵੀਡੀਓਆਂ ਤੋਂ ਵੱਡੀਆਂ ਕੰਟੈਂਟ ਲਾਇਬ੍ਰੇਰੀਆਂ ਤੱਕ ਜਾ ਰਿਹਾ ਹੈ, Descript ਇਸ ਗੱਲ 'ਤੇ ਹੋਰ ਨਿਯੰਤਰਣ ਜੋੜ ਰਿਹਾ ਹੈ ਕਿ ਅਨੁਵਾਦਾਂ ਨੂੰ ਕਿਵੇਂ ਟਿਊਨ ਕੀਤਾ ਜਾਵੇ, ਜਿਸ ਵਿੱਚ ਲੋੜ ਪੈਣ 'ਤੇ ਹੋਰ ਸਖ਼ਤ ਅਰਥਾਤਮਕ ਨਿਸ਼ਠਾ ਨੂੰ ਤਰਜੀਹ ਦੇਣ ਦੀ ਸਮਰੱਥਾ ਵੀ ਸ਼ਾਮਲ ਹੈ.

Descript ਦੇ ਅੰਦਰ ਅਨੁਵਾਦ ਇੱਕ ਵਿਆਪਕ ਮਲਟੀਮੋਡਲ ਸਿਸਟਮ ਦੀ ਸਿਰਫ਼ ਇੱਕ ਪਰਤ ਹੈ. ਅਨੁਵਾਦਿਤ ਟੈਕਸਟ ਬੋਲ ਬਣਾਉਣ ਵਿੱਚ ਜਾਂਦਾ ਹੈ, ਜੋ ਫਿਰ ਲਿਪ ਸਿੰਕ ਅਤੇ ਅੰਤਿਮ ਵੀਡੀਓ ਰੈਂਡਰਿੰਗ ਨੂੰ ਚਲਾਉਂਦਾ ਹੈ. 

ਟੈਕਸਟ ਪਰਤ ਵਿੱਚ ਸੁਧਾਰ ਕੁਦਰਤੀ ਗਤੀ ਸੰਭਵ ਬਣਾਉਂਦੇ ਹਨ, ਪਰ ਕੁੱਲ ਤਜਰਬਾ ਇਸ ਗੱਲ 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਆਡੀਓ ਮਾਡਲ ਬੋਲ ਦੇ ਲਹਿਜ਼ੇ, ਤਾਲ ਅਤੇ ਗੈਰ-ਵਰਬਲ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਕਿੰਨਾ ਚੰਗਾ ਸੰਭਾਲਦਾ ਹੈ. ਟੀਮ ਇੱਥੇ ਅਗਲੀ ਅਤਿ-ਆਧੁਨਿਕ ਸੀਮਾ ਵੇਖਦੀ ਹੈ. 

Mistratov ਨੇ ਕਿਹਾ, “ਅਨੁਵਾਦ ਆਉਟਪੁੱਟ ਨੂੰ ਸੁਧਾਰਨ ਵਿੱਚ ਬਹੁਤ ਕੁਝ ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰੇਗਾ ਕਿ ਪਾਈਪਲਾਈਨ ਹੋਰ ਮਲਟੀਮੋਡਲ ਬਣੇ: ਅਨੁਵਾਦ ਦਾ ਫ਼ੈਸਲਾ ਕਰਦੇ ਸਮੇਂ ਆਡੀਓ, ਵੀਡੀਓ ਅਤੇ ਟੈਕਸਟ ਨੂੰ ਇਕੱਠੇ ਸ਼ਾਮਲ ਕਰਨਾ. ਇਸ ਨਾਲ ਬੋਲ ਦੀਆਂ ਗੈਰ-ਵਰਬਲ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ, ਜਿਵੇਂ ਲਹਿਜ਼ਾ ਅਤੇ ਜ਼ੋਰ, ਹੋਰ ਚੰਗੇ ਤਰੀਕੇ ਨਾਲ ਕਾਇਮ ਰਹਿਣਗੀਆਂ, ਅਤੇ ਮੂਲ ਪੇਸ਼ਕਾਰੀ ਦਾ ਹੋਰ ਵੱਧ ਹਿੱਸਾ ਸੰਭਾਲਿਆ ਜਾਵੇਗਾ.”

Descript ਲਈ, ਹੋਰ ਮਜ਼ਬੂਤ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੇ ਡੱਬਿੰਗ ਦੀ ਜਟਿਲਤਾ ਨੂੰ ਸੰਭਾਲਣਯੋਗ ਬਣਾਇਆ. ਜਦੋਂ ਮਾਡਲ ਗਤੀ ਅਤੇ ਅਰਥ ਵਿਚਲੇ ਸਮਝੌਤਿਆਂ ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਸੰਤੁਲਿਤ ਕਰਨ ਦੀ ਸੀਮਾ ਪਾਰ ਕਰ ਗਏ, ਤਾਂ ਅਨੁਵਾਦ ਉਹ ਚੀਜ਼ ਬਣ ਗਿਆ ਜਿਸ ਨੂੰ ਟੀਮ ਪ੍ਰਣਾਲੀਬੱਧ ਢੰਗ ਨਾਲ ਸੁਧਾਰ ਸਕਦੀ ਸੀ ਅਤੇ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਤੈਨਾਤ ਕਰ ਸਕਦੀ ਸੀ.