21 ਸਤੰਬਰ 2022

Introducing Whisper

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

Whisper ਇੱਕ automatic speech recognition (ASR) ਸਿਸਟਮ ਹੈ ਜਿਸਨੂੰ ਵੈੱਬ ਤੋਂ ਇਕੱਠੇ ਕੀਤੇ 680,000 ਘੰਟਿਆਂ ਦੇ ਬਹੁਭਾਸ਼ੀ ਅਤੇ ਬਹੁ-ਕੰਮੀ ਨਿਗਰਾਨੀਸ਼ੁਦਾ ਡਾਟਾ ਉੱਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ. ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਇੰਨੇ ਵੱਡੇ ਅਤੇ ਵਿਭਿੰਨ ਡਾਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਲਹਿਜ਼ਿਆਂ, ਪਿਛੋਕੜੀ ਸ਼ੋਰ ਅਤੇ ਤਕਨੀਕੀ ਭਾਸ਼ਾ ਪ੍ਰਤੀ ਮਜ਼ਬੂਤੀ ਨੂੰ ਸੁਧਾਰਦੀ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਕਈ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ, ਅਤੇ ਉਹਨਾਂ ਭਾਸ਼ਾਵਾਂ ਤੋਂ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਅਨੁਵਾਦ ਨੂੰ ਸੰਭਵ ਬਣਾਉਂਦੀ ਹੈ. ਅਸੀਂ ਮਾਡਲਾਂ ਅਤੇ inference ਕੋਡ ਨੂੰ ਓਪਨ-ਸੋਰਸ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਇਹ ਲਾਹੇਵੰਦ ਐਪਲੀਕੇਸ਼ਨਾਂ ਬਣਾਉਣ ਅਤੇ ਮਜ਼ਬੂਤ speech processing ਉੱਤੇ ਹੋਰ ਖੋਜ ਲਈ ਬੁਨਿਆਦ ਵਜੋਂ ਕੰਮ ਕਰ ਸਕੇ.

Whisper ਆਰਕੀਟੈਕਚਰ ਇੱਕ ਸਧਾਰਣ ਐਂਡ-ਟੂ-ਐਂਡ ਪਹੁੰਚ ਹੈ, ਜਿਸਨੂੰ ਇੱਕ encoder-decoder ਟ੍ਰਾਂਸਫਾਰਮਰ ਵਜੋਂ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਨਪੁੱਟ ਆਡੀਓ ਨੂੰ 30-ਸਕਿੰਟ ਦੇ ਖੰਡਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ, log-Mel spectrogram ਵਿੱਚ ਬਦਲਿਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਇੱਕ encoder ਵਿੱਚ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ. ਇੱਕ decoder ਨੂੰ ਸੰਬੰਧਤ ਟੈਕਸਟ ਕੈਪਸ਼ਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਖ਼ਾਸ ਟੋਕਨ ਮਿਲਾਏ ਜਾਂਦੇ ਹਨ ਜੋ ਇੱਕੋ ਮਾਡਲ ਨੂੰ ਭਾਸ਼ਾ ਪਛਾਣ, ਵਾਕ-ਪੱਧਰੀ ਟਾਈਮਸਟੈਂਪ, ਬਹੁਭਾਸ਼ੀ ਬੋਲਚਾਲ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ, ਅਤੇ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਬੋਲਚਾਲ ਅਨੁਵਾਦ ਵਰਗੇ ਕੰਮ ਕਰਨ ਲਈ ਦਿਸ਼ਾ ਦਿੰਦੇ ਹਨ.

ASR ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਇਸ ਦਾ ਚਿੱਤਰ

ਮੌਜੂਦਾ ਹੋਰ ਪਹੁੰਚਾਂ ਅਕਸਰ ਛੋਟੇ, ਹੋਰ ਨੇੜੇ-ਜੋੜੇ audio-text ਸਿਖਲਾਈ ਡਾਟਾਸੈੱਟ ਵਰਤਦੀਆਂ ਹਨ,¹ ^{2, 3} ਜਾਂ ਵਿਸ਼ਾਲ ਪਰ ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੀ audio pretraining ਵਰਤਦੀਆਂ ਹਨ.^{4, 5, 6} ਕਿਉਂਕਿ Whisper ਨੂੰ ਇੱਕ ਵੱਡੇ ਅਤੇ ਵਿਭਿੰਨ ਡਾਟਾਸੈੱਟ ਉੱਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ ਅਤੇ ਇਸਨੂੰ ਕਿਸੇ ਇੱਕ ਖਾਸ ਡਾਟਾਸੈੱਟ ਲਈ fine-tune ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਸੀ, ਇਸ ਲਈ ਇਹ LibriSpeech ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਵਿਸ਼ੇਸ਼ਗਿਆ ਮਾਡਲਾਂ ਨੂੰ ਪਿੱਛੇ ਨਹੀਂ ਛੱਡਦਾ, ਜੋ ਬੋਲਚਾਲ ਪਛਾਣ ਵਿੱਚ ਬਹੁਤ ਮੁਕਾਬਲਾਤਮਕ benchmark ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਜਦੋਂ ਅਸੀਂ ਕਈ ਵਿਭਿੰਨ ਡਾਟਾਸੈੱਟਾਂ ਵਿੱਚ Whisper ਦੀ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਮਾਪਦੇ ਹਾਂ, ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਇਹ ਕਾਫ਼ੀ ਵੱਧ ਮਜ਼ਬੂਤ ਹੈ ਅਤੇ ਉਹਨਾਂ ਮਾਡਲਾਂ ਨਾਲੋਂ 50% ਘੱਟ ਗਲਤੀਆਂ ਕਰਦਾ ਹੈ.

Whisper ਦੇ audio ਡਾਟਾਸੈੱਟ ਦਾ ਲਗਭਗ ਤਿਹਾਈ ਹਿੱਸਾ ਗੈਰ-ਅੰਗਰੇਜ਼ੀ ਹੈ, ਅਤੇ ਇਸਨੂੰ ਵਾਰੀ-ਵਾਰੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕਰਨ ਜਾਂ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨ ਦਾ ਕੰਮ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ. ਅਸੀਂ ਪਾਇਆ ਕਿ ਇਹ ਪਹੁੰਚ speech-to-text ਅਨੁਵਾਦ ਸਿੱਖਣ ਵਿੱਚ ਖ਼ਾਸ ਤੌਰ ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ ਅਤੇ CoVoST2 ਤੋਂ ਅੰਗਰੇਜ਼ੀ ਅਨੁਵਾਦ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਵਿੱਚ supervised SOTA ਤੋਂ ਵੀ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ Whisper ਦੀ ਉੱਚ ਸ਼ੁੱਧਤਾ ਅਤੇ ਵਰਤੋਂ ਦੀ ਸੌਖਿਆਈ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੇ ਕਾਫ਼ੀ ਵੱਡੇ ਸਮੂਹ ਵਿੱਚ ਵੋਇਸ ਇੰਟਰਫੇਸ ਸ਼ਾਮਲ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਏਗੀ. ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ ਪੇਪਰ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਮਾਡਲ ਕਾਰਡ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਅਤੇ ਕੋਡ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ ਅਤੇ Whisper ਅਜ਼ਮਾਓ.

ਹਵਾਲੇ

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: ਇੱਕ ਵੱਡੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਉਪਲਬਧ ਸਾਰਾ speech recognition ਡਾਟਾ ਸਧਾਰਣ ਤਰੀਕੇ ਨਾਲ ਮਿਲਾਉਣਾ. arXiv preprint arXiv:2104.02133, 2021⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: ਵਪਾਰਕ ਵਰਤੋਂ ਲਈ ਵੱਡੇ ਪੱਧਰ ਦਾ ਵਿਭਿੰਨ ਅੰਗਰੇਜ਼ੀ speech recognition ਡਾਟਾਸੈੱਟ. arXiv preprint arXiv:2111.09344, 2021⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: 10,000 ਘੰਟਿਆਂ ਦੀ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤੀ ਆਡੀਓ ਵਾਲਾ ਵਿਕਸਿਤ ਹੁੰਦਾ, ਬਹੁ-ਡੋਮੇਨ asr corpus. arXiv preprint arXiv:2106.06909, 2021⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: speech representations ਦੀ self-supervised learning ਲਈ ਇੱਕ framework. arXiv preprint arXiv:2006.11477, 2020⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੀ speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: automatic speech recognition ਲਈ ਵੱਡੇ ਪੱਧਰ ਦੀ ਅਰਧ-ਨਿਗਰਾਨੀਸ਼ੁਦਾ ਸਿਖਲਾਈ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ ਖੇਤਰ ਦੀ ਖੋਜ. arXiv preprint arXiv:2109.13226, 2021⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).

ਸੰਬੰਧਿਤ ਲੇਖ

ਸਭ ਵੇਖੋ

Hierarchical Text Conditional Image Generation With Clip Latents

CLIP ਲੇਟੈਂਟਸ ਨਾਲ ਹਾਇਰਾਰਕੀਕਲ ਟੈਕਸਟ-ਕੰਡੀਸ਼ਨਲ ਇਮੇਜ ਜਨਰੇਸ਼ਨ

ਪ੍ਰਕਾਸ਼ਨ13 ਅਪ੍ਰੈ 2022

Solving (some) formal math olympiad problems

ਮੀਲ ਪੱਥਰ2 ਫ਼ਰ 2022

ਗਣਿਤ ਦੇ ਸ਼ਬਦੀ ਪ੍ਰਸ਼ਨ ਹੱਲ ਕਰਨਾ

ਪ੍ਰਕਾਸ਼ਨ29 ਅਕਤੂ 2021