ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI
ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

Whisper ਇੱਕ automatic speech recognition (ASR) ਸਿਸਟਮ ਹੈ ਜਿਸਨੂੰ ਵੈੱਬ ਤੋਂ ਇਕੱਠੇ ਕੀਤੇ 680,000 ਘੰਟਿਆਂ ਦੇ ਬਹੁਭਾਸ਼ੀ ਅਤੇ ਬਹੁ-ਕੰਮੀ ਨਿਗਰਾਨੀਸ਼ੁਦਾ ਡਾਟਾ ਉੱਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ. ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਇੰਨੇ ਵੱਡੇ ਅਤੇ ਵਿਭਿੰਨ ਡਾਟਾਸੈੱਟ ਦੀ ਵਰਤੋਂ ਲਹਿਜ਼ਿਆਂ, ਪਿਛੋਕੜੀ ਸ਼ੋਰ ਅਤੇ ਤਕਨੀਕੀ ਭਾਸ਼ਾ ਪ੍ਰਤੀ ਮਜ਼ਬੂਤੀ ਨੂੰ ਸੁਧਾਰਦੀ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਕਈ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ, ਅਤੇ ਉਹਨਾਂ ਭਾਸ਼ਾਵਾਂ ਤੋਂ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਅਨੁਵਾਦ ਨੂੰ ਸੰਭਵ ਬਣਾਉਂਦੀ ਹੈ. ਅਸੀਂ ਮਾਡਲਾਂ ਅਤੇ inference ਕੋਡ ਨੂੰ ਓਪਨ-ਸੋਰਸ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਇਹ ਲਾਹੇਵੰਦ ਐਪਲੀਕੇਸ਼ਨਾਂ ਬਣਾਉਣ ਅਤੇ ਮਜ਼ਬੂਤ speech processing ਉੱਤੇ ਹੋਰ ਖੋਜ ਲਈ ਬੁਨਿਆਦ ਵਜੋਂ ਕੰਮ ਕਰ ਸਕੇ.

ASR ਮਾਡਲ ਆਰਕੀਟੈਕਚਰ ਦਾ ਸਾਰ

Whisper ਆਰਕੀਟੈਕਚਰ ਇੱਕ ਸਧਾਰਣ ਐਂਡ-ਟੂ-ਐਂਡ ਪਹੁੰਚ ਹੈ, ਜਿਸਨੂੰ ਇੱਕ encoder-decoder ਟ੍ਰਾਂਸਫਾਰਮਰ ਵਜੋਂ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਨਪੁੱਟ ਆਡੀਓ ਨੂੰ 30-ਸਕਿੰਟ ਦੇ ਖੰਡਾਂ ਵਿੱਚ ਵੰਡਿਆ ਜਾਂਦਾ ਹੈ, log-Mel spectrogram ਵਿੱਚ ਬਦਲਿਆ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਇੱਕ encoder ਵਿੱਚ ਭੇਜਿਆ ਜਾਂਦਾ ਹੈ. ਇੱਕ decoder ਨੂੰ ਸੰਬੰਧਤ ਟੈਕਸਟ ਕੈਪਸ਼ਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਖ਼ਾਸ ਟੋਕਨ ਮਿਲਾਏ ਜਾਂਦੇ ਹਨ ਜੋ ਇੱਕੋ ਮਾਡਲ ਨੂੰ ਭਾਸ਼ਾ ਪਛਾਣ, ਵਾਕ-ਪੱਧਰੀ ਟਾਈਮਸਟੈਂਪ, ਬਹੁਭਾਸ਼ੀ ਬੋਲਚਾਲ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ, ਅਤੇ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਬੋਲਚਾਲ ਅਨੁਵਾਦ ਵਰਗੇ ਕੰਮ ਕਰਨ ਲਈ ਦਿਸ਼ਾ ਦਿੰਦੇ ਹਨ.

ASR ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਇਸ ਦਾ ਚਿੱਤਰ

ਮੌਜੂਦਾ ਹੋਰ ਪਹੁੰਚਾਂ ਅਕਸਰ ਛੋਟੇ, ਹੋਰ ਨੇੜੇ-ਜੋੜੇ audio-text ਸਿਖਲਾਈ ਡਾਟਾਸੈੱਟ ਵਰਤਦੀਆਂ ਹਨ,1 2, 3 ਜਾਂ ਵਿਸ਼ਾਲ ਪਰ ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੀ audio pretraining ਵਰਤਦੀਆਂ ਹਨ.4, 5, 6 ਕਿਉਂਕਿ Whisper ਨੂੰ ਇੱਕ ਵੱਡੇ ਅਤੇ ਵਿਭਿੰਨ ਡਾਟਾਸੈੱਟ ਉੱਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ ਅਤੇ ਇਸਨੂੰ ਕਿਸੇ ਇੱਕ ਖਾਸ ਡਾਟਾਸੈੱਟ ਲਈ fine-tune ਨਹੀਂ ਕੀਤਾ ਗਿਆ ਸੀ, ਇਸ ਲਈ ਇਹ LibriSpeech ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਵਿਸ਼ੇਸ਼ਗਿਆ ਮਾਡਲਾਂ ਨੂੰ ਪਿੱਛੇ ਨਹੀਂ ਛੱਡਦਾ, ਜੋ ਬੋਲਚਾਲ ਪਛਾਣ ਵਿੱਚ ਬਹੁਤ ਮੁਕਾਬਲਾਤਮਕ benchmark ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਜਦੋਂ ਅਸੀਂ ਕਈ ਵਿਭਿੰਨ ਡਾਟਾਸੈੱਟਾਂ ਵਿੱਚ Whisper ਦੀ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਮਾਪਦੇ ਹਾਂ, ਅਸੀਂ ਪਾਉਂਦੇ ਹਾਂ ਕਿ ਇਹ ਕਾਫ਼ੀ ਵੱਧ ਮਜ਼ਬੂਤ ਹੈ ਅਤੇ ਉਹਨਾਂ ਮਾਡਲਾਂ ਨਾਲੋਂ 50% ਘੱਟ ਗਲਤੀਆਂ ਕਰਦਾ ਹੈ.

Whisper ਦੇ audio ਡਾਟਾਸੈੱਟ ਦਾ ਲਗਭਗ ਤਿਹਾਈ ਹਿੱਸਾ ਗੈਰ-ਅੰਗਰੇਜ਼ੀ ਹੈ, ਅਤੇ ਇਸਨੂੰ ਵਾਰੀ-ਵਾਰੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕਰਨ ਜਾਂ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨ ਦਾ ਕੰਮ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ. ਅਸੀਂ ਪਾਇਆ ਕਿ ਇਹ ਪਹੁੰਚ speech-to-text ਅਨੁਵਾਦ ਸਿੱਖਣ ਵਿੱਚ ਖ਼ਾਸ ਤੌਰ ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ ਅਤੇ CoVoST2 ਤੋਂ ਅੰਗਰੇਜ਼ੀ ਅਨੁਵਾਦ ਜ਼ੀਰੋ-ਸ਼ਾਟ ਵਿੱਚ supervised SOTA ਤੋਂ ਵੀ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ...

ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ Whisper ਦੀ ਉੱਚ ਸ਼ੁੱਧਤਾ ਅਤੇ ਵਰਤੋਂ ਦੀ ਸੌਖਿਆਈ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੇ ਕਾਫ਼ੀ ਵੱਡੇ ਸਮੂਹ ਵਿੱਚ ਵੋਇਸ ਇੰਟਰਫੇਸ ਸ਼ਾਮਲ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਏਗੀ. ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ ਪੇਪਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਮਾਡਲ ਕਾਰਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਅਤੇ ਕੋਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ ਅਤੇ Whisper ਅਜ਼ਮਾਓ.

ਹਵਾਲੇ

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: ਇੱਕ ਵੱਡੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਉਪਲਬਧ ਸਾਰਾ speech recognition ਡਾਟਾ ਸਧਾਰਣ ਤਰੀਕੇ ਨਾਲ ਮਿਲਾਉਣਾ. arXiv preprint arXiv:2104.02133, 2021(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: ਵਪਾਰਕ ਵਰਤੋਂ ਲਈ ਵੱਡੇ ਪੱਧਰ ਦਾ ਵਿਭਿੰਨ ਅੰਗਰੇਜ਼ੀ speech recognition ਡਾਟਾਸੈੱਟ. arXiv preprint arXiv:2111.09344, 2021(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: 10,000 ਘੰਟਿਆਂ ਦੀ ਟ੍ਰਾਂਸਕ੍ਰਾਈਬ ਕੀਤੀ ਆਡੀਓ ਵਾਲਾ ਵਿਕਸਿਤ ਹੁੰਦਾ, ਬਹੁ-ਡੋਮੇਨ asr corpus. arXiv preprint arXiv:2106.06909, 2021(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: speech representations ਦੀ self-supervised learning ਲਈ ਇੱਕ framework. arXiv preprint arXiv:2006.11477, 2020(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੀ speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: automatic speech recognition ਲਈ ਵੱਡੇ ਪੱਧਰ ਦੀ ਅਰਧ-ਨਿਗਰਾਨੀਸ਼ੁਦਾ ਸਿਖਲਾਈ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ ਖੇਤਰ ਦੀ ਖੋਜ. arXiv preprint arXiv:2109.13226, 2021(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ).