၂၀၂၂ စက်တင်ဘာ ၂၁

Introducing Whisper

စာတမ်းဖတ်ရန်ကုဒ်ကြည့်ရန်မော်ဒယ်ကဒ်ကြည့်ရန်

ဖွင့်နေသည်…

ဖွင့်နေသည်...

Whisper သည် ဝဘ်မှ စုဆောင်းထားသော ဘာသာစုံနှင့် လုပ်ငန်းစုံ supervised data နာရီ 680,000 ဖြင့် လေ့ကျင့်ထားသည့် အလိုအလျောက် စကားသံအသိအမှတ်ပြုမှု (ASR) စနစ်တစ်ခုဖြစ်သည်။ ဤမျှ ကြီးမားပြီး မျိုးစုံသော dataset ကို အသုံးပြုခြင်းကြောင့် လေသံကွဲပြားမှုများ၊ နောက်ခံဆူညံသံများနှင့် နည်းပညာဆိုင်ရာ ဘာသာစကားများအပေါ် တည်ငြိမ်မှု ပိုမိုကောင်းမွန်လာကြောင်း ကျွန်ုပ်တို့ ပြသထားသည်။ ထို့အပြင် ၎င်းသည် ဘာသာစကားအများအပြားဖြင့် ကူးရေးခြင်းကိုလည်းကောင်း၊ ထိုဘာသာစကားများမှ အင်္ဂလိပ်သို့ ဘာသာပြန်ခြင်းကိုလည်းကောင်း လုပ်ဆောင်နိုင်စေသည်။ အသုံးဝင်သော application များ တည်ဆောက်ရာတွင် အခြေခံအဖြစ် အသုံးပြုနိုင်ရန်နှင့် တည်ငြိမ်သော speech processing ဆိုင်ရာ နောက်ထပ်သုတေသနများအတွက် မော်ဒယ်များနှင့် inference code ကို open-source အဖြစ် ကျွန်ုပ်တို့ ထုတ်ပြန်ထားပါသည်။

Whisper ၏ ဗိသုကာပုံစံသည် encoder-decoder ထရန်(စ်)ဖော်မာ အဖြစ် အကောင်အထည်ဖော်ထားသော ရိုးရှင်းသည့် end-to-end နည်းလမ်းတစ်ခုဖြစ်သည်။ အဝင်အသံကို စက္ကန့် 30 စီ အပိုင်းများအဖြစ် ခွဲပြီး log-Mel spectrogram အဖြစ် ပြောင်းလဲကာ encoder ထဲသို့ ပို့သည်။ ထို့နောက် decoder ကို သက်ဆိုင်ရာ စာသား caption ကို ခန့်မှန်းရန် လေ့ကျင့်ပေးထားပြီး ဘာသာစကားခွဲခြားသတ်မှတ်ခြင်း၊ စာပိုဒ်အဆင့် အချိန်တံဆိပ်များ၊ ဘာသာစုံ စကားသံကူးရေးခြင်းနှင့် အင်္ဂလိပ်သို့ စကားသံဘာသာပြန်ခြင်းကဲ့သို့ လုပ်ငန်းများကို မော်ဒယ် တစ်ခုတည်းဖြင့် လုပ်ဆောင်စေရန် ညွှန်ကြားသော အထူးတိုကင်များကိုပါ ရောနှောထားသည်။

ASR မော်ဒယ်များကို မည်သို့ လေ့ကျင့်သင်ကြားသနည်းကို အသေးစိတ်ဖော်ပြသော ပုံကြမ်း

လက်ရှိရှိပြီးသား အခြားနည်းလမ်းများသည် မကြာခဏအားဖြင့် ပိုမိုသေးငယ်ပြီး အသံ-စာသားကို ပိုမိုတိတိကျကျ တွဲထားသော လေ့ကျင့်ရေး dataset များကို အသုံးပြုကြသည်,¹ ^{2နှင့် 3} သို့မဟုတ် ကျယ်ပြန့်သော်လည်း unsupervised audio pretraining ကို အသုံးပြုကြသည်။^{4 - 5နှင့် 6} Whisper သည် ကြီးမားပြီး မျိုးစုံသော dataset တစ်ခုအပေါ် လေ့ကျင့်ထားပြီး မည်သည့် dataset တစ်ခုအတွက်မျှ သီးသန့် fine-tune မလုပ်ထားသောကြောင့် ၎င်းသည် speech recognition တွင် ပြိုင်ဆိုင်မှု ပြင်းထန်သော စံညွှန်းတစ်ခုအဖြစ် နာမည်ကြီးသော LibriSpeech စွမ်းဆောင်ရည်တွင် အထူးပြုထားသော မော်ဒယ်များကို မကျော်လွန်နိုင်ပါ။ သို့သော် dataset အမျိုးမျိုးစွာတစ်လျှောက် Whisper ၏ zero-shot စွမ်းဆောင်ရည်ကို တိုင်းတာသောအခါ ၎င်းသည် ပိုမိုတည်ငြိမ်ပြီး ထိုမော်ဒယ်များထက် အမှား 50% လျော့နည်းကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိရသည်။

Whisper ၏ audio dataset ၏ သုံးပုံတစ်ပုံခန့်မှာ အင်္ဂလိပ်မဟုတ်သော ဒေတာများဖြစ်ပြီး ၎င်းကို မူရင်းဘာသာစကားဖြင့် ကူးရေးရန် သို့မဟုတ် အင်္ဂလိပ်သို့ ဘာသာပြန်ရန်ဟူသော တာဝန်များကို အလှည့်ကျ ပေးထားသည်။ ဤနည်းလမ်းသည် စကားသံမှ စာသားသို့ ဘာသာပြန်ခြင်းကို သင်ယူရာတွင် အထူးထိရောက်ကြောင်းကို ကျွန်ုပ်တို့ တွေ့ရှိခဲ့ပြီး CoVoST2 မှ အင်္ဂလိပ်သို့ ဘာသာပြန်ခြင်း zero-shot တွင် supervised SOTA ထက် ပိုမိုကောင်းမွန်သည်။

ဖွင့်နေသည်...

Whisper ၏ မြင့်မားသော တိကျမှုနှင့် အသုံးပြုရလွယ်ကူမှုတို့ကြောင့် developer များအနေဖြင့် application မျိုးစုံ ပိုမိုကျယ်ပြန့်သော အစုအဝေးတွင် အသံ interface များ ထည့်သွင်းနိုင်မည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ပါသည်။ ပိုမိုအသေးစိတ် သိရှိရန်နှင့် Whisper ကို စမ်းသုံးကြည့်ရန် စာတမ်း⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)၊ မော်ဒယ်ကဒ်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် ကုဒ်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။

ကိုးကားချက်များ

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: ရရှိနိုင်သော speech recognition data အားလုံးကို ရိုးရိုးရှင်းရှင်း ရောစပ်ပြီး ကြီးမားသော neural network တစ်ခုကို လေ့ကျင့်ခြင်း။ arXiv preprint arXiv:2104.02133, 2021⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: စီးပွားဖြစ်အသုံးပြုမှုအတွက် အကြီးစား၊ မျိုးစုံသော အင်္ဂလိပ် speech recognition dataset တစ်ခု။ arXiv preprint arXiv:2111.09344, 2021⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: ကူးရေးထားသော audio နာရီ 10,000 ပါဝင်သည့် ဖွံ့ဖြိုးတိုးတက်လာသော domain စုံ asr corpus တစ်ခု။ arXiv preprint arXiv:2106.06909, 2021⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: speech representation များအတွက် self-supervised learning framework တစ်ခု။ arXiv preprint arXiv:2006.11477, 2020⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsupervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: automatic speech recognition အတွက် အကြီးစား semi-supervised learning ၏ စွမ်းဆောင်ရည်အမြင့်ဆုံးကို စူးစမ်းလေ့လာခြင်း။ arXiv preprint arXiv:2109.13226, 2021⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).

ဆက်စပ်ဆောင်းပါးများ

အားလုံးကို ကြည့်ရန်

Hierarchical Text Conditional Image Generation With Clip Latents

CLIP latent များဖြင့် အဆင့်လိုက် စာသားအခြေပြု ရုပ်ပုံ ထုတ်လုပ်မှု

ထုတ်ဝေမှု၂၀၂၂ ဧ ၁၃

Solving (some) formal math olympiad problems

မှတ်တိုင်၂၀၂၂ ဖေ ၂

သင်္ချာ စာသားပြဿနာများကို ဖြေရှင်းခြင်း

ထုတ်ဝေမှု၂၀၂၁ အောက် ၂၉