Whisper нь вебээс цуглуулсан олон хэл, олон даалгаврын 680,000 цагийн шошголсон өгөгдлөөр сургагдсан автомат яриа таних (ASR) систем юм. Ийм том, олон янзын өгөгдлийн сан ашиглах нь аялга, дэвсгэр чимээ, техникийн хэллэгт илүү тэсвэртэй болгодгийг бид харуулж байна. Үүнээс гадна, энэ нь олон хэл дээр буулгалт хийхээс гадна тэдгээр хэлээс англи хэл рүү орчуулах боломжийг бүрдүүлдэг. Бид хэрэгцээтэй хэрэглээ бүтээх суурь болон бат бөх яриа боловсруулалтын цаашдын судалгаанд зориулж загварууд болон inference кодыг нээлттэй эх болгож байна.
Whisper архитектур нь кодлогч-тайлбарлагч трансформер хэлбэрээр хэрэгжүүлсэн, эхнээс нь дуустал энгийн аргачлал юм. Оролтын аудиог 30 секундын хэсгүүдэд хувааж, log-Mel спектрограмм болгон хөрвүүлээд кодлогч руу дамжуулна. Дараа нь тайлбарлагчийг харгалзах текст тайлбарыг таамаглахад сургадаг бөгөөд үүний дунд хэл таних, өгүүлбэрийн түвшний цагийн тэмдэглэгээ, олон хэл дээрх яриаг буулгах, мөн бусад хэлээс англи хэл рүү яриаг орчуулах зэрэг даалгаврыг нэг загвараар гүйцэтгэхийг чиглүүлдэг тусгай токенууд холилдсон байдаг.
Одоо байгаа бусад аргууд нь ихэвчлэн арай жижиг, аудио-текст нь илүү нягт хосолсон сургалтын өгөгдлийн санг ашигладаг1 2, 3 эсвэл өргөн хүрээтэй боловч шошгогүй аудио урьдчилсан сургалт ашигладаг.4, 5, 6 Whisper нь том, олон янзын өгөгдлийн сан дээр сургагдсан бөгөөд ямар нэг тодорхой өгөгдлийн санд нарийн тааруулж тохируулаагүй учраас яриа танилтын салбарт өрсөлдөөн ихтэй жишиг болох LibriSpeech дээр мэргэшсэн загваруудыг давж гардаггүй. Гэхдээ Whisper-ийн тэг оролдлого гүйцэтгэлийг олон янзын өгөгдлийн сан дээр хэмжихэд энэ нь илүү бат бөх бөгөөд тэдгээр загваруудаас 50%-иар бага алдаа гаргадаг болохыг бид олж тогтоосон.
Whisper-ийн аудио өгөгдлийн сангийн ойролцоогоор гуравны нэг нь англи бус хэл дээр байдаг бөгөөд түүнд эх хэлээр нь буулгах эсвэл англи хэл рүү орчуулах даалгаврыг ээлжлэн өгдөг. Энэ арга нь ярианаас текст рүү орчуулах чадвар сурахад онцгой үр дүнтэй бөгөөд CoVoST2-оос англи хэл рүү орчуулах тэг оролдлого үзүүлэлтээр шошголсон сургалттай SOTA-гаас илүү үзүүлэлттэй байна.
Whisper-ийн өндөр нарийвчлал, хэрэглэхэд хялбар байдал нь хөгжүүлэгчдэд илүү өргөн хүрээний аппликейшнд дуу хоолойн интерфэйс нэмэх боломж олгоно гэж бид найдаж байна. Илүү дэлгэрэнгүй мэдээлэл авах болон Whisper-ийг туршиж үзэхийн тулд өгүүлэл(шинэ цонхонд нээгдэнэ), загварын карт(шинэ цонхонд нээгдэнэ), мөн код(шинэ цонхонд нээгдэнэ)-ыг үзнэ үү.
Эшлэлүүд
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(шинэ цонхонд нээгдэнэ).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(шинэ цонхонд нээгдэнэ).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(шинэ цонхонд нээгдэнэ).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(шинэ цонхонд нээгдэнэ).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(шинэ цонхонд нээгдэнэ).


