2022 ж. 21 қыркүйек

Introducing Whisper

Мақаланы оқу Кодты көру Модель картасын көру

Жүктелуде…

Жүктелуде...

Whisper — интернеттен жиналған 680 000 сағаттық көптілді әрі көпміндетті қадағаланатын деректерде жаттықтырылған автоматты сөйлеуді тану (ASR) жүйесі. Біз осындай үлкен әрі алуан деректер жиынын пайдалану акценттерге, фондық шуға және техникалық тілге төзімділікті арттыратынын көрсетеміз. Бұған қоса, ол бірнеше тілде транскрипция жасауға, сондай-ақ сол тілдерден ағылшын тіліне аударуға мүмкіндік береді. Пайдалы қолданбалар құруға негіз болсын және орнықты сөйлеуді өңдеу бойынша әрі қарайғы зерттеулерге қызмет етсін деп, біз модельдер мен inference кодын ашық бастапқы кодпен жариялап отырмыз.

ASR модель архитектурасының қысқаша сипаттамасы

Whisper архитектурасы — encoder-decoder трансформер ретінде іске асырылған қарапайым тұтас тәсіл. Кіріс аудио 30 секундтық бөліктерге бөлініп, log-Mel спектрограммасына түрлендіріледі, содан кейін encoder-ге жіберіледі. Decoder сәйкес мәтіндік жазуды болжауға жаттықтырылады, оған бір модельге тілді анықтау, сөз тіркесі деңгейіндегі уақыт белгілері, көптілді сөйлеуді транскрипциялау және сөйлеуді ағылшын тіліне аудару сияқты міндеттерді орындауды бағыттайтын арнайы токендер араластырылады.

ASR модельдері қалай жаттықтырылатынын түсіндіретін диаграмма

Қолданыстағы өзге тәсілдер көбіне аудио мен мәтіні тығыз жұпталған шағынырақ жаттықтыру деректер жиындарын¹ ^{2 және 3} немесе кең ауқымды, бірақ қадағаланбайтын аудио алдын ала жаттықтыруды қолданады.^{4, 5, 6} Whisper үлкен әрі алуан деректер жиынында жаттықтырылғандықтан және нақты бір жиынға бейімдеп қайта жаттықтырылмағандықтан, ол сөйлеуді тануда бәсекесі жоғары, кең танымал LibriSpeech бенчмаркіндегі өнімділікке маманданған модельдерден оза бермейді. Алайда Whisper-дің көптеген алуан деректер жиындарындағы мысалсыз өнімділігін өлшегенде, оның әлдеқайда орнықты екенін және сол модельдерге қарағанда қателерді 50% аз жіберетінін байқаймыз.

Whisper аудио деректер жиынының шамамен үштен бірі ағылшын тілінен өзге тілдерде, әрі оған кезекпен түпнұсқа тілде транскрипция жасау немесе ағылшын тіліне аудару міндеті беріледі. Бұл тәсілдің сөйлеуден мәтінге аударуды үйренуде ерекше тиімді екенін және CoVoST2-нің ағылшын тіліне аудару бойынша қадағаланатын SOTA нәтижесінен мысалсыз режимде асып түсетінін байқадық.

Жүктелуде...

Whisper-дің жоғары дәлдігі мен қолданудың жеңілдігі әзірлеушілерге қолданбалардың әлдеқайда кең ауқымына дауыстық интерфейстер қосуды мүмкін етеді деп үміттенеміз. Толығырақ білу және Whisper-ді қолданып көру үшін мақаланы⁠(жаңа терезеде ашылады), модель картасын⁠(жаңа терезеде ашылады) және кодты⁠(жаңа терезеде ашылады) қараңыз.

Әдебиеттер

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: бір үлкен нейрондық желіні жаттықтыру үшін қолжетімді сөйлеуді тану деректерінің барлығын жай ғана араластыру. arXiv препринті arXiv:2104.02133, 2021⁠(жаңа терезеде ашылады).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: коммерциялық қолдануға арналған ауқымды әрі алуан ағылшын сөйлеуін тану деректер жиыны. arXiv препринті arXiv:2111.09344, 2021⁠(жаңа терезеде ашылады).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: 10 000 сағат транскрипцияланған аудиосы бар, дамып отыратын, көпсалалы asr корпусы. arXiv препринті arXiv:2106.06909, 2021⁠(жаңа терезеде ашылады).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: сөйлеу репрезентацияларын өздігінен қадағаланатын үйренуге арналған құрылым. arXiv препринті arXiv:2006.11477, 2020⁠(жаңа терезеде ашылады).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Қадағаланбайтын сөйлеуді тану. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: автоматты сөйлеуді тануға арналған ауқымды жартылай қадағаланатын оқытудың озық шегін зерттеу. arXiv препринті arXiv:2109.13226, 2021⁠(жаңа терезеде ашылады).

Ұқсас мақалалар

Барлығын қарау

Hierarchical Text Conditional Image Generation With Clip Latents

CLIP латенттерімен иерархиялық мәтін-шартты суретті генерациялау

Жарияланым2022 ж. 13 сәу.

Solving (some) formal math olympiad problems

Кезең2022 ж. 2 ақп.

Мәтіндік математика есептерін шығару

Жарияланым2021 ж. 29 қаз.