21 септември 2022 г.

Представяме ви Whisper

Ние обучихме и пуснахме в отворен код невронна мрежа, наречена Whisper, която се доближава до човешкото ниво на стабилност и точност при разпознаването на английската реч.

Прочетете статията Преглед на кода Преглед на модела

Зареждане…

Зареждане...

Whisper е система за автоматично разпознаване на реч (ASR), обучена на 680 000 часа многоезични и многозадачни контролирани данни, събрани от интернет. Показваме, че използването на такъв голям и разнообразен набор от данни води до подобрена устойчивост на акценти, фонов шум и технически език. Освен това тя активира транскрипция на няколко езика, както и превод от тези езици на английски. Ние предоставяме модели и код за изводи като отворен код, които да служат като основа за създаване на полезни приложения и за по-нататъшни изследвания в областта на надеждното обработване на речта.

Резюме на ASR за архитектурата на модела

Архитектурата на Whisper е прост подход от край до край, реализиран като енкодер-декодер преобразувател. Входният аудио сигнал се разделя на сегменти по 30 секунди, преобразува се в логаритмична мел спектрограма и след това се подава към енкодера. Декодерът се обучава да предсказва съответния текстов надпис, примесен със специални токени, които насочват единния модел да изпълнява задачи като идентификация на езика, времеви марки на ниво фраза, многоезична транскрипция на речта и превод на реч на английски език.

Диаграма, описваща как се обучават ASR моделите

Други съществуващи подходи често използват по-малки, по-тясно сдвоени набори от данни за обучение по аудиотекст, ¹ ^{2, 3} или използват широкообхватно, но неконтролирано предварително аудиообучение.^{4, 5 и 6} Тъй като Whisper е обучен върху голям и разнообразен набор от данни и не е настроен за конкретен набор от данни, той не побеждава модели, специализирани в изпълнението на LibriSpeech – известен конкурентен еталон в разпознаването на реч. Въпреки това, когато измерваме производителността без подготовка на Whisper в много разнообразни набори от данни, установяваме, че той е много по-устойчив и прави 50% по-малко грешки от тези модели.

Около една трета от набора от аудиоданни на Whisper не е на английски език и на системата се възлага последователно задачата да транскрибира на оригиналния език или да превежда на английски. Установихме, че този подход е особено ефективен при изучаването на превода на реч към текст и превъзхожда контролирания SOTA при превода на CoVoST2 към английски език без предварителна подготовка.

Зареждане...

Надяваме се, че високата точност и лекотата на използване на Whisper ще позволят на разработчиците да добавят гласови интерфейси към много по-широк набор от приложения. Вижте статията⁠(отваря се в нов прозорец), картата на модела⁠(отваря се в нов прозорец) и кода⁠(отваря се в нов прозорец), за да научите повече подробности и да изпробвате Whisper.

Референции

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recognition data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(отваря се в нов прозорец).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021 г.⁠(отваря се в нов прозорец).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(отваря се в нов прозорец).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020 г.⁠(отваря се в нов прозорец).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(отваря се в нов прозорец).

Свързани статии

Вижте всички

Hierarchical text-conditional image generation with CLIP latents

Публикация13.04.2022 г.

Solving (some) formal math olympiad problems

Основен етап2.02.2022 г.

Solving math word problems

Публикация29.10.2021 г.