21 септември 2022 г.

Претставување на Whisper

Ние ја трениравме и отворено ја објавуваме невронската мрежа наречена Whisper, која се приближува до робустноста и точноста на човечкото ниво при препознавање на англискиот говор.

Читај весник Погледни го кодот Погледни ја картичката на моделот

Се вчитува...

Whisper е систем за автоматско препознавање говор (ASR) обучен на 680.000 часа повеќејазични и повеќенаменски надгледувани податоци собрани од интернет. Покажуваме дека употребата на толку голем и разновиден збир на податоци води до подобрена робусност на акцентите, позадинската бучава и техничкиот јазик. Покрај тоа, овозможи транскрипција на повеќе јазици, како и превод од тие јазици на англиски. Ние објавуваме модели со отворен код и код за инференција за да служат како основа за градење корисни апликации и за понатамошни истражувања за робусна обработка на говорот.

Резиме на архитектурата на моделот на ASR

Архитектурата на Whisper е едноставен пристап од почеток до крај, имплементиран како енкодер-декодер трансформер. Внесувањето аудио се дели на делови од 30 секунди, се претвора во лог-Мел спектрограм и потоа се испраќа во енкодер. Декодерот е обучен да предвиди соодветен текстуален наслов, измешан со специјални tokenи кои го насочуваат моделот да извршува задачи како идентификација на јазик, временски ознаки на ниво на фраза, транскрипција на повеќејазичен говор и превод на говор на англиски.

Дијаграм што детално објаснува како се обучуваат ASR моделите

Други постоечки пристапи често користат помали, потесно спарени збирки на податоци за обука за аудио-текст, ¹ ² ³ или користат широки, но ненадгледувани аудио предобуки. ⁴ ⁵ ⁶ Бидејќи Whisper беше обучен на голем и разновиден сет на податоци и не беше фино прилагоден на ниту еден специфичен, тој не ги надминува моделите специјализирани за перформанси на LibriSpeech, познато конкурентно мерило во препознавањето на говорот. Сепак, кога ги мериме перформансите на Whisper без претходно обучување на многу различни сетови на податоци, откриваме дека е многу поиздржлив и прави 50% помалку грешки од тие модели.

Околу една третина од аудио базата на податоци на Whisper не е на англиски јазик и наизменично му се дава задача да транскрибира на оригиналниот јазик или да преведува на англиски. Сметаме дека овој пристап е особено ефикасен во учењето на превод од говор во текст и го надминува надгледуваниот SOTA на CoVoST2 за англиски превод без претходно обучување.

Се вчитува...

Се надеваме дека високата точност и леснотијата на користење на Whisper ќе им овозможат на развивачите на софтвер да додаваат гласовни интерфејси на многу поширок сет на апликации. Погледни трудот⁠(се отвора во нов прозорец), картичката на моделот⁠(се отвора во нов прозорец) и кодот⁠(се отвора во нов прозорец) за да дознаеш повеќе детали и да го испробаш Whisper.

Референци

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Едноставно измешајте ги сите достапни податоци за препознавање на говор за да обучувате една голема невронска мрежа. arXiv препринт arXiv:2104.02133, 2021⁠(се отвора во нов прозорец).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. Говорот на народот: Голем разновиден англиски корпус за препознавање на говор за комерцијална употреба. arXiv претходно печатење arXiv:2111.09344, 2021⁠(се отвора во нов прозорец).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Еволуирачки, мулти-домен ASR корпус со 10.000 часа транскрибирано аудио. arXiv претходно печатење arXiv:2106.06909, 2021⁠(се отвора во нов прозорец).
4
Baevski, A., Zhou, H., Mohamed, A., и Auli, M. wav2vec 2.0: Рамка за самостојно надгледувано учење на говорни претстави. arXiv preprint arXiv:2006.11477, 2020⁠(се отвора во нов прозорец).
5
aevski, A., Hsu, W.N., Conneau, A., and Auli, M. Несупервизирано препознавање на говор. Напредок во невронските системи за обработка на информации, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Истражи на границите на големи полу-надгледувани учења за автоматско препознавање на говор. arXiv preprint arXiv:2109.13226, 2021⁠(се отвора во нов прозорец).

Поврзани статии

Види ги сите

Hierarchical text-conditional image generation with CLIP latents

Објава13 апр. 2022 г.

Solving (some) formal math olympiad problems

Пресвртница2 фев. 2022 г.

Solving math word problems

Објава29 окт. 2021 г.