Претставување на Whisper
Ние ја трениравме и отворено ја објавуваме невронската мрежа наречена Whisper, која се приближува до робустноста и точноста на човечкото ниво при препознавање на англискиот говор.
Whisper е систем за автоматско препознавање говор (ASR) обучен на 680.000 часа повеќејазични и повеќенаменски надгледувани податоци собрани од интернет. Покажуваме дека употребата на толку голем и разновиден збир на податоци води до подобрена робусност на акцентите, позадинската бучава и техничкиот јазик. Покрај тоа, овозможи транскрипција на повеќе јазици, како и превод од тие јазици на англиски. Ние објавуваме модели со отворен код и код за инференција за да служат како основа за градење корисни апликации и за понатамошни истражувања за робусна обработка на говорот.
Архитектурата на Whisper е едноставен пристап од почеток до крај, имплементиран како енкодер-декодер трансформер. Внесувањето аудио се дели на делови од 30 секунди, се претвора во лог-Мел спектрограм и потоа се испраќа во енкодер. Декодерот е обучен да предвиди соодветен текстуален наслов, измешан со специјални tokenи кои го насочуваат моделот да извршува задачи како идентификација на јазик, временски ознаки на ниво на фраза, транскрипција на повеќејазичен говор и превод на говор на англиски.
Други постоечки пристапи често користат помали, потесно спарени збирки на податоци за обука за аудио-текст, 1 2 3 или користат широки, но ненадгледувани аудио предобуки. 4 5 6 Бидејќи Whisper беше обучен на голем и разновиден сет на податоци и не беше фино прилагоден на ниту еден специфичен, тој не ги надминува моделите специјализирани за перформанси на LibriSpeech, познато конкурентно мерило во препознавањето на говорот. Сепак, кога ги мериме перформансите на Whisper без претходно обучување на многу различни сетови на податоци, откриваме дека е многу поиздржлив и прави 50% помалку грешки од тие модели.
Околу една третина од аудио базата на податоци на Whisper не е на англиски јазик и наизменично му се дава задача да транскрибира на оригиналниот јазик или да преведува на англиски. Сметаме дека овој пристап е особено ефикасен во учењето на превод од говор во текст и го надминува надгледуваниот SOTA на CoVoST2 за англиски превод без претходно обучување.
Се надеваме дека високата точност и леснотијата на користење на Whisper ќе им овозможат на развивачите на софтвер да додаваат гласовни интерфејси на многу поширок сет на апликации. Погледни трудот(се отвора во нов прозорец), картичката на моделот(се отвора во нов прозорец) и кодот(се отвора во нов прозорец) за да дознаеш повеќе детали и да го испробаш Whisper.
Референци
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Едноставно измешајте ги сите достапни податоци за препознавање на говор за да обучувате една голема невронска мрежа. arXiv препринт arXiv:2104.02133, 2021(се отвора во нов прозорец).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. Говорот на народот: Голем разновиден англиски корпус за препознавање на говор за комерцијална употреба. arXiv претходно печатење arXiv:2111.09344, 2021(се отвора во нов прозорец).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Еволуирачки, мулти-домен ASR корпус со 10.000 часа транскрибирано аудио. arXiv претходно печатење arXiv:2106.06909, 2021(се отвора во нов прозорец).
- 4
Baevski, A., Zhou, H., Mohamed, A., и Auli, M. wav2vec 2.0: Рамка за самостојно надгледувано учење на говорни претстави. arXiv preprint arXiv:2006.11477, 2020(се отвора во нов прозорец).
- 5
aevski, A., Hsu, W.N., Conneau, A., and Auli, M. Несупервизирано препознавање на говор. Напредок во невронските системи за обработка на информации, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Истражи на границите на големи полу-надгледувани учења за автоматско препознавање на говор. arXiv preprint arXiv:2109.13226, 2021(се отвора во нов прозорец).


