21 september 2022

Vi presenterar Whisper

Vi har tränat ett neuronnät som heter Whisper och släppt det som öppen källkod. Det närmar sig mänsklig robusthet och noggrannhet när det gäller engelsk taligenkänning.

Läs rapport Visa koden Visa modellkort

Laddar …

Whisper är ett automatiskt taligenkänningssystem (ASR) som tränats på 680 000 timmar flerspråkig och fleruppgiftsövervakad data insamlad från webben. Vi visar att användningen av så stora och mångsidiga datamängder leder till förbättrad robusthet vad gäller accenter, bakgrundsljud och tekniskt språk. Dessutom kan systemet transkribera på flera språk och översätta från dessa språk till engelska. Vi släpper modeller och inferenskod som öppen källkod så att de kan fungera som en grund för uppbyggnaden av användbara applikationer och för ytterligare forskning om robust talbearbetning.

ASR – Sammanfattning av modellens arkitektur

Whisper-arkitekturen är en enkel helhetslösning, implementerad som en kodar-avkodar-Transformator. Ljudindata indelas i 30 sekunder långa avsnitt, konverteras till ett log-Mel-spektrogram och förs sedan in i en avkodare. En avkodare tränas till att förutsäga motsvarande textrad, blandat med speciella tokens som leder den enskilda modellen till att utföra uppgifter som språkidentifiering, tidsstämplar på frasnivå, flerspråkig taltranskription och översättning av tal till engelska.

Diagram som visar hur ASR-modellerna tränas

Andra metoder använder ofta mindre och mer nära parade träningsdatamängder för ljud till text, ¹ ^{2, 3} eller använder en bred men oövervakad förträning på ljud.^{4, 5, 6} Eftersom Whisper tränades på en stor och varierad datamängd och inte finjusterades till några specifika data slår den inte modeller som är specialiserade på LibriSpeech-prestanda, ett välkänt konkurrenskraftigt riktmärke inom taligenkänning. Men när vi mäter Whispers förmåga att generalisera för många olika datamängder märker vi att den är mycket mer robust och gör 50 % färre fel än dessa modeller.

Ungefär en tredjedel av Whispers ljuddatamängd är på andra språk än engelska, och Whisper får i uppgift att omväxlande transkribera på originalspråket eller översätta till engelska. Vi konstaterar att denna metod är särskilt effektiv när det gäller inlärningen av översättning av tal till text och överträffar den övervakade SOTA på CoVoST2 till engelsk översättning utan att ha tränats specifikt på just den uppgiften.

Laddar …

Vi hoppas att Whispers höga träffsäkerhet och användarvänlighet kan göra att utvecklarna kan lägga till röstgränssnitt inom mycket bredare användningsområden. Kolla in artikeln⁠(öppnas i ett nytt fönster), modellkortet⁠(öppnas i ett nytt fönster) och koden⁠(öppnas i ett nytt fönster) för att lära dig mer och prova Whisper.

Referenser

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(öppnas i ett nytt fönster).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(öppnas i ett nytt fönster).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(öppnas i ett nytt fönster).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(öppnas i ett nytt fönster).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(öppnas i ett nytt fönster).

Relaterade artiklar

Visa alla

Hierarchical text-conditional image generation with CLIP latents

Publikation13 apr. 2022

Solving (some) formal math olympiad problems

Milstolpe2 feb. 2022

Solving math word problems

Publikation29 okt. 2021