Vi præsenterer Whisper
Vi har trænet og open-sourcer nu Whisper, et neuralt net til talegenkendelse på engelsk, der nærmer sig menneskelig præcision og robusthed.
Whisper er et system til automatisk talegenkendelse (ASR), trænet på 680.000 timers monitoreret data fra nettet på flere sprog og med forskellige opgaver. Vi viser her, at brugen af et så stort og varieret datasæt fører til øget robusthed over for accenter, baggrundsstøj og teknisk sprog. Derudover muliggør det transskribering på flere sprog samt oversættelse fra disse sprog til engelsk. Vi open-sourcer vores modeller og inferenskode for at skabe et grundlag for at bygge nyttige apps og for yderligere forskning i robust talebehandling.
Whisper-arkitekturen er en simpel end-to-end-tilgang, der er implementeret som en encoder-decoder-transformer. Lydinput opdeles i 30-sekunders sekvenser, konverteres til et log-Mel-spektrogram og sendes derefter gennem en encoder. En decoder trænes til at forudsige den tilsvarende tekst, blandet med specielle tokens, der styrer den samme model til at udføre opgaver som sproggenkendelse, tidskoder på sætningsniveau, flersproget transskribering og oversættelse til engelsk.
Andre eksisterende tilgange benytter ofte mindre, tættere matchede lyd-tekst-træningsdatasæt, 1, 2 og 3 eller bred, men usuperviseret lyd-prætræning.4, 5 og 6 Da Whisper er trænet på et stort og varieret datasæt og ikke er finjusteret til nogen specifik, overgår den ikke modeller, der er specialiseret i LibriSpeech, et kendt og meget konkurrencedygtigt benchmark inden for talegenkendelse. Men når vi måler Whispers zero-shot-ydeevne på tværs af mange forskellige datasæt, ser vi, at den er langt mere robust og laver 50% færre fejl end disse modeller.
Omkring en tredjedel af Whispers lyddatasæt er ikke-engelske, og modellen får skiftevis til opgave enten at transskribere på originalsproget eller oversætte til engelsk. Vi har fundet, at denne tilgang er særligt effektiv til at lære oversættelse fra tale til tekst, og at den overgår den superviserede state-of-the-art på CoVoST2-datasættet i zero-shot oversættelse til engelsk.
Vi håber, at Whispers høje grad af nøjagtighed og brugervenlighed vil gøre det muligt for udviklere at tilføje stemmebaserede brugerflader i langt flere typer applikationer. Se denne artikel(åbner i et nyt vindue), vores modelkort(åbner i et nyt vindue) og kode(åbner i et nyt vindue) for at få flere oplysninger og prøve Whisper.
Litteraturhenvisninger
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(åbner i et nyt vindue).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(åbner i et nyt vindue).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(åbner i et nyt vindue).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(åbner i et nyt vindue).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(åbner i et nyt vindue).


