Vi introduserer Whisper
Vi har lært opp og bruker åpen kildekode for et nevralt nettverk som kalles Whisper, som nærmer seg menneskelig robusthet og nøyaktighet innen gjenkjennelse av engelsk tale.
Whisper er et system for automatisk talegjenkjenning (ASR) som er opplært med 680 000 timer flerspråklige og multitaskbaserte overvåkede data som er samlet inn fra nettet. Vi viser at bruken av et så stort og allsidig datasett fører til bedre robusthet innen dialekter, bakgrunnsstøy og teknisk språk. I tillegg muliggjør det transkripsjon på flere språk, samt oversettelse fra disse språkene til engelsk. Vi bruker åpen kildekode for modeller og inferenskode som et grunnlag for å bygge nyttige applikasjoner og videre forskning innen robust talebehandling.
Whisper-arkitekturen har en enkel ende-til-ende-løsning som implementeres som en enkoder-dekoder-transformerstruktur. Inndata for lyd er delt inn i biter på 30 sekunder, konvertert til et log-Mel-spektrogram og så send til en enkoder. En dekoder er lært opp til å forutsi den samsvarende teksten, blandet med spesielle tokener som får den enkle modellen til å utføre oppgaver som språkidentifsering, tidsmerking på setningsnivå, transkripsjoner fra flerspråklig tale og oversettelse av tale til engelsk.
Andre eksisterende tilnærmelser bruker ofte mindre, nærmere sammenknyttede lyd-tekst-datasett til opplæring,1 2 og 3 eller bruker bred, men uovervåket forhåndsopplæring med lyd.4, 5 og 6 Siden Whisper ble opplært med et stort og allsidig datasett, og ikke ble fininnstilt til noe spesifikt datasett, slår den ikke modeller som spesialiserer seg innen LibriSpeech-ytelse, en kjent konkurransedyktig referansemåling innen talegjenkjennelse. Men når vi måler Whispers zero-shot-ytelse over mange allsidige datasett, oppdager vi at den er mye mer robust og gjør 50 % færre feil enn de modellene.
Omtrent en tredjedel av Whispers datasett er ikke-engelsk, og den får vekselvis oppgaven med å transkribere på originalspråket eller oversette til engelsk. Vi syns denne tilnærmelsen er spesielt effektiv til å lære tale-til-tekst-oversettelse og overgår overvåket SOTA zero-shot oversettelse til engelsk på CoVoST2.
Vi håper at Whispers nøyaktighet og brukervennlighet gjør at utviklere kan bruke talegrensesnitt på et bredere sett med applikasjoner. Sjekk artikkelen(åpnes i et nytt vindu), modellkortet(åpnes i et nytt vindu) og koden(åpnes i et nytt vindu) for å se flere detaljer og prøve Whisper.
Referanser
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(åpnes i et nytt vindu).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(åpnes i et nytt vindu).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(åpnes i et nytt vindu).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(åpnes i et nytt vindu).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(åpnes i et nytt vindu).


