21 september 2022

Maak kennis met Whisper

We hebben een neuraal netwerk getraind en open-source gemaakt, Whisper genaamd. Het benadert de robuustheid en nauwkeurigheid van spraakherkenning in het Engels op menselijk niveau.

Artikel lezen Code weergeven Modelkaart weergeven

Bezig met laden...

Whisper is een automatisch spraakherkenningssysteem (ASR) dat is getraind op 680.000 uur aan meertalige en multitask-begeleide gegevens die zijn verzameld op internet. We laten zien dat het gebruik van zo'n grote en diverse gegevensset leidt tot een verbeterde stabiliteit voor accenten, achtergrondruis en technisch taalgebruik. Bovendien is transcriptie in meerdere talen mogelijk, evenals vertaling van die talen naar het Engels. We stellen modellen en inferentiecode open-source beschikbaar als basis voor het bouwen van nuttige toepassingen en voor verder onderzoek naar robuuste spraakverwerking.

ASR-samenvatting van de modelarchitectuur

De Whisper-architectuur is een eenvoudige end-to-end-benadering, geïmplementeerd als een encoder-decoder Transformer. Ingevoerde audio wordt opgesplitst in segmenten van 30 seconden, omgezet in een log-Mel spectrogram en vervolgens doorgegeven aan een encoder. Een decoder wordt getraind om de corresponderende teksttitel te voorspellen, vermengd met speciale tokens die het enkelvoudige model taken laten uitvoeren zoals taalidentificatie, tijdstempels op zinsniveau, meertalige spraaktranscriptie en vertaling naar het Engels.

Diagram dat laat zien hoe ASR-modellen worden getraind

Andere bestaande benaderingen gebruiken vaak kleinere, meer op elkaar afgestemde audio-teksttrainingsgegevenssets ¹ ^{2, 3}, of brede maar onbegeleide audiotraining vooraf.^{4, 5, 6} Aangezien Whisper is getraind op een grote en diverse gegevensset en niet is afgestemd op een specifieke gegevensset, presteert het niet beter dan modellen die zijn gespecialiseerd in LibriSpeech, een bekende competitieve benchmark in spraakherkenning. Echter, wanneer we de zero-shot-prestaties van Whisper meten over veel verschillende gegevenssets zien we dat het veel robuuster is en 50% minder fouten maakt dan deze modellen.

Ongeveer een derde van de audiogegevens van Whisper is niet in het Engels en het model krijgt afwisselend de taak om ofwel in de oorspronkelijke taal te transcriberen, ofwel naar het Engels te vertalen. Deze methode blijkt heel doeltreffend in het aanleren van spraak-naar-tekstvertaling en presteert zelfs zonder specifieke training (zero-shot) beter dan de begeleide beste modellen op CoVoST2 voor vertaling naar het Engels.

Bezig met laden...

We hopen dat Whisper, door zijn nauwkeurigheid en gemak, ontwikkelaars helpt om spraakinterfaces toe te voegen aan een veel bredere set toepassingen. Bekijk het artikel⁠(opent in een nieuw venster), de modelkaart⁠(opent in een nieuw venster) en de code⁠(opent in een nieuw venster) voor meer informatie en om Whisper uit te proberen.

Literatuur

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(opent in een nieuw venster).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(opent in een nieuw venster).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(opent in een nieuw venster).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(opent in een nieuw venster).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(opent in een nieuw venster).

Gerelateerde artikelen

Alles weergeven

Hierarchical text-conditional image generation with CLIP latents

Publicatie13 apr 2022

Solving (some) formal math olympiad problems

Mijlpaal2 feb 2022

Solving math word problems

Publicatie29 okt 2021