21. september 2022

Predstavljamo Whisper

Usposobili smo in objavljamo odprtokodno nevronsko mrežo, imenovano Whisper, ki se približuje robustnosti in natančnosti prepoznavanja angleškega govora na človeški ravni.

Preberite dokument Ogled kode Ogled poročila modela

Nalaganje …

Nalaganje ...

Whisper je sistem za samodejno prepoznavanje govora (ASR), usposobljen na 680.000 urah večjezičnih in večopravilnih nadzorovanih podatkov, zbranih s spleta. Pokazali smo, da uporaba tako velikega in raznolikega nabora podatkov vodi do izboljšane odpornosti na naglase, šum v ozadju in tehnični jezik. Poleg tega omogoča prepisovanje v več jezikih in prevajanje iz teh jezikov v angleščino. Odprtokodne modele in kodo za sklepanje objavljamo, da služijo kot temelj za gradnjo uporabnih aplikacij in za nadaljnje raziskave robustne obdelave govora.

Arhitektura Whisper je preprost pristop od konca do konca, izveden kot kodirnik-dekoder Transformer. Vnosni zvok je razdeljen na 30-sekundne dele, pretvorjen v log-Melov spektrogram in nato poslan v kodirnik. Dekoder je usposobljen za napovedovanje ustreznega besedilnega napisa, pomešanega s posebnimi tokeni, ki usmerjajo enotni model za izvajanje nalog, kot so identifikacija jezika, časovni žigi na ravni fraze, večjezični prepis govora in prevod govora v angleščino.

Diagram, ki prikazuje, kako se modeli ASR usposabljajo

Drugi obstoječi pristopi pogosto uporabljajo manjše, tesneje povezane podatkovne zbirke za usposabljanje zvočno-besedilnih podatkov, ¹ ^{2 in 3} ali pa uporabljajo široko, vendar nenadzorovano predizobraževanje zvoka.^{4, 5 in 6} Ker je bil Whisper usposobljen na velikem in raznolikem naboru podatkov in ni bil natančno prilagojen nobenemu specifičnemu, ne premaga modelov, ki so specializirani za zmogljivost LibriSpeech, znano konkurenčno merilo pri prepoznavanju govora. Ko merimo zmogljivost modela Whisper v ničelni nastavitvi na številnih različnih naborih podatkov, ugotovimo, da je veliko bolj robusten in naredi 50 % manj napak kot ti modeli.

Približno tretjina zvočnega nabora podatkov Whisper ni v angleščini, izmenično pa ima nalogo prepisovanja v izvirnem jeziku ali prevajanja v angleščino. Ugotavljamo, da je ta pristop še posebej učinkovit pri učenju prevajanja govora v besedilo in presega nadzorovani SOTA pri prevajanju CoVoST2 v angleščino v načinu zero-shot.

Nalaganje ...

Upamo, da bosta visoka natančnost in enostavnost uporabe Whisperja razvijalcem omogočili dodajanje glasovnih vmesnikov v veliko širši nabor aplikacij. Preberite si članek⁠(odpre se v novem oknu), poročilo o modelu⁠(odpre se v novem oknu) in kodo⁠(odpre se v novem oknu) , da izveste več podrobnosti in preizkusite Whisper.

Reference

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(odpre se v novem oknu).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., in Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(odpre se v novem oknu).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(odpre se v novem oknu).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(odpre se v novem oknu).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(odpre se v novem oknu).

Sorodni članki

Prikaži vse

Hierarchical text-conditional image generation with CLIP latents

Objava13. apr. 2022

Solving (some) formal math olympiad problems

Mejnik2. feb. 2022

Solving math word problems

Objava29. okt. 2021