Bemutatkozik a Whisper
Kiképeztünk és nyílt forráskódúvá tettünk egy Whisper nevű neurális hálózatot, amely az angol beszédfelismerés terén megközelíti az emberi szintű robusztusságot és pontosságot.
A Whisper egy automatikus beszédfelismerő (ASR) rendszer, amelyet 680 000 órányi, többnyelvű és többfeladatú, felügyelt adat alapján képeztek ki, amelyet az internetről gyűjtöttek. Bemutatjuk, hogy egy ilyen nagy és változatos adathalmaz használata javítja az akcentusokkal, a háttérzajjal és a szaknyelvvel szembeni ellenálló képességet. Ezenkívül engedélyezést biztosít a többnyelvű átíráshoz, valamint az ezekről a nyelvekről angolra történő fordításhoz. Nyílt forráskódúvá tesszük a modelleket és a következtetési kódot, hogy alapul szolgáljanak hasznos alkalmazások építéséhez és a robusztus beszédfeldolgozással kapcsolatos további kutatásokhoz.
A Whisper architektúra egy egyszerű, végponttól végpontig terjedő megközelítés, amelyet kódoló-dekódoló transzformátorként valósítanak meg. A beviteli hangot 30 másodperces darabokra osztják, log-Mel spektrogrammá alakítják, majd átadják egy kódolónak. Egy dekódert arra képeznek ki, hogy megjósolja a megfelelő szöveges feliratot, speciális tokenekkel keverve, amelyek az egyetlen modellt olyan feladatok elvégzésére irányítják, mint a nyelv azonosítása, a kifejezésszintű időbélyegzés, a többnyelvű beszédátírás és az angolra történő beszédfordítás.
Más meglévő megközelítések gyakran kisebb, szorosabban párosított audio-szöveg képzési adatkészleteket használnak,1 2 és 3 vagy széles körű, de felügyelet nélküli audio előképzést alkalmaznak.4, 5 és 6 Mivel a Whisper-t nagy és változatos adatkészleten képezték, és nem finomhangolták egyetlen konkrét adatkészletre sem, nem múlja felül azokat a modelleket, amelyek a LibriSpeech teljesítményére szakosodtak, amely híresen versenyképes mérce a beszédfelismerésben. Azonban amikor a Whisper zero-shot teljesítményét számos különböző adatkészleten mérjük, azt találjuk, hogy sokkal robusztusabb és 50%-kal kevesebb hibát követ el, mint azok a modellek.
A Whisper hangadatkészletének körülbelül egyharmada nem angol nyelvű, és felváltva kapja meg a feladatot, hogy az eredeti nyelven átírja vagy angolra fordítsa. Úgy találjuk, hogy ez a megközelítés különösen hatékony a beszéd-szöveg fordítás elsajátításában, és felülmúlja a felügyelt SOTA-t a CoVoST2 angol fordításában nulláról.
Reméljük, hogy a Whisper nagy pontossága és könnyű kezelhetősége lehetővé teszi a fejlesztőknek, hogy hanginterfészeket adjanak hozzá az alkalmazások sokkal szélesebb köréhez. Nézd meg a tanulmányt(új ablakban nyílik meg), a modellkártyát(új ablakban nyílik meg) és a kódot(új ablakban nyílik meg), hogy további részleteket tudj meg, és kipróbáld a Whispert.
Hivatkozások
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(új ablakban nyílik meg).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., és Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(új ablakban nyílik meg).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(új ablakban nyílik meg).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(új ablakban nyílik meg).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34: 27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(új ablakban nyílik meg).


