Predstavujeme Whisper
Vytrénovali sme a teraz sprístupňujeme neurónovú sieť s názvom Whisper, ktorá dosahuje úroveň robustnosti a presnosti pri rozpoznávaní anglickej reči porovnateľnú s tou ľudskou.
Whisper je systém automatického rozpoznávania reči (ASR) trénovaný na 680 000 hodinách viacjazyčných a viacúlohových údajov pod dohľadom zozbieraných z webu. Ukazujeme, že použitie takého veľkého a rôznorodého súboru údajov vedie k väčšej robustnosti, pokiaľ ide o akcenty, šum pozadia a technický jazyk. Okrem toho povoľuje prepis do viacerých jazykov, ako aj preklad z týchto jazykov do angličtiny. Sprístupňujeme modely a inferenčný kód, ktoré slúžia ako základ pre tvorbu užitočných aplikácií a pre ďalší výskum robustného spracovania reči.
Architektúra siete Whisper predstavuje jednoduchý prístup typu end-to-end, implementovaný ako transformátor typu kódovač-dekódovač. Vstupný zvuk sa rozdelí na 30-sekundové úseky, prevedie sa na spektrogram log-Mel a potom sa odovzdá do kódovača. Dekódovač je trénovaný predpovedať zodpovedajúci textový opis, ktorý je zmiešaný so špeciálnymi tokenmi, ktoré usmerňujú jednotný model na vykonávanie úloh, ako sú identifikácia jazyka, časové pečiatky na úrovni fráz, viacjazyčný prepis reči a preklad reči do angličtiny.
Iné existujúce prístupy často využívajú menšie, tesnejšie spárované zvukovo-textové tréningové súbory údajov,1 2 a 3 prípadne využívajú rozsiahly, ale nesledovaný predtréning zvuku.4, 5 a 6 Keďže trénovanie siete Whisper prebiehalo na veľkom a rôznorodom súbore údajov a sieť ešte nie je doladená pre žiadny konkrétny súbor, neprekonáva modely, ktoré sa špecializujú na výkon v slávnom konkurenčnom referenčnom modeli LibriSpeech v oblasti rozpoznávania reči. Keď však meriame výkon siete Whisper na úplne nových údajoch naprieč mnohými rôznorodými súbormi údajov, zistíme, že je oveľa robustnejší a robí o 50 % menej chýb ako tieto modely.
Asi tretina zvukového súboru údajov Whisper nie je v angličtine a striedavo má za úlohu prepisovať v pôvodnom jazyku alebo prekladať do angličtiny. Zistili sme, že tento prístup je obzvlášť účinný pri učení prekladu reči na text a prekonáva sledované špičkové výsledky (SOTA) v preklade CoVoST2 do angličtiny s úplne novými údajmi.
Dúfame, že vysoká presnosť a jednoduchosť používania siete Whisper umožnia vývojárom pridať hlasové rozhrania do oveľa širšieho súboru aplikácií. Prečítajte si článok(otvorí sa v novom okne), modelovú kartu(otvorí sa v novom okne) a kód(otvorí sa v novom okne), aby ste získali viac podrobností a vyskúšali si sieť Whisper.
Referencie
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. a Norouzi, M. SpeechStew: Jednoducho zmiešajte všetky dostupné údaje o rozpoznávaní reči a vytrénujte jednu veľkú neurálnu sieť. arXiv preprint arXiv:2104.02133, 2021(otvorí sa v novom okne).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. a Reddi, V. J. Reč ľudu: Rozsiahly a rôznorodý súbor údajov na rozpoznávanie anglickej reči na komerčné použitie. arXiv preprint arXiv:2111.09344, 2021(otvorí sa v novom okne).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J. a kol. Gigaspeech: Vyvíjajúci sa viacdoménový korpus ASR s 10 000 hodinami prepísaného zvuku. arXiv preprint arXiv:2106.06909, 2021(otvorí sa v novom okne).
- 4
Baevski, A., Zhou, H., Mohamed, A. a Auli, M. wav2vec 2.0: Rámec pre samostatne naučené reprezentácie reči. arXiv preprint arXiv:2006.11477, 2020(otvorí sa v novom okne).
- 5
Baevski, A., Hsu, W.N., Conneau, A., a Auli, M. Nesledované rozpoznávanie reči. Pokroky v neurónových informačných systémoch, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S. a kol. BigSSL: Skúmanie hraníc rozsiahleho čiastočne sledovaného učenia na automatické rozpoznávanie reči. arXiv preprint arXiv:2109.13226, 2021(otvorí sa v novom okne).


