Við kynnum Whisper
Við höfum þjálfað og opnað tauganet sem kallast Whisper, sem nær mannlegum styrkleika og nákvæmni í enskri talgreiningu.
Whisper er sjálfvirkt talgreiningarkerfi (ASR) sem hefur verið þjálfað á 680.000 klukkustundum af fjöltyngdum og fjölverkefna gögnum sem safnað var af vefnum. Við sýnum að notkun svo stórs og fjölbreytts gagnasafns leiðir til aukins styrkleika gagnvart framburði, bakgrunnshljóði og tæknimáli. Ennfremur gerir það kleift að umrita á mörgum tungumálum, sem og að þýða frá þessum tungumálum yfir á ensku. Við erum að opna fyrir aðgang að líkönum og ályktunarkóða til að þjóna sem grunnur fyrir að skapa snjallforrit og til frekari rannsókna á öflugri talvinnslu.
Högun Whisper er einföld end-to-end nálgun, útfærð sem kóðara-afkóðari Transformer. Inntak hljóðs er skipt í 30 sekúndna hluta, breytt í log-Mel litrófsmynd og síðan sent í kóðara. Afkóðari er þjálfaður til að spá fyrir um samsvarandi textalýsingu, blandað saman við sérstök tákn sem beina einu líkaninu til að framkvæma verkefni eins og tungumálaauðkenningu, tímastimpla á setningastigi, fjöltyngda taluppskrift og talþýðingu yfir á ensku.
Aðrar núverandi aðferðir nota oft minni, nánar pöruð hljóð-textaþjálfunargagnasett, 1 2 3 eða nota víðtæka en óeftirlitsskylda hljóðforþjálfun. 4 5 6 Vegna þess að Whisper var þjálfað á stóru og fjölbreyttu gagnasafni og var ekki fínstillt á neitt tiltekið gerir það ekki betur en líkön sem sérhæfa sig í frammistöðu á LibriSpeech, frægu samkeppnishæfu viðmiði í talgreiningu. Hins vegar, þegar við mælum árangur Whisper án sýnidæma í mörgum fjölbreyttum gagnasöfnum, komumst við að því að það er mun traustara og gerir 50% færri villur en þessi líkön.
Um þriðjungur af hljóðgagnasafns Whisper er ekki á ensku, og því er til skiptis verkefnið að umrita á frummálinu eða þýða yfir á ensku. Við teljum að þessi nálgun sé sérstaklega árangursrík við að læra tal til texta þýðingar og skarar fram úr eftirlitslausum SOTA á CoVoST2 til enskrar þýðingar án sýnidæma.
Við vonum að mikil nákvæmni og auðveld notkun Whisper geri forriturum kleift að bæta raddviðmótum við mun fjölbreyttari forrit. Skoðaðu greinina(opnast í nýjum glugga), líkanskortið(opnast í nýjum glugga) og kóðann(opnast í nýjum glugga) til að nálgast frekari upplýsingar og prófa Whisper.
Tilvísanir
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., og Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(opnast í nýjum glugga).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. og Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(opnast í nýjum glugga).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., o.fl. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(opnast í nýjum glugga).
- 4
Baevski, A., Zhou, H., Mohamed, A. og Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(opnast í nýjum glugga).
- 5
Baevski, A., Hsu, W.N., Conneau, A. og Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., o.fl. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(opnast í nýjum glugga).


