2022 m. rugsėjo 21 d.

Pristatome „Whisper“

Išmokėme ir atveriame neuroninio tinklo, pavadinto „Whisper“, kodą; šio tinklo patikimumas ir tikslumas atpažįstant anglų kalbą yra artimas žmogaus gebėjimams.

Skaityti straipsnį Peržiūrėti kodą Peržiūrėti modelio kortelę

Įkeliama...

„Whisper“ yra automatinio kalbos atpažinimo (angl. automatic speech recognition, ASR) sistema, mokyta naudojant 680 tūkst. valandų daugiakalbių ir daugiafunkcių prižiūrimojo mokymo duomenų, surinktų internete. Parodome, kad tokio didelio ir įvairaus duomenų rinkinio naudojimas lemia didesnį atsparumą akcentams, foniniam triukšmui ir techninei kalbai. Be to, tai leidžia transkribuoti keliomis kalbomis, taip pat versti iš tų kalbų į anglų kalbą. Atveriame modelių ir jų vykdymo kodą, kurį bus galima naudoti kaip pagrindą kuriant naudingas programas ir atliekant tolesnius patikimo kalbos apdorojimo tyrimus.

„Whisper“ architektūra yra paprasta, ištisinė, įgyvendinta kaip „Transformer“ tipo koduotuvas-dekoduotuvas. Įvesties garsas padalijamas į 30 sekundžių atkarpas, konvertuojamas į log-Mel spektrogramą ir perduodamas į koduotuvą. Dekoduotuvas mokomas numatyti atitinkamą teksto antraštę, įterpiant specialius prieigos rakto elementus, nurodančius vienam modeliui atlikti tokias užduotis kaip kalbos atpažinimas, frazės lygio laiko žymos, daugiakalbė kalbos transkripcija ir kalbos vertimas į anglų kalbą.

Diagrama, kurioje detaliai pavaizduota, kaip mokomi ASR modeliai

Kituose esamuose metoduose dažnai naudojami mažesni, glaudžiau susieti garso ir teksto mokymo duomenų rinkiniai ^l ^{2 ir 3} arba platus, bet neprižiūrimas išankstinis garso mokymas.^{4, 5 ir 6} Kadangi „Whisper“ buvo mokomas naudojant didelį ir įvairiapusį duomenų rinkinį ir nebuvo koreguojamas jokiai konkrečiai užduočiai, jis nepralenkia modelių, kurie specializuojasi „LibriSpeech“ veikimo srityje – tai garsus konkurencingas kalbos atpažinimo lyginamasis standartas. Vis dėlto, matuojant „Whisper“ veikimą be pavyzdžių daugelyje įvairių duomenų rinkinių, matyti, kad jis yra daug atsparesnis ir daro 50 proc. mažiau klaidų nei minėtieji modeliai.

Apie trečdalį „Whisper“ garso duomenų rinkinio sudaro ne anglų kalba; modeliui pakaitomis skiriama užduotis transkribuoti originalo kalba arba versti į anglų kalbą. Pastebėjome, kad šis metodas ypač veiksmingas mokantis versti kalbą į tekstą ir lenkia prižiūrimojo mokymo pažangiausius (SOTA) „CoVoST2“ vertimo į anglų kalbą modelius be pavyzdžių (angl. zero-shot).

Įkeliama...

Tikimės, kad dėl didelio „Whisper“ tikslumo ir paprasto naudojimo programuotojai galės diegti balso sąsajas daugelyje įvairių programų. Norėdami sužinoti daugiau ir išbandyti „Whisper“, peržiūrėkite mokslinį straipsnį⁠(atsidaro naujame lange), modelio kortelę⁠(atsidaro naujame lange) ir kodą⁠(atsidaro naujame lange).

Nuorodos

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(atsidaro naujame lange).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(atsidaro naujame lange).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(atsidaro naujame lange).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(atsidaro naujame lange).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(atsidaro naujame lange).

Susiję straipsniai

Peržiūrėti viską

Hierarchical text-conditional image generation with CLIP latents

Publikacija2022-04-13

Solving (some) formal math olympiad problems

Etapas2022-02-02

Solving math word problems

Publikacija2021-10-29