Iepazīstinām ar Whisper
Mēs esam apmācījuši un tagad piedāvājam neironu tīklu Whisper, kas sasniedz cilvēka līmeņa spēju precīzā angļu valodas runas atpazīšanā.
Whisper ir automātiskās runas atpazīšanas (ASR) sistēma, kas apmācīta ar 680 000 stundu daudzvalodu un daudzuzdevumu pārraudzītiem datiem, kas iegūti no tīmekļa. Sistēma parāda, ka šāda liela un daudzveidīga datu kopuma izmantošana uzlabo akcentu, fona trokšņu un tehniskas valodas izšķirtspēju. Turklāt tā ļauj veikt transkripciju vairākās valodās, kā arī tulkošanu no šīm valodām angļu valodā. Mēs piedāvājam modeļus un izvedumu kodu, kas kalpo par pamatu noderīgu lietotņu veidošanā un noder turpmākiem robustas runas apstrādes pētījumiem.
Whisper arhitektūra ir vienkārša end-to-end pieeja, kas īstenota kā kodētāja-dekodētāja transformators. Ievades audio fails tiek sadalīts 30 sekunžu fragmentos, pārveidots par log-Mel spektrogrammu un pēc tam nodots kodētājam. Dekodētājs tiek apmācīts prognozēt attiecīgu teksta uzrakstu un tiek papildināts ar īpašām tekstvienībām, kuras virza modeli veikt tādus uzdevumus kā valodas identifikācija, frāžu līmeņa laikspiedolus, daudzvalodu runas transkripciju un runas tulkošanu angļu valodā.
Citas esošās pieejas bieži izmanto mazākas, ciešāk pārī savienotas audio un teksta mācību datu kopas1 2 un 3 vai izmanto plašu, bet neuzraudzītu iepriekšēju audio apmācību.4, 5 un 6 Tā kā Whisper tika apmācīts, izmantojot lielu un daudzveidīgu datu kopu un tas nav precīzi pielāgots nevienai konkrētai datu kopai, šis rīks nepārspēj modeļus, kas specializējas LibriSpeech veiktspējā, kas ir plaši pazīstams un konkurētspējīgs runas atpazīšanas etalons. Taču, ja mēs mēram Whisper vienkāršās pieejas veiktspēju dažādās datu kopās, mēs secinām, ka šis modelis ir daudz stabilāks un pieļauj par 50 % mazāk kļūdu nekā iepriekš minētie modeļi.
Aptuveni trešdaļa Whisper audio datu kopu nav angļu valodā, un tam pārmaiņus tiek dots uzdevums pārrakstīt tekstu oriģinālvalodā vai tulkot to angļu valodā. Mēs konstatējam, ka šī pieeja ir īpaši efektīva, apgūstot runas tulkošanu teksta formā angļu valodā, un tā pārspēj uzraudzīto SOTA CoVoST2 tulkojumu angļu valodā bez iepriekšējas apmācības.
Mēs ceram, ka Whisper augstā precizitāte un lietošanas ērtums ļaus izstrādātājiem pievienot balss saskarnes daudz plašākam lietotņu klāstam. Apskati rakstu(atveras jaunā logā), modeļa karti(atveras jaunā logā) un kodu(atveras jaunā logā), lai uzzinātu vairāk informācijas un izmēģinātu Whisper darbību.
Atsauces
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. un Norouzi, M. SpeechStew: Vienkārši sajauciet visus pieejamos runas atpazīšanas datus, lai apmācītu vienu lielu neironu tīklu. arXiv priekšdruka arXiv:2104.02133, 2021.(atveras jaunā logā).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., un Reddi, V. J. Cilvēku runa: liela mēroga daudzveidīgs angļu valodas runas atpazīšanas datu kopums komerciālai lietošanai. arXiv priekšdruka arXiv:2111.09344, 2021(atveras jaunā logā).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaruna: Progresējošs, vairāku domēnu automātiskās runas atpazīšanas korpuss, kas satur 10 000 stundu transkribētu audio failu. arXiv priekšdruka arXiv:2106.06909, 2021(atveras jaunā logā).
- 4
Baevski, A., Zhou, H., Mohamed, A. un Auli, M. wav2vec 2.0: ietvars runas reprezentāciju pašuzraudzītai apguvei. arXiv priekšdruka arXiv:2006.11477, 2020(atveras jaunā logā).
- 5
Baevski, A., Hsu, W.N., Conneau, A., un Auli, M. Neuzraudzītas runas atpazīšana. Neironu informācijas apstrādes sistēmu progress, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Liela mēroga daļēji uzraudzītas mācīšanās robežas izpēte automātiskai runas atpazīšanai. arXiv priekšdruka arXiv:2109.13226, 2021(atveras jaunā logā).


