Setyembre 21, 2022

Ipinapakilala ang Whisper

Sinanay at ginagawa naming open-sourcing ang neural net na tinatawag na Whisper na may antas ng tibay at katumpakan sa pagkilala ng wikang English na halos katulad ng sa tao.

Basahin ang papel.Tingnan ang code Tingnan ang card ng modelo

Naglo-load…

Naglo-load...

Ang Whisper ay isang awtomatikong system ng pagkilala sa pagsasalita (ASR) na sinanay sa 680,000 oras ng multilingual at multitask na pinangangasiwaang data na nakolekta mula sa web. Ipinapakita namin na ang paggamit ng ganito kalaki at magkakaibang dataset ay humahantong sa pinahusay na katatagan sa mga accent, ingay sa background, at teknikal na wika. Bukod dito, ini-enable nito ang pag-transcribe sa maraming wika, pati na rin ang pagsasalin mula sa mga wikang iyon sa English. Inilalabas namin bilang open source ang mga modelo at inference code para magsilbing pundasyon sa paggawa ng kapaki-pakinabang na mga application at sa karagdagang pananaliksik sa mahusay na pagproseso ng pagsasalita.

Ang arkitektura ng Whisper ay isang simpleng end-to-end na pamamaraan, na ipinatupad bilang encoder-decoder Transformer. Hinahati sa mga 30-segundong bahagi ang input na audio, kino-convert sa log-Mel spectrogram, at pagkatapos ay ipinapasa sa encoder. Sinanay ang decoder para mahulaan ang kaukulang caption ng text, na may kasamang mga espesyal na token na nagdidirekta sa iisang modelo para magsagawa ng mga gawain tulad ng pagkakakilanlan ng wika, mga timestamp sa antas ng parirala, multilingual na pag-transcribe ng pagsasalita, at pagsasalin ng pagsasalita sa English.

Diagram na nagdedetalye kung paano sinasanay ang mga modelo ng ASR

Ang iba pang mga umiiral na pamamaraan ay kadalasang gumagamit ng mas maliliit at mas magkaugnay na mga dataset ng audio at teksto para sa pagsasanay,¹ ^{2, 3} o gumagamit ng malawak pero hindi pinangasiwaang pretraining sa audio.^{4, 5, 6} Dahil sinanay ang Whisper sa malaki at magkakaibang dataset at hindi naka-fine-tune sa anumang partikular na dateset, hindi nito nalalampasan ang mga modelong dalubhasa sa pagganap ng LibriSpeech, isang kilalang mapagkumpitensyang benchmark sa pagkilala ng pagsasalita. Gayunpaman, kapag sinusukat namin ang zero-shot na pagganap ng Whisper sa maraming magkakaibang dataset, nalaman namin na ito ay mas matatag at gumagawa ng 50% na mas kaunting error kaysa sa mga modelo.

Tungkol sa isang-katlo ng audio dataset ng Whisper ay hindi English, at salitan itong binibigyan ng gawain ng pag-transcribe sa orihinal na wika o pagsasalin sa English. Nalaman namin na ang pamamaraan na ito ay partikular na epektibo sa pag-aaral ng pagsasalin ng pagsasalita tungo sa text at mas mahusay kaysa sa pinangangasiwaang SOTA sa CoVoST2 sa pagsasalin sa English na zero-shot.

Naglo-load...

Umaasa kami na ang mataas na katumpakan at kadalian ng paggamit ng Whisper ay magbibigay-daan sa mga developer na magdagdag ng mga voice interface sa mas malawak na hanay ng mga application. Tingnan ang papel⁠(magbubukas sa bagong window), model card⁠(magbubukas sa bagong window), at code⁠(magbubukas sa bagong window) para malaman ang higit pang mga detalye at subukan ang Whisper.

Mga Sanggunian

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., at Norouzi, M. SpeechStew: Paghaluin lang ang lahat ng available na data ng pagkilala sa pagsasalita para magsanay ng malaking neural network. arXiv preprint arXiv:2104.02133, 2021⁠(magbubukas sa bagong window).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., at Reddi, V. J. Ang pagsasalita ng mga tao: Isang malawakang magkakaibang dataset ng pagkilala sa pagsasalita sa Ingles para sa komersyal na paggamit. arXiv preprint arXiv:2111.09344, 2021⁠(magbubukas sa bagong window).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Isang patuloy na lumalawak na multi-domain ASR corpus na naglalaman ng 10,000 oras ng audio na na-transcribe. arXiv preprint arXiv:2106.06909, 2021⁠(magbubukas sa bagong window).
4
Baevski, A., Zhou, H., Mohamed, A., at Auli, M. wav2vec 2.0:Isang balangkas para sa sariling-gabay na pagkatuto ng mga representasyon ng pananalita. arXiv preprint arXiv:2006.11477, 2020⁠(magbubukas sa bagong window).
5
Baevski, A., Hsu, W.N., Conneau, A., at Auli, M. Pagkilala sa pagsasalita na walang pangangasiwa. Mga Pagsulong sa Mga Sistema ng Pagproseso ng Impormasyong Neural, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Pagsusuri sa hangganan ng malawakang naka-semi-supervise na pagkatuto para sa awtomatikong pagkilala sa pagsasalita. arXiv preprint arXiv:2109.13226, 2021⁠(magbubukas sa bagong window).

Mga kaugnay na artikulo

Tingnan lahat

Hierarchical text-conditional image generation with CLIP latents

PaglalathalaAbr 13, 2022

Solving (some) formal math olympiad problems

MilestonePeb 2, 2022

Solving math word problems

PaglalathalaOkt 29, 2021