21. rujna 2022.

Predstavljamo Whisper

Obučili smo neuronsku mrežu Whisper i objavljujemo je kao otvoreni kôd; postiže razinu robusnosti i točnosti u prepoznavanju engleskoga govora vrlo blisku ljudskoj.

Pročitajte rad Pogledajte kod Pogledajte karticu modela

Učitavanje…

Učitavanje...

Whisper je sustav automatskog prepoznavanja govora (ASR) treniran na 680.000 sati višejezičnih i višezadaćnih podataka pod nadzorom prikupljenih s mreže. Pokazujemo da korištenje tako velikog i raznolikog skupa podataka dovodi do poboljšane otpornosti na naglaske, pozadinsku buku i tehnički jezik. Osim toga, omogućava transkripciju na više jezika, kao i prijevod s tih jezika na engleski. Otvaramo kodove modela i kod za zaključivanje kako bi služili kao temelj za izgradnju korisnih aplikacija i za daljnja istraživanja robusne obrade govora.

Sažetak arhitekture modela za automatsko prepoznavanje govora (ASR)

Arhitektura Whisper sadrži jednostavan pristup od kraja do kraja, implementiran kao koder-dekoder transformator. Ulazni zvuk dijeli se na dijelove od 30 sekundi, pretvara u log-Mel spektrogram, a zatim šalje u enkoder. Dekoder je obučen za predviđanje odgovarajućeg tekstualnog opisa, pomiješanog s posebnim tokenima koji usmjeravaju jedinstveni model na izvršavanje zadataka kao što su identifikacija jezika, vremenske oznake na razini fraze, višejezična transkripcija govora i prevođenje govora na engleski.

Dijagram koji detaljno prikazuje kako se treniraju ASR modeli

Drugi postojeći pristupi često koriste manje, bliže uparene skupove podataka za obuku audio-teksta, ¹ ² ³ ili koriste široku, ali nenadziranu audio predobuku. ⁴ ⁵ ⁶ Budući da je Whisper treniran na velikom i raznolikom skupu podataka i nije fino podešen ni za jedan specifičan, ne nadmašuje modele koji su specijalizirani za performanse LibriSpeech, poznato konkurentno mjerilo u prepoznavanju govora. Međutim, kada mjerimo Whisperove performanse u nultom pokušaju na mnogim različitim skupovima podataka, otkrivamo da je mnogo robusniji i čini 50 % manje pogrešaka od tih modela.

Otprilike trećina Whisperovog skupa audio podataka nije na engleskom jeziku, a naizmjenično mu se daje zadatak prepisivanja na izvornom jeziku ili prevođenja na engleski. Smatramo da je ovaj pristup posebno učinkovit u učenju prevođenja govora u tekst i nadmašuje nadzirani SOTA na CoVoST2 za prijevod na engleski jezik u nultom pokušaju.

Učitavanje...

Nadamo se da će Whisperova visoka točnost i jednostavnost korištenja omogućiti razvojnim inženjerima da dodaju glasovna sučelja mnogo širem skupu aplikacija. Pogledajte rad⁠(otvara se u novom prozoru), karticu modela⁠(otvara se u novom prozoru) i kod⁠(otvara se u novom prozoru) kako biste saznali više detalja i isprobali Whisper.

Reference

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. i Norouzi, M. SpeechStew: Jednostavno pomiješajte sve dostupne podatke o prepoznavanju govora kako biste obučili jednu veliku neuralnu mrežu. arXiv preprint arXiv:2104.02133, 2021⁠(otvara se u novom prozoru).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. i Reddi, V. J. Govor naroda: Veliki raznoliki skup podataka za prepoznavanje govora na engleskom jeziku za komercijalnu uporabu. arXiv preprint arXiv:2111.09344, 2021⁠(otvara se u novom prozoru).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J. i dr. Gigaspeech: Razvijajući ASR korpus u više domena s 10.000 sati transkribiranog zvuka. arXiv preprint arXiv:2106.06909, 2021⁠(otvara se u novom prozoru).
4
Baevski, A., Zhou, H., Mohamed, A. i Auli, M. wav2vec 2.0: Okvir za samonadzirano učenje govornih reprezentacija. arXiv preprint arXiv:2006.11477, 2020⁠(otvara se u novom prozoru).
5
Baevski, A., Hsu, W.N., Conneau, A. i Auli, M. Nenadzirano prepoznavanje govora. Napredak u sustavima za obradu neuronskih informacija, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S. i dr. BigSSL: Istražujući granice velikog polunadziranog učenja za automatsko prepoznavanje govora. arXiv preprint arXiv:2109.13226, 2021⁠(otvara se u novom prozoru).

Povezani članci

Prikaži sve

Hierarchical text-conditional image generation with CLIP latents

Publikacija13. tra 2022.

Solving (some) formal math olympiad problems

Prekretnica2. velj 2022.

Solving math word problems

Publikacija29. lis 2021.