Predstavljamo Whisper
Trenirali smo i otvorili kod neuronske mreže pod nazivom Whisper koja se približava robusnosti i tačnosti ljudskog nivoa u prepoznavanju engleskog govora.
Whisper je sistem automatskog prepoznavanja govora (ASR) treniran na 680.000 sati višejezičnih i višezadaćnih podataka pod nadzorom prikupljenih s interneta. Pokazujemo da upotreba tako velikog i raznolikog skupa podataka dovodi do poboljšane otpornosti na naglaske, pozadinsku buku i tehnički jezik. Štaviše, omogućava transkripciju na više jezika, kao i prevođenje s tih jezika na engleski. Otvaramo modele i kod za zaključivanje kao otvoreni izvor kako bi služili kao temelj za izgradnju korisnih aplikacija i za daljnja istraživanja o robusnoj obradi govora.
Arhitektura Whisper je jednostavan pristup od kraja do kraja, implementiran kao Transformer koder-dekoder. Unos zvuka se dijeli na dijelove od 30 sekundi, pretvara u log-Mel spektrogram, a zatim prosljeđuje u enkoder. Dekoder je obučen da predvidi odgovarajući tekstualni natpis, pomiješan sa posebnim tokenima koji usmjeravaju jedinstveni model da obavlja zadatke kao što su identifikacija jezika, vremenske oznake na nivou fraze, višejezična transkripcija govora i prevođenje govora na engleski jezik.
Drugi postojeći pristupi često koriste manje, bliže uparene skupove podataka za obuku audio-teksta, 1 2 3 ili koriste široku, ali nenadziranu audio predobuku. 4 5 6 ChatGPT said:Budući da je Whisper treniran na velikom i raznolikom skupu podataka i nije dodatno prilagođavan (fine-tuniran) ni na jedan specifični, on ne nadmašuje modele koji su specijalizirani za LibriSpeech, poznato konkurentsko mjerilo u području prepoznavanja govora. Međutim, kada mjerimo Whisperove performanse u nultom pokušaju na mnogim različitim skupovima podataka, otkrivamo da je mnogo robusniji i pravi 50% manje grešaka od tih modela.
Otprilike trećina Whisperovog audio skupa podataka nije na engleskom jeziku, a naizmjenično mu se daje zadatak prepisivanja na izvornom jeziku ili prevođenja na engleski. Smatramo da je ovaj pristup posebno efikasan u učenju prevođenja govora u tekst i nadmašuje nadgledani SOTA na CoVoST2 za prevođenje na engleski jezik u nultom pokušaju.
Nadamo se da će Whisperova visoka tačnost i jednostavnost korištenja omogućiti programerima da dodaju glasovne interfejse mnogo širem skupu aplikacija. Pogledajte rad(otvara se u novom prozoru), karticu modela(otvara se u novom prozoru) i kod(otvara se u novom prozoru) da biste saznali više detalja i isprobali Whisper.
Reference
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. i Norouzi, M. SpeechStew: Jednostavno pomiješajte sve dostupne podatke o prepoznavanju govora da biste obučavali jednu veliku neuronsku mrežu. arXiv preprint arXiv:2104.02133, 2021(otvara se u novom prozoru).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., i Reddi, V. J. The People’s Speech: veliki, raznoliki skup podataka za prepoznavanje engleskog govora namijenjen komercijalnoj upotrebi. arXiv preprint arXiv:2111.09344, 2021(otvara se u novom prozoru).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Evoluirajući, višedomenski ASR korpus sa 10.000 sati transkribovanog zvuka. arXiv preprint arXiv:2106.06909, 2021(otvara se u novom prozoru).
- 4
Baevski, A., Zhou, H., Mohamed, A., i Auli, M. wav2vec 2.0: Okvir za samonadzirano učenje govorne reprezentacije. arXiv preprint arXiv:2006.11477, 2020(otvara se u novom prozoru).
- 5
Baevski, A., Hsu, W.N., Conneau, A., i Auli, M. Nenadzirano prepoznavanje govora. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Istražiti granice velikog polunadziranog učenja za automatsko prepoznavanje govora. arXiv preprint arXiv:2109.13226, 2021(otvara se u novom prozoru).


