Пређите на главни садржај
OpenAI
Учитавање...

Whisper je sistem za automatsko prepoznavanje govora (ASR) obučen na 680.000 sati višejezičnih i višenamenskih nadgledanih podataka prikupljenih sa veba. Pokazujemo da upotreba tako velikog i raznovrsnog skupa podataka dovodi do veće robusnosti na akcente, pozadinsku buku i tehnički jezik. Pored toga, omogućava transkripciju na više jezika, kao i prevođenje sa tih jezika na engleski. Objavljujemo modele i kod za izvođenje zaključivanja kao osnovu za izgradnju korisnih aplikacija i za dalja istraživanja robusne obrade govora.

Sažetak arhitekture ASR modela

Arhitektura Whisper-a je jednostavan pristup od početka do kraja, implementiran kao трансформатор koder-dekoder. Ulazni audio se deli na segmente od 30 sekundi, pretvara u log-Mel spektrogram, a zatim prosleđuje koderu. Dekoder se obučava da predvidi odgovarajući tekstualni zapis, uz posebne tokene koji usmeravaju jedan model da obavlja zadatke kao što su identifikacija jezika, vremenske oznake na nivou fraze, višejezična transkripcija govora i prevođenje govora na engleski.

Dijagram koji prikazuje kako se ASR modeli obučavaju

Drugi postojeći pristupi često koriste manje, tesnije uparene skupove podataka za obuku audio-tekst,1 2 и 3 ili koriste široko, ali nenadgledano prethodno obučavanje na audio podacima.4, 5 и 6 Pošto je Whisper obučen na velikom i raznovrsnom skupu podataka i nije fino podešavan ni za jedan određeni skup, ne nadmašuje modele specijalizovane za performanse na LibriSpeech-u, čuveno konkurentnom reperu u prepoznavanju govora. Međutim, kada merimo performanse modela Whisper bez pokушаја na mnogim raznovrsnim skupovima podataka, nalazimo da je mnogo robusniji i pravi 50% manje grešaka od tih modela.

Oko trećine Whisper-ovog audio skupa podataka nije na engleskom jeziku, i model naizmenično dobija zadatak da transkribuje na originalnom jeziku ili prevodi na engleski. Nalazimo da je ovaj pristup posebno efikasan za učenje prevođenja govora u tekst i da nadmašuje nadgledani SOTA na CoVoST2 prevođenju na engleski bez pokушаја.

Учитавање...

Nadamo se da će visoka preciznost i jednostavnost upotrebe Whisper-a omogućiti programerima da dodaju glasovne interfejse mnogo širem skupu aplikacija. Pogledajte rad(отвара се у новом прозору), karticu modela(отвара се у новом прозору) i kod(отвара се у новом прозору) da biste saznali više detalja i isprobali Whisper.

Reference

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. i Norouzi, M. SpeechStew: jednostavno mešanje svih dostupnih podataka za prepoznavanje govora radi obučavanja jedne velike neuronske mreže. arXiv preprint arXiv:2104.02133, 2021(отвара се у новом прозору).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. i Reddi, V. J. The people’s speech: raznovrstan skup podataka za prepoznavanje govora na engleskom velikih razmera za komercijalnu upotrebu. arXiv preprint arXiv:2111.09344, 2021(отвара се у новом прозору).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J. i dr. Gigaspeech: evoluirajući, višedomenski ASR korpus sa 10.000 sati transkribovanog audio materijala. arXiv preprint arXiv:2106.06909, 2021(отвара се у новом прозору).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A. i Auli, M. wav2vec 2.0: okvir za samonadgledano učenje reprezentacija govora. arXiv preprint arXiv:2006.11477, 2020(отвара се у новом прозору).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A. i Auli, M. Nenadgledano prepoznavanje govora. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S. i dr. BigSSL: istraživanje granica polunadgledanog učenja velikih razmera za automatsko prepoznavanje govora. arXiv preprint arXiv:2109.13226, 2021(отвара се у новом прозору).