Preskočite na glavni sadržaj
OpenAI

21. rujna 2022.

Izdanje

Predstavljamo Whisper

Obučili smo neuronsku mrežu Whisper i objavljujemo je kao otvoreni kôd; postiže razinu robusnosti i točnosti u prepoznavanju engleskoga govora vrlo blisku ljudskoj.

Učitavanje…
Učitavanje...

Whisper je sustav automatskog prepoznavanja govora (ASR) treniran na 680.000 sati višejezičnih i višezadaćnih podataka pod nadzorom prikupljenih s mreže. Pokazujemo da korištenje tako velikog i raznolikog skupa podataka dovodi do poboljšane otpornosti na naglaske, pozadinsku buku i tehnički jezik. Osim toga, omogućava transkripciju na više jezika, kao i prijevod s tih jezika na engleski. Otvaramo kodove modela i kod za zaključivanje kako bi služili kao temelj za izgradnju korisnih aplikacija i za daljnja istraživanja robusne obrade govora.

Sažetak arhitekture modela za automatsko prepoznavanje govora (ASR)

Arhitektura Whisper sadrži jednostavan pristup od kraja do kraja, implementiran kao koder-dekoder transformator. Ulazni zvuk dijeli se na dijelove od 30 sekundi, pretvara u log-Mel spektrogram, a zatim šalje u enkoder. Dekoder je obučen za predviđanje odgovarajućeg tekstualnog opisa, pomiješanog s posebnim tokenima koji usmjeravaju jedinstveni model na izvršavanje zadataka kao što su identifikacija jezika, vremenske oznake na razini fraze, višejezična transkripcija govora i prevođenje govora na engleski.

Dijagram koji detaljno prikazuje kako se treniraju ASR modeli

Drugi postojeći pristupi često koriste manje, bliže uparene skupove podataka za obuku audio-teksta, 1 2 3 ili koriste široku, ali nenadziranu audio predobuku. 4 5 6 Budući da je Whisper treniran na velikom i raznolikom skupu podataka i nije fino podešen ni za jedan specifičan, ne nadmašuje modele koji su specijalizirani za performanse LibriSpeech, poznato konkurentno mjerilo u prepoznavanju govora. Međutim, kada mjerimo Whisperove performanse u nultom pokušaju na mnogim različitim skupovima podataka, otkrivamo da je mnogo robusniji i čini 50 % manje pogrešaka od tih modela.

Otprilike trećina Whisperovog skupa audio podataka nije na engleskom jeziku, a naizmjenično mu se daje zadatak prepisivanja na izvornom jeziku ili prevođenja na engleski. Smatramo da je ovaj pristup posebno učinkovit u učenju prevođenja govora u tekst i nadmašuje nadzirani SOTA na CoVoST2 za prijevod na engleski jezik u nultom pokušaju.

Učitavanje...

Nadamo se da će Whisperova visoka točnost i jednostavnost korištenja omogućiti razvojnim inženjerima da dodaju glasovna sučelja mnogo širem skupu aplikacija. Pogledajte rad(otvara se u novom prozoru), karticu modela(otvara se u novom prozoru)kod(otvara se u novom prozoru) kako biste saznali više detalja i isprobali Whisper.

Reference

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. i Norouzi, M. SpeechStew: Jednostavno pomiješajte sve dostupne podatke o prepoznavanju govora kako biste obučili jednu veliku neuralnu mrežu. arXiv preprint arXiv:2104.02133, 2021(otvara se u novom prozoru).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. i Reddi, V. J. Govor naroda: Veliki raznoliki skup podataka za prepoznavanje govora na engleskom jeziku za komercijalnu uporabu. arXiv preprint arXiv:2111.09344, 2021(otvara se u novom prozoru).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J. i dr. Gigaspeech: Razvijajući ASR korpus u više domena s 10.000 sati transkribiranog zvuka. arXiv preprint arXiv:2106.06909, 2021(otvara se u novom prozoru).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A. i Auli, M. wav2vec 2.0: Okvir za samonadzirano učenje govornih reprezentacija. arXiv preprint arXiv:2006.11477, 2020(otvara se u novom prozoru).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A. i Auli, M. Nenadzirano prepoznavanje govora. Napredak u sustavima za obradu neuronskih informacija, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S. i dr. BigSSL: Istražujući granice velikog polunadziranog učenja za automatsko prepoznavanje govora. arXiv preprint arXiv:2109.13226, 2021(otvara se u novom prozoru).