21. syyskuuta 2022

Esittelyssä Whisper

Olemme kouluttaneet ja julkaisemme avoimella lähdekoodilla Whisper-nimisen neuroverkon, joka lähestyy ihmisen tasoista luotettavuutta ja tarkkuutta englanninkielisen puheen tunnistuksessa.

Lue artikkeli Näytä koodi Näytä mallikortti

Ladataan...

Whisper on automaattinen puheentunnistusjärjestelmä (ASR), jota on koulutettu 680 000 tunnilla verkosta kerätyllä monikielisellä ja moniajoa hyödyntävällä valvotulla datalla. Osoitamme, että näin suuren ja monipuolisen tietojoukon käyttö parantaa mallin kyvykkyyttä murteiden, taustamelun ja teknisen kielen suhteen. Lisäksi se mahdollistaa transkription useilla kielillä sekä kääntämisen näistä kielistä englanniksi. Käytämme avoimen lähdekoodin malleja ja päättelykoodia, jotka toimivat pohjana hyödyllisten sovellusten rakentamiselle ja vankan puheenkäsittelyn jatkotutkimukselle.

Whisper-arkkitehtuuri on yksinkertainen kokonaisvaltainen lähestymistapa, joka on toteutettu kooderi-dekooderimuuntajana. Syöteääni jaetaan 30 sekunnin osiin, muunnetaan log-Mel-spektrogrammiksi ja johdetaan sitten enkooderiin. Dekooderi koulutetaan ennustamaan vastaava tekstikuvateksti, johon sekoitetaan erityisiä tunnisteita, jotka ohjaavat yksittäistä mallia suorittamaan tehtäviä, kuten kielen tunnistamista, lausetasoisten aikaleimojen luomista, monikielistä puheen transkriptiota ja puheen kääntämistä englanniksi.

Kaavio, joka kuvaa ASR-mallien kouluttamista

Muut nykyiset lähestymistavat käyttävät usein pienempiä, tiiviimmin paritettuja ääni-teksti-koulutustietojoukkoja,¹ ^{2 ja 3} tai käyttävät laajaa, mutta ohjaamatonta äänen esikoulutusta.^{4, 5 ja 6} Koska Whisper koulutettiin suurella ja monipuolisella tietojoukolla eikä sitä hienosäädetty mihinkään tiettyyn tietojoukkoon, se ei päihitä malleja, jotka ovat erikoistuneet LibriSpeech-suoritukseen, joka on tunnetusti kilpailukykyinen vertailuarvo puheentunnistuksessa. Kun kuitenkin mittaamme Whisperin nollapistesuorituskykyä useissa erilaisissa tietojoukoissa, havaitsemme, että se on paljon vankempi ja tekee 50 % vähemmän virheitä kuin kyseiset mallit.

Noin kolmannes Whisperin ääniaineistosta on muuta kuin englantia, ja sille annetaan vuorotellen tehtäväksi litteroida alkuperäiskielellä tai kääntää englanniksi. Mielestämme tämä lähestymistapa on erityisen tehokas puheesta tekstiksi -käännöksen oppimisessa ja suoriutuu paremmin kuin valvottu SOTA CoVoST2:n englanniksi-käännöksessä nollapistemenetelmällä.

Ladataan...

Toivomme, että Whisperin hyvä tarkkuus ja helppokäyttöisyys antavat kehittäjille mahdollisuuden lisätä ääniliittymiä paljon laajempaan sovellusvalikoimaan. Katso lisätietoja ja kokeile Whisperiä tutustumalla artikkeliin⁠(avautuu uudessa ikkunassa), mallikorttiin⁠(avautuu uudessa ikkunassa) ja koodiin⁠(avautuu uudessa ikkunassa).

Viitteet

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(avautuu uudessa ikkunassa).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(avautuu uudessa ikkunassa).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(avautuu uudessa ikkunassa).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(avautuu uudessa ikkunassa).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(avautuu uudessa ikkunassa).

Aiheeseen liittyvät artikkelit

Näytä kaikki

Hierarchical text-conditional image generation with CLIP latents

Julkaisu13.4.2022

Solving (some) formal math olympiad problems

Merkkipaalu2.2.2022

Solving math word problems

Julkaisu29.10.2021