21 septembrie 2022

Îți prezentăm Whisper

Am instruit și oferim în regim open-source o rețea neuronală numită Whisper, care se apropie de nivelul uman de robustețe și precizie în recunoașterea vorbirii în limba engleză.

Citește lucrarea Vezi codul Vezi fișa modelului

Se încarcă…

Se încarcă...

Whisper este un sistem de recunoaștere automată a vorbirii (ASR) instruit pe baza a 680.000 de ore de date supravegheate multilingve și multitasking colectate de pe web. Am demonstrat că utilizarea unui set de date atât de mare și divers duce la o robustețe îmbunătățită la accente, zgomot de fundal și limbaj tehnic. În plus, permite transcrierea în mai multe limbi, precum și traducerea din acele limbi în engleză. Punem la dispoziție în regim open-source modele și cod de inferență pentru a servi drept bază pentru crearea de aplicații utile și pentru cercetări suplimentare privind procesarea robustă a vorbirii.

Arhitectura Whisper este o abordare simplă de la început până la sfârșit, implementată ca un transformator codificator-decodor. Datele audio de intrare sunt împărțite în segmente de 30 de secunde, convertite într-un spectrogramă log-Mel și apoi transmise către un codificator. Un decodor este instruit să prezică subtitrarea textului corespunzător, intercalată cu tokenuri speciale care ghidează modelul unic să execute sarcini precum identificarea limbii, marcarea temporală la nivel de frază, transcrierea vorbirii multilingve și traducerea vorbirii în engleză.

Diagramă care detaliază cum sunt instruite modelele ASR

Alte abordări existente utilizează frecvent seturi de date de instruire audio-text mai mici, mai strâns asociate¹ ^{2, 3} sau utilizează o instruire preliminară audio amplă, dar nesupravegheată.^{4, 5, 6} Deoarece Whisper a fost instruit pe baza unui set de date mare și divers și nu a fost ajustat pentru unul anume, nu depășește modelele specializate în performanța LibriSpeech, un standard competitiv renumit în recunoașterea vorbirii. Totuși, când măsurăm performanța zero-shot a Whisper pe mai multe seturi de date diverse, constatăm că este mult mai robust și face cu 50% mai puține erori decât acele modele.

Aproximativ o treime din setul de date audio al Whisper nu este în engleză și i se atribuie alternativ sarcina de a transcrie în limba originală sau de a traduce în engleză. Considerăm că această abordare este deosebit de eficientă pentru învățarea traducerii vorbirii în text și depășește performanțele SOTA supravegheate pe CoVoST2 pentru traducerea zero-shot în limba engleză.

Se încarcă...

Sperăm că precizia ridicată și ușurința în utilizare a Whisper le vor permite dezvoltatorilor să adauge interfețe de voce unui set mult mai larg de aplicații. Consultă studiul⁠(se deschide într-o fereastră nouă), fișa modelului⁠(se deschide într-o fereastră nouă) și codul⁠(se deschide într-o fereastră nouă) pentru a afla mai multe detalii și pentru a încerca Whisper.

Referințe

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(se deschide într-o fereastră nouă).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(se deschide într-o fereastră nouă).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(se deschide într-o fereastră nouă).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(se deschide într-o fereastră nouă).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(se deschide într-o fereastră nouă).

Articole similare

Vezi toate

Hierarchical text-conditional image generation with CLIP latents

Publicare13 apr. 2022

Solving (some) formal math olympiad problems

Etapă importantă2 feb. 2022

Solving math word problems

Publicare29 oct. 2021