Představujeme Whisper
Natrénovali jsme neuronovou síť Whisper, která se v rozpoznávání mluvené angličtiny blíží robustnosti a přesnosti na úrovni člověka, a nabízíme ji jako open-source.
Whisper je systém automatického rozpoznávání řeči (ASR) trénovaný na 680 000 hodinách vícejazyčných a řízených víceúlohových dat získaných z webu. Ukazujeme, že použití takto rozsáhlého a různorodého souboru dat vede ke zlepšení odolnosti vůči přízvukům, šumu v pozadí a technickému jazyku. Kromě toho umožňuje přepis ve více jazycích a také překlad z těchto jazyků do angličtiny. Modely a inferenční kód nabízíme jako open-source, aby mohly sloužit jako základ pro vytváření užitečných aplikací a pro další výzkum robustního zpracování řeči.
Architektura Whisper představuje jednoduchý end-to-end přístup, implementovaný jako transformátor kodér-dekodér. Vstup je rozdělen na 30sekundové úseky, převeden na log-mel spektrogram a poté předán do kodéru. Dekodér je vycvičen k předpovídání odpovídajícího textového popisku, který je prokládán speciálními tokeny, které nasměrují jediný model k provádění úkolů, jako je identifikace jazyka, časové značky na úrovni fráze, vícejazyčný přepis řeči a překlad řeči do angličtiny.
Jiné existující přístupy často používají menší, těsněji párované trénovací datové sady audia-textu1 2, 3 nebo používají rozsáhlé zvukové předtrénování, ale bez dohledu.4, 5, 6 Protože byla síť Whisper natrénována na velké a rozmanité datové sadě a nebyla vyladěna na žádnou konkrétní datovou sadu, nepřekonává modely, které se specializují na výkon v LibriSpeech, což je slavné konkurenční měřítko v rozpoznávání řeči. Když však měříme výkon modelu Whisper v režimu zero-shot na mnoha různorodých datových sadách, zjistíme, že je mnohem robustnější a dělá o 50 % méně chyb než tyto modely.
Asi třetina zvukové datové sady sítě Whisper není v angličtině a střídavě dostává úkol provádět přepis do původního jazyka nebo překládat do angličtiny. Zjistili jsme, že tento přístup je obzvláště účinný při učení překladu řeči na text a překonává řízenou SOTA na CoVoST2 v překladu do angličtiny v režimu zero-shot.
Doufáme, že vysoká přesnost a snadné použití sítě Whisper umožní vývojářům přidat hlasová rozhraní do mnohem širší sady aplikací. Další informace a možnost vyzkoušet si Whisper najdeš v článku(otevře se v novém okně), na kartě modelu(otevře se v novém okně) a kódu(otevře se v novém okně).
Reference
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. a Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(otevře se v novém okně).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(otevře se v novém okně).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J. et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(otevře se v novém okně).
- 4
Baevski, A., Zhou, H., Mohamed, A. a Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(otevře se v novém okně).
- 5
Baevski, A., Hsu, W.N., Conneau, A. a Auli, M. Unsupervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S. et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(otevře se v novém okně).


