Przedstawiamy model Whisper
Wytrenowaliśmy sieć neuronową o nazwie Whisper, która rozpoznaje mowę w języku angielskim prawie tak dobrze jak człowiek. Udostępniamy ją na zasadach open source.
Whisper to system automatycznego rozpoznawania mowy (Automatic Speech Recognition, ASR) wytrenowany na 680 000 godzinach nadzorowanych danych wielojęzycznych i wielozadaniowych zebranych ze źródeł internetowych. Wykazaliśmy, że użycie tak dużego i zróżnicowanego zestawu danych pozwala uzyskać większą niezawodność działania w przypadku akcentów, szumów tła i języka technicznego. Ponadto umożliwia transkrypcję na wiele języków, a także tłumaczenie z tych języków na język angielski. Udostępniamy modele i kod wnioskowania na zasadach open source. Chcemy, by posłużyły jako podstawa do tworzenia przydatnych aplikacji i dalszych badań nad niezawodnym przetwarzaniem mowy.
Architektura Whisper to kompleksowe rozwiązanie zaimplementowane jako transformator kodera-dekodera. Dane wejściowe audio są dzielone na 30-sekundowe fragmenty, konwertowane na spektrogram log-Mel, a następnie przekazywane do kodera. Dekoder jest trenowany na potrzeby przewidywania pasującej transkrypcji, przeplatanej specjalnymi tokenami, które kierują pojedynczy model do wykonywania zadań, takich jak identyfikacja języka, umieszczanie znaczników czasu na poziomie fraz, wielojęzyczna transkrypcja mowy i tłumaczenie mowy na język angielski.
Inne istniejące podejścia często wykorzystują mniejsze, bardziej dopasowane zestawy danych do treningu audio-tekstowego 1 2 i 3 lub szeroki, ale nienadzorowany wstępny trening audio 4, 5 i 6. Ponieważ model Whisper został wytrenowany przy użyciu dużego i zróżnicowanego zestawu danych i nie została przeprowadzona jego precyzyjna konfiguracja przy użyciu konkretnego zestawu danych, nie osiąga on lepszych wyników od modeli specjalizujących się w LibriSpeech, znanym trudnym teście porównawczym w dziedzinie rozpoznawania mowy. Jednak po zmierzeniu wyników modelu Whisper bez użycia przykładu i przy użyciu wielu różnych zestawów danych okazuje się, że jest on znacznie bardziej niezawodny i popełnia o 50% mniej błędów niż wspomniane wcześniej modele.
Około jedna trzecia zestawu danych audio modelu Whisper nie jest w języku angielskim, dlatego musi on też na przemian przeprowadzać transkrypcję w języku oryginalnym i tłumaczenie na język angielski. Naszym zdaniem to podejście jest szczególnie skuteczne w uczeniu tłumaczenia mowy na tekst i zapewnia lepsze wyniki niż najlepsze wcześniejsze nadzorowane podejście dotyczące tłumaczenia na język angielski z użyciem zestawu danych CoVoST2 i bez użycia przykładu.
Mamy nadzieję, że wysoka dokładność i łatwość obsługi modelu Whisper pozwoli programistom na dodanie interfejsów głosowych do znacznie większej liczby aplikacji. Przeczytaj artykuł(otwiera nowe okno), kartę modelu(otwiera nowe okno) i zobacz kod(otwiera nowe okno), aby dowiedzieć się więcej i wypróbować model Whisper.
Bibliografia
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(otwiera nowe okno).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(otwiera nowe okno).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(otwiera nowe okno).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(otwiera nowe okno).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(otwiera nowe okno).


