Whisper 登場
我們訓練了一個名為 Whisper 的神經網絡,並且開放原始碼,這個網絡在英文語音辨識方面的強健性和準確度接近人類的能力範圍。
Whisper 是一款自動語音辨識 (ASR) 系統,接受過 68 萬小時訓練,學習在網上收集的多語言和多任務監督資料。我們證實,使用龐大多元的資料集,能夠提升辨識口音、背景雜音和技術用語的穩健性。此外,這個系統也可以進行多語言轉錄,並將多種語言翻譯成英文。我們開放模型和推理程式碼的原始碼,旨在奠定建立有助益的應用程式的基礎,並藉以推動強健性語音處理進一步的研究。
Whisper 的架構是簡單的端對端流程,以編碼器-解碼器變換器的方式執行。輸入音訊會被分成 30 秒一段,轉為梅爾頻譜,然後傳送到編碼器。解碼器接受過預測相應文字說明的訓練,與特殊的詞元混合,指示單一模型進行語言辨認、短句級時間戳記、多語言語音轉錄和將語音翻譯成英文等任務。
其他現有方法通常使用規模較小、配對更緊密的音訊文字訓練資料集,1 2及3或者使用廣泛卻未受監督的音訊預訓練。4、5及6由於 Whisper 接受過大型且多元的資料集訓練,並未微調至任何特定的資料集,它並未勝過專門為 LibriSpeech 設計的模型(一個著名而競爭激烈的語音辨識基準)。然而,我們測量 Whisper 在大量多元資料集中的零樣本表現時,發現這個系統非常穩健,發生的錯誤比其他模型要少 50%。
Whisper 的音訊資料集有三分之一是非英文,我們會讓它交替地執行轉錄原始語言或翻譯成英文的任務。我們發現這個方法對於學習語音到文字翻譯特別有效,表現較 CoVoST2 監督 SOTA 的零樣本英文翻譯更為出色。
我們希望開發商能運用 Whisper 高度準確和容易使用的特色,為更多應用程式增添語音介面。查看論文(在新視窗中開啟)、模型卡(在新視窗中開啟)和程式碼(在新視窗中開啟),進一步了解並試用 Whisper:
參考文獻
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(在新視窗中開啟).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(在新視窗中開啟).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(在新視窗中開啟).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(在新視窗中開啟).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(在新視窗中開啟).


