跳至主要内容
OpenAI

2022年9月21日

发布

Whisper 简介

我们训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别的稳健性和准确性方面已接近人类水平。

正在加载…
正在加载...

Whisper 是一种自动语音识别 (ASR) 系统,根据从网络收集的 680,000 小时多语言和多任务监督数据进行训练。结果表明,使用这种大规模且多样化的数据集,能够提升模型在口音、背景噪音及专业术语方面的稳健性。此外,该模型还支持多种语言的转录,以及将这些语言翻译成英语。我们正在开源模型和推理代码,作为构建有用应用程序和进一步研究稳健语音处理的基础。

ASR 模型架构概要

Whisper 架构是一种简单的端到端方法,以编码器-解码器 Transformer 的形式实现。输入音频被拆分为 30 秒的片段,转换成对数梅尔谱图,然后传递到编码器。解码器经过训练可以预测相应的文本标题,并与特殊令牌混杂,指示单一模型执行语言识别、短语级时间戳、多语言语音转录和以英语为目标的语音翻译等任务。

ASR 模型训练详细图解

其他现有方法经常使用规模更小、配对更工整的音频文本训练数据集,1 23 或使用广泛但无监督的音频预训练。456 由于 Whisper 是使用大规模、多样化数据集训练的,没有针对任何特定数据集进行微调,所以它无法击败专长语音识别领域著名竞争基准 LibriSpeech 性能的模型。然而,当我们在多个不同的数据集上测量 Whisper 的零样本性能时,发现它比那些模型更加稳健,错误率也降低了 50%。

Whisper 的音频数据集中约有三分之一是非英语内容,模型在训练时会交替执行两个任务:将音频转录为原始语言,或翻译成英语。我们发现这种方法在学习语音到文本的翻译方面特别高效,并且在 CoVoST2 到英语的零样本翻译中,性能优于监督 SOTA。

正在加载...

我们希望 Whisper 的高准确性和易用性能够助力开发人员将语音界面添加到更广泛的应用中。查看论文(在新窗口中打开)模型卡(在新窗口中打开)代码(在新窗口中打开),以了解更多详细信息并试用 Whisper。

参考文献

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(在新窗口中打开).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(在新窗口中打开).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(在新窗口中打开).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(在新窗口中打开).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(在新窗口中打开).