メインコンテンツにスキップ
OpenAI

2022年9月21日

リリース

Whisper が登場

当社は、英語の音声認識において人間レベルのロバスト性と正確性に近づく Whisper というニューラルネットの学習を行い、オープンソース化しています。

読み込んでいます...
読み込み中...

Whisper は、ウェブから収集された68万時間に及ぶ多言語・マルチタスクの監督付きデータに基づいて学習した自動音声認識(ASR)システムです。このような大規模で多様なデータセットを使用することで、アクセントや背景の雑音、専門用語に対するロバスト性が向上することを示します。さらに、多言語での文字起こしや多言語から英語への翻訳も可能です。当社は、有用なアプリケーションの構築や、ロバストな音声処理のさらなる研究の基礎となるよう、モデルと推論コードをオープンソース化しています。

ASR モデルアーキテクチャの概要

Whisper のアーキテクチャはシンプルなエンドツーエンドのアプローチで、エンコーダー・デコーダーの Transformer として実装されています。入力音声は30秒のチャンクに分割され、ログメルスペクトログラムに変換された後、エンコーダーに渡されます。デコーダーは、対応するテキストキャプションを予測するよう学習しており、言語の識別、フレーズレベルのタイムスタンプ、多言語の音声書き起こし、英語への音声翻訳などのタスクを実行するために単一のモデルに指示する特殊なトークンが混在しています。

ASR モデルの学習方法を示す詳細図

他の既存のアプローチでは、より小さく、より密接にペアリングされた音声・テキスト学習データセットを頻用するか、123大規模ながら教師なし音声事前学習を使用しています。456Whisper は大規模かつ多様なデータセットで学習し、特定のものに合わせてファインチューニングされていないため、音声認識のベンチマークとして有名な LibriSpeech の性能に特化したモデルには及ぶものではありません。ただし、Whisper のゼロショットの性能を多様なデータセットで測定してみると、これらのモデルよりも遥かにロバストで、エラーが50%少ないことが判明しました。

Whisper の音声データセットの約3分の1は英語以外の言語であり、原語での書き起こしまたは英語への翻訳のタスクが交互に与えられます。当社は、このアプローチが音声からテキストへの翻訳の学習において特に効果的であり、英語への翻訳ゼロショットにおいて CoVoST2 の教師あり SOTA を上回ることを発見しました。

読み込み中...

Whisper の高い精度と使いやすさによって、開発者がより多くの用途に音声インターフェイスを追加できるようになることを期待しています。論文(新しいウィンドウで開く)モデルカード(新しいウィンドウで開く)コード(新しいウィンドウで開く)で詳細をご覧になり、Whisper をお試しください。

参考文献

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew:Simply mix all available speech recognition data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(新しいウィンドウで開く).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M.C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J.The people’s speech:A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(新しいウィンドウで開く).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al.Gigaspeech:An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(新しいウィンドウで開く).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0:A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(新しいウィンドウで開く).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsupervised speech recognition.Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al.BigSSL:Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(新しいウィンドウで開く).