메인 콘텐츠로 건너뛰기
OpenAI

2022년 9월 21일

릴리스

Whisper를 소개합니다

Whisper는 영어 발화 인지에서 인간 수준의 견고함과 정확성에 근접하는, OpenAI가 훈련한 오픈 소스 인공 신경망입니다.

로딩 중...
로딩 중...

Whisper는 웹에서 여러 언어와 다중 작업에 걸쳐 수집한 68만 시간 분량의 지도 데이터로 훈련된 자동 음성 인식(ASR) 시스템입니다. 이렇게 방대하고 다양한 데이터세트를 활용하여 억양, 배경 소음 및 기술적 언어에 대한 정확성을 향상했습니다. 그뿐만 아니라, 다양한 언어로 받아쓰기를 할 수 있으며 여러 언어를 영어로 번역할 수 있습니다. OpenAI는 유용한 애플리케이션 개발을 위해, 그리고 견고한 음성 처리에 관한 심층 연구를 위해 기반이 될 수 있도록 모델과 추론 코드를 오픈 소스로 공개하고 있습니다.

모델 아키텍처의 ASR 요약

Whisper 아키텍처는 단순한 엔드투엔드 접근 방식으로, 인코더-디코더 트랜스포머로서 구현되었습니다. 입력 오디오는 30초 길이의 청크로 나누어지고 로그-멜 스펙토그램으로 변환되어 인코더로 넘어갑니다. 디코더는 일치하는 텍스트 캡션을 예측하도록 훈련되며 언어 식별, 구문 수준 타임스탬프, 다중 언어 음성 받아쓰기, 타 언어-영어 음성 번역 등의 작업을 수행하도록 단일 모델에 지시하는 특수 토큰과 결합됩니다.

ASR 모델의 훈련 방식을 자세히 보여주는 다이어그램

기존의 다른 접근 방식은 흔히 더 근접하게 짝지어진 더 작은 규모의 오디오-텍스트 훈련 데이터세트1 23를 사용하거나 광범위하지만 비지도형인 오디오 사전 훈련을 사용합니다.4, 56 Whisper는 방대하고 다양한 데이터세트를 통해 훈련되었으며 특정 데이터세트에 대한 파인 튜닝을 거치지 않았기 때문에, 음성 인식 분야에서 유명한 경쟁 벤치마크인 LibriSpeech 성능에 특화된 모델을 능가하지 못합니다. 하지만 다양한 데이터세트에 걸친 Whisper의 제로 샷 성능을 측정한 결과, 이러한 모델보다 오류 발생이 50% 더 적고 훨씬 더 정확하다는 점이 확인되었습니다.

Whisper의 오디오 데이터세트 중 1/3은 영어가 아니며, 원래 언어를 받아쓰기하거나 영어로 번역하는 작업이 번갈아 가며 주어집니다. 이러한 접근 방식은 음성-텍스트 변환을 학습하는 데 특히 효과적이며, 영어 번역 제로 샷에서 CoVoST2의 지도 SOTA보다 뛰어난 성능을 보여줍니다.

로딩 중...

Whisper의 고도의 정확성과 간편한 사용법을 통해 개발자가 음성 인터페이스를 추가하여 애플리케이션의 영역을 확장할 수 있기를 바랍니다. 자세한 내용을 확인하고 Whisper를 사용해 보려면 논문(새 창에서 열기), 모델 카드(새 창에서 열기), 코드(새 창에서 열기)를 참조하세요.

참고 자료

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(새 창에서 열기).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(새 창에서 열기).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(새 창에서 열기).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(새 창에서 열기).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(새 창에서 열기).