Saltar para o conteúdo principal
OpenAI

21 de setembro de 2022

Lançamento

Apresentamos o Whisper

Treinámos e estamos a disponibilizar em código aberto uma rede neural chamada Whisper, que se aproxima do nível humano em termos de robustez e precisão no reconhecimento de fala em inglês.

A carregar…
A carregar...

O Whisper é um sistema de reconhecimento automático de fala (ASR) treinado com 680 mil horas de dados supervisionados multilíngues e multitarefas, recolhidos da web. Demonstramos que o uso de um conjunto de dados tão grande e diversificado leva a uma maior robustez em relação a sotaques, ruídos de fundo e linguagem técnica. Além disso, permite a transcrição em várias línguas, bem como a tradução dessas línguas para inglês. Estamos a disponibilizar modelos e códigos de inferência em código aberto para servir como base para a criação de aplicações úteis e para futuras investigações sobre processamento robusto de fala.

Resumo da arquitetura do modelo ASR

A arquitetura Whisper é uma abordagem simples de ponta a ponta, implementada como um transformador codificador-descodificador. A entrada de áudio é dividida em segmentos de 30 segundos, convertida num espectrograma log-Mel e enviada depois para um codificador. Um descodificador é treinado para prever a legenda de texto correspondente, intercalada com tokens especiais que orientam o modelo único para executar tarefas como a identificação de línguas, registos de tempo a nível da frase, transcrição de fala multilingue e tradução de fala para inglês.

Diagrama que detalha como os modelos de ASR são treinados

Outras abordagens existentes utilizam frequentemente conjuntos de dados de treino áudio-texto mais pequenos e parecidos,1 2, 3 ou utilizam pré-treino de áudio amplo, mas não supervisionado.4, 5, 6 Como o Whisper foi treinado num conjunto de dados amplo e diversificado, e não foi ajustado para nenhum conjunto específico, não supera os modelos especializados em desempenho do LibriSpeech, um benchmark famoso por ser competitivo em reconhecimento de fala. No entanto, ao avaliarmos o desempenho zero-shot do Whisper em diversos conjuntos de dados, verificámos que é muito mais robusto e comete 50% menos erros do que estes modelos.

Cerca de um terço do conjunto de dados áudio do Whisper não é em inglês, e é-lhe solicitado que transcreva na língua original ou traduza para inglês. Consideramos que esta abordagem é particularmente eficaz na aprendizagem da tradução de fala para texto e supera o SOTA supervisionado no CoVoST2 para tradução zero-shot para inglês.

A carregar...

Esperamos que, com a alta precisão e facilidade de uso do Whisper, os programadores possam adicionar interfaces de voz a um conjunto muito mais amplo de aplicações. Consulta o artigo(abre numa nova janela), o cartão do modelo(abre numa nova janela) e o código(abre numa nova janela) para saber mais detalhes e experimentar o Whisper.

Referências

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(abre numa nova janela).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., e Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(abre numa nova janela).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(abre numa nova janela).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A. e Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(abre numa nova janela).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsupervised Speech Recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(abre numa nova janela).