Presentamos Whisper
Hemos entrenado una red neuronal de código abierto llamada Whisper que se acerca a la capacidad y la precisión humanas en el reconocimiento de voz en inglés.
Whisper es un sistema de reconocimiento de voz (ASR) automático entrenado con 680 000 horas de datos multilingües supervisados recopilados de internet. Hemos demostrado que el uso de un conjunto de datos tan amplio y diverso mejora la fiabilidad frente a los acentos, al ruido de fondo y al lenguaje técnico. Además, habilita la transcripción en varios idiomas y, también, la traducción de esos idiomas al inglés. Estamos haciendo que los modelos y el código de inferencia sean de código abierto para que sirvan de base para crear aplicaciones útiles y nuevas investigaciones sobre el procesamiento fiable del la voz.
La arquitectura de Whisper consiste en un sencillo enfoque de extremo a extremo que se implementa a modo de transformador codificador-descodificador. La entrada de audio se divide en segmentos de treinta segundos, se convierte en un espectrograma log-Mel y se pasa a un codificador. El descodificador se entrena para predecir la leyenda de texto correspondiente combinado con tokens especiales que dirigen el modelo único para que lleve a cabo tareas como la identificación del idioma, las marcas de tiempo en las frases, la transcripción multilingüe de voz y la traducción de voz al inglés.
Existen otros enfoques que, con frecuencia, utilizan conjuntos de datos de entrenamiento de audio y texto más pequeños y emparejados1, 2 y 3 o usan un entrenamiento de audio más amplio pero no supervisado.4, 5 y 6 Puesto que Whisper se ha entrenado con un conjunto de datos amplio y diverso, y no se ha optimizado para ninguno en concreto, no es capaz de superar a los modelos especializados en el rendimiento de LibriSpeech, una famosa y reputada herramienta de referencia en el reconocimiento de voz. No obstante, cuando medimos el rendimiento zero-shot de Whisper en muchos conjuntos de datos diversos, comprobamos que es mucho más fiable y comete un 50 % menos de errores que esos modelos.
Alrededor de un tercio del conjunto de datos de audio de Whisper no está en inglés. Además, alternativamente, se le asigna la tarea de transcribir en el idioma original o traducir al inglés. Hemos descubierto que este enfoque es especialmente eficaz para el aprendizaje de la traducción de voz a texto, y supera el rendimiento del SOTA supervisado en la traducción zero-shot de CoVoST2 a inglés.
Tenemos la esperanza de que la gran precisión y la facilidad de uso que ofrece Whisper permita a los desarrolladores incluir interfaces de voz a un conjunto mucho más amplio de aplicaciones. Echa un vistazo al artículo(se abre en una ventana nueva), la tarjeta del modelo(se abre en una ventana nueva) y el código(se abre en una ventana nueva) para conocer más detalles y probar Whisper.
Referencias
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. y Norouzi, M. SpeechStew: Simply mix all available speech recognition data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(se abre en una ventana nueva).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. y Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(se abre en una ventana nueva).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(se abre en una ventana nueva).
- 4
Baevski, A., Zhou, H., Mohamed, A. y Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(se abre en una ventana nueva).
- 5
Baevski, A., Hsu, W.N., Conneau, A. y Auli, M. Unsupervised speech recognition. Advances in Neural Information Processing Systems 34:27826 (27839, 2021).
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(se abre en una ventana nueva).


