Presentamos a Whisper
Hemos entrenado una red neuronal de código abierto llamada Whisper, cuya fiabilidad y precisión del reconocimiento de enunciados en inglés se parece al de la comprensión humana.
Whisper es un sistema de reconocimiento automático del habla (ASR), entrenado con 680 000 horas de datos multilingües y multitarea supervisados que se recopilaron en la web. Mostramos que el uso de un conjunto de datos tan grande y diverso mejora el rendimiento en términos de acentos, ruido de fondo y lenguaje técnico. Además, permite la transcripción en varios idiomas y la traducción de dichos idiomas al inglés. Son modelos de código abierto y código de inferencia que sirven como base para desarrollar aplicaciones prácticas e impulsar la investigación de un procesamiento sólido del habla.
La arquitectura de Whisper es un enfoque simple de punto a punto implementado como un transformador codificador-decodificador. El audio de entrada se divide en fragmentos de 30 segundos, se convierte en un espectrograma log-Mel y luego se pasa a un codificador. Se entrena un decodificador para predecir el subtítulo de texto correspondiente, mezclado con tokens especiales que dirigen al modelo simple para realizar tareas como identificación de idioma, marcas de tiempo a nivel de frase, transcripción de habla multilingüe y traducción de habla al inglés.
Otros enfoques existentes utilizan con frecuencia conjuntos de datos de entrenamiento de audio-texto más pequeños y emparejados más estrechamente,1, 2 y 3 o usan entrenamiento previo de audio amplio, pero no supervisado.4, 5 y 6 Dado que Whisper se entrenó con un conjunto de datos grande y diverso, y no se hizo un ajuste de precisión a ninguno en específico, no es superior a los modelos que se especializan en el desempeño de LibriSpeech, un famoso punto de referencia competitivo en reconocimiento del habla. Sin embargo, cuando medimos el desempeño zero-shot de Whisper respecto a numerosos conjuntos de datos diversos, descubrimos que es mucho más sólido y comete un 50 % menos de errores que dichos modelos.
Cerca de un tercio del conjunto de datos de audio de Whisper no está en inglés y tiene la alternativa de transcribir en el idioma original o traducir al inglés. Consideramos este enfoque especialmente eficaz en el aprendizaje de la traducción de voz a texto y supera al SOTA supervisado en CoVoST2 para la traducción al inglés zero-shot.
Esperamos que la alta precisión y facilidad de uso de Whisper permitan a los desarrolladores agregar interfaces de voz a un conjunto mucho más amplio de aplicaciones. Consulta el documento(se abre en una nueva ventana), la tarjeta de modelo(se abre en una nueva ventana) y el código(se abre en una nueva ventana) para obtener información más detallada y probar Whisper.
Referencias
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. y Norouzi, M. SpeechStew: Simply mix all available speech recognition data to train one large neural network. Preimpresión de arXiv, arXiv:2104.02133, 2021(se abre en una nueva ventana).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. y Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. Preimpresión de arXiv, arXiv:2111.09344, 2021(se abre en una nueva ventana).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. Preimpresión de arXiv, arXiv:2106.06909, 2021(se abre en una nueva ventana).
- 4
Baevski, A., Zhou, H., Mohamed, A. y Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. Preimpresión de arXiv, arXiv:2006.11477, 2020(se abre en una nueva ventana).
- 5
Baevski, A., Hsu, W.N., Conneau, A. y Auli, M. Unsupervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. Preimpresión de arXiv, arXiv:2109.13226, 2021(se abre en una nueva ventana).