21 septembre 2022

Présentation de Whisper

Nous avons développé et mis en source ouverte un réseau neuronal appelé Whisper qui atteint un niveau de robustesse et de précision proche de celui d'un humain en matière de reconnaissance vocale en anglais.

Lire l’article Consulter le code Voir la fiche système

Chargement…

Chargement en cours…

Whisper est un système de reconnaissance automatique de la parole (RAP) entraîné sur 680 000 heures de données supervisées multilingues et multitâches issues du Web. Nous montrons que l’utilisation d’un jeu de données aussi vaste et diversifié améliore la robustesse face aux accents, aux bruits de fond et au langage technique. De plus, ce modèle permet la transcription audio dans plusieurs langues, ainsi que la traduction depuis ces langues vers l’anglais. Nous mettons à disposition en source ouverte des modèles et du code d'inférence qui serviront de base à la création d'applications utiles et à la poursuite des recherches sur le traitement robuste de la parole.

L’architecture de Whisper suit une approche globale simple, implémentée sous la forme d’un transformeur encodeur-décodeur. L’entrée audio est divisée en blocs de 30 secondes, qui sont ensuite convertis en spectrogramme log-mel, puis transmis à un encodeur. Un décodeur est formé à prédire le texte correspondant, au sein duquel des tokens spéciaux sont insérés pour indiquer au modèle unique d’effectuer des tâches telles que l’identification de la langue, l’horodatage au niveau des phrases, la transcription multilingue de la parole et la traduction de la parole vers l’anglais.

Diagramme présentant la formation des modèles de reconnaissance automatisée de la parole

D'autres approches existantes utilisent fréquemment des ensembles de données de formation audio-texte plus petits et plus étroitement appariés,¹ ^{2, 3} ou recourent à un pré-formation audio large mais non supervisé.^{4, 5, 6} Étant donné que Whisper a été formé sur un ensemble de données vaste et diversifié sans être affiné pour un ensemble spécifique, il ne surpasse pas les modèles spécialisés dans les performances de LibriSpeech, un point de référence célèbre pour sa compétitivité en reconnaissance vocale. En revanche, lorsque nous mesurons la performance de Whisper sur de nombreux jeux de données variés sans lui présenter d’exemple au préalable, il se montre bien plus fiable, avec 50 % d’erreurs en moins que ces autres modèles.

Environ un tiers du jeu de données audio de Whisper se compose de langues autres que l’anglais, et il doit tour à tour transcrire le son dans la langue d’origine ou le traduire en anglais. Nous avons constaté que cette approche est particulièrement efficace pour apprendre la traduction de la parole en texte. Elle surpasse les meilleurs modèles supervisés sur CoVoST2 pour la traduction vers l’anglais en mode zéro-shot.

Chargement en cours…

Nous espérons que la grande précision de Whisper et sa simplicité d’utilisation permettront aux développeurs d’ajouter des interfaces vocales à de nombreuses applications. Consultez l'article⁠(s'ouvre dans une nouvelle fenêtre), la fiche système⁠(s'ouvre dans une nouvelle fenêtre) et le code⁠(s'ouvre dans une nouvelle fenêtre) pour en savoir plus et essayer Whisper.

Références

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., et Norouzi, M. SpeechStew : Mélangez simplement toutes les données de reconnaissance vocale disponibles pour former un grand réseau neuronal. arXiv preprint arXiv:2104.02133, 2021⁠(s'ouvre dans une nouvelle fenêtre).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., et Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(s'ouvre dans une nouvelle fenêtre).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(s'ouvre dans une nouvelle fenêtre).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(s'ouvre dans une nouvelle fenêtre).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(s'ouvre dans une nouvelle fenêtre).

Articles connexes

Afficher tout

Hierarchical text-conditional image generation with CLIP latents

Publication13 avr. 2022

Solving (some) formal math olympiad problems

Étape clé2 févr. 2022

Solving math word problems

Publication29 oct. 2021