21 septembre 2022

Nouveau : Whisper

Nous avons entraîné un réseau de neurones artificiels, Whisper, et le publions sous licence open-source. Il se rapproche du niveau de fiabilité et de précision des êtres humains en matière de reconnaissance vocale de l’anglais.

Lire l’article Voir le code Voir la fiche du modèle

Chargement...

Chargement en cours...

Whisper est un système de reconnaissance automatique de la parole entraîné sur 680 000 heures de données supervisées. Issues du Web, ces données regroupent plusieurs langues et portent sur des tâches diverses. Avec ce modèle, nous démontrons que l’utilisation d’un jeu de données aussi étendu et diversifié améliore la fiabilité de la reconnaissance des accents, des bruits de fond et des termes techniques. De plus, ce modèle permet la transcription audio dans plusieurs langues, ainsi que la traduction depuis ces langues vers l’anglais. Nous publions le modèle et le code d’inférence sous licence open source pour permettre la création d’applications utiles et de nouvelles recherches sur la fiabilisation du traitement de la parole.

L’architecture de Whisper suit une approche globale simple, implémentée sous la forme d’un transformeur encodeur-décodeur. L’entrée audio est divisée en blocs de 30 secondes, qui sont ensuite convertis en spectrogramme log-mel, puis transmis à un encodeur. Un décodeur est entraîné à prédire le texte correspondant, au sein duquel des jetons spéciaux sont ajoutés pour indiquer au modèle d’effectuer des tâches comme identifier la langue, créer des horodatages pour chaque phrase, assurer une transcription dans plusieurs langues et effectuer une traduction en anglais.

Diagramme présentant l’entraînement des modèles de reconnaissance automatisée de la parole

Les autres approches utilisent souvent des jeux de données d’entraînement plus restreints et associant plus étroitement le texte et le son.¹ ^{2, 3} D’autres s’appuient sur un pré-entraînement à partir de données audio étendues, mais non supervisées.^{4, 5, 6} Whisper a été entraîné sur un jeu de données étendu et diversifié, et n’a pas été affiné pour des données spécifiques. Par conséquent il n’est pas plus performant que les modèles spécialisés sur le corpus LibriSpeech, l’évaluation de référence en matière de reconnaissance de la parole. En revanche, lorsque nous mesurons la performance de Whisper sur de nombreux jeux de données variés sans lui présenter d’exemple au préalable, il se montre bien plus fiable, avec 50 % d’erreurs en moins que ces autres modèles.

Environ un tiers du jeu de données audio de Whisper se compose de langues autres que l’anglais, et il doit tour à tour transcrire le son dans la langue d’origine ou le traduire en anglais. Nous avons constaté que cette approche est particulièrement efficace pour la traduction de paroles en texte. Whisper se montre ainsi plus performant pour la traduction vers l’anglais que les meilleurs modèles entraînés sur CoVoST2 alors qu’il n’a pas été ajusté pour ces données.

Chargement en cours...

Nous espérons que la grande précision de Whisper et sa simplicité d’utilisation permettront aux développeurs d’ajouter des interfaces vocales à de nombreuses applications. Consultez notre article⁠(ouverture dans une nouvelle fenêtre), la fiche du modèle⁠(ouverture dans une nouvelle fenêtre) et le code⁠(ouverture dans une nouvelle fenêtre) pour en savoir plus sur Whisper et le mettre à l’épreuve.

Références

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(ouverture dans une nouvelle fenêtre).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(ouverture dans une nouvelle fenêtre).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(ouverture dans une nouvelle fenêtre).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(ouverture dans une nouvelle fenêtre).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(ouverture dans une nouvelle fenêtre).

Articles liés

Tout afficher

Hierarchical text-conditional image generation with CLIP latents

Publication13 avr. 2022

Solving (some) formal math olympiad problems

Étape clé2 févr. 2022

Solving math word problems

Publication29 oct. 2021