Whisper és un sistema de reconeixement automàtic de la parla (ASR) entrenat amb 680.000 hores de dades supervisades multilingües i multitasca recopilades del web. Mostrem que l'ús d'un conjunt de dades tan gran i divers comporta una millor robustesa davant dels accents, el soroll de fons i el llenguatge tècnic. A més, permet la transcripció en diverses llengües, així com la traducció d'aquestes llengües a l'anglès. Publiquem en codi obert els models i el codi d'inferència perquè serveixin de base per crear aplicacions útils i per continuar investigant sobre el processament robust de la parla.
L'arquitectura de Whisper és un enfocament simple d'extrem a extrem, implementat com un transformador codificador-descodificador. L'àudio d'entrada es divideix en fragments de 30 segons, es converteix en un espectrograma log-Mel i després es passa a un codificador. S'entrena un descodificador perquè prevegi el subtítol de text corresponent, barrejat amb segments especials que indiquen a l'únic model que faci tasques com ara la identificació de l'idioma, marques de temps a nivell de frase, transcripció multilingüe de la parla i traducció a l'anglès de la parla.
Altres enfocaments existents sovint utilitzen conjunts de dades d'entrenament d'àudio i text més petits i més estretament aparellats,1 2 i 3 o bé fan un preentrenament ampli d'àudio, però no supervisat.4, 5 i 6 Com que Whisper es va entrenar amb un conjunt de dades gran i divers i no es va ajustar per a cap conjunt específic, no supera els models especialitzats en el rendiment a LibriSpeech, un banc de proves famosament competitiu en reconeixement de la parla. Tanmateix, quan mesurem el rendiment sense exemples de Whisper en molts conjunts de dades diversos, veiem que és molt més robust i comet un 50% menys d'errors que aquests models.
Al voltant d'un terç del conjunt de dades d'àudio de Whisper no és en anglès, i se li assigna alternativament la tasca de transcriure en la llengua original o de traduir a l'anglès. Hem vist que aquest enfocament és especialment efectiu per aprendre la traducció de parla a text i supera l'estat de l'art supervisat en la traducció a l'anglès de CoVoST2 sense exemples.
Esperem que l'alta precisió i la facilitat d'ús de Whisper permetin als desenvolupadors afegir interfícies de veu a un ventall molt més ampli d'aplicacions. Consulteu l'article(s'obre en una finestra nova), la fitxa del model(s'obre en una finestra nova) i el codi(s'obre en una finestra nova) per conèixer-ne més detalls i provar Whisper.
Referències
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. i Norouzi, M. SpeechStew: Simplement barrejar totes les dades de reconeixement de la parla disponibles per entrenar una gran xarxa neuronal. Prepublicació d'arXiv arXiv:2104.02133, 2021(s'obre en una finestra nova).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. i Reddi, V. J. The people’s speech: Un conjunt de dades de reconeixement de la parla en anglès, divers i a gran escala, per a ús comercial. Prepublicació d'arXiv arXiv:2111.09344, 2021(s'obre en una finestra nova).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J. i altres. Gigaspeech: Un corpus ASR en evolució i multidomini amb 10.000 hores d'àudio transcrit. Prepublicació d'arXiv arXiv:2106.06909, 2021(s'obre en una finestra nova).
- 4
Baevski, A., Zhou, H., Mohamed, A. i Auli, M. wav2vec 2.0: Un marc per a l'aprenentatge autosupervisat de representacions de la parla. Prepublicació d'arXiv arXiv:2006.11477, 2020(s'obre en una finestra nova).
- 5
Baevski, A., Hsu, W.N., Conneau, A. i Auli, M. Reconeixement de la parla no supervisat. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S. i altres. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. Prepublicació d'arXiv arXiv:2109.13226, 2021(s'obre en una finestra nova).


