Ti presentiamo Whisper
Abbiamo addestrato e stiamo rendendo open source una rete neurale chiamata Whisper che si avvicina alla robustezza e all’accuratezza umane nel riconoscimento vocale in inglese.
Whisper è un sistema di riconoscimento vocale automatico (ASR) addestrato su 680.000 ore di dati supervisionati multilingue e multiuso raccolti dal web. L'utilizzo di un set di dati così ampio e diversificato determina una migliore capacità di gestire accenti, rumori di fondo e linguaggio tecnico. Inoltre, consente la trascrizione in più lingue e la traduzione da queste lingue all’inglese. Stiamo rendendo open source i modelli e il codice per l’inferenza affinché possano costituire una base per lo sviluppo di applicazioni utili e ulteriori ricerche sull’elaborazione vocale robusta.
L’architettura di Whisper adotta un approccio end-to-end semplice, implementato come un transformer codificatore-decodificatore. L’audio in input viene suddiviso in segmenti di 30 secondi, convertito in uno spettrogramma log-Mel e poi inviato a un codificatore. Un decodificatore viene addestrato a prevedere il testo corrispondente, con token speciali che indicano al singolo modello di eseguire attività come identificazione della lingua, inserimento di indicazioni temporali a livello di frase, trascrizione multilingue del parlato e traduzione del parlato in inglese.
Altri approcci esistenti utilizzano spesso set di dati di addestramento audio-testo più piccoli e strettamente allineati1 2 e 3 oppure un pre-addestramento audio ampio ma non supervisionato4, 5 e 6. Poiché Whisper è stato addestrato su un set di dati ampio e variegato, senza essere ottimizzato per nessun set in particolare, non supera i modelli specializzati nelle prestazioni su LibriSpeech, un benchmark notoriamente competitivo per il riconoscimento vocale. Tuttavia, quando misuriamo le prestazioni zero-shot di Whisper su numerosi set di dati diversi, risulta molto più robusto e commette il 50% di errori in meno rispetto a quei modelli.
Circa un terzo del set di dati audio di Whisper è composto da dati in lingue diverse dall’inglese e al modello viene assegnato alternativamente il compito di trascrivere nella lingua originale o di tradurre in inglese. Abbiamo riscontrato che questo approccio è particolarmente efficace nell'apprendimento della traduzione da parlato a testo e supera in modalità zero-shot i migliori modelli supervisionati nella traduzione in inglese nel benchmark CoVoST2.
Ci auguriamo che l’elevata accuratezza di Whisper e la sua facilità d’uso permettano agli sviluppatori di aggiungere interfacce vocali a un insieme molto più ampio di applicazioni. Per scoprire ulteriori dettagli e provare Whisper, consulta il paper(si apre in una nuova finestra), la scheda del modello(si apre in una nuova finestra) e il codice(si apre in una nuova finestra).
Riferimenti
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(si apre in una nuova finestra).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(si apre in una nuova finestra).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(si apre in una nuova finestra).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(si apre in una nuova finestra).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(si apre in una nuova finestra).


