21 Eylül 2022

Karşınızda Whisper

İngilizce konuşmayı tanıma konusunda insanlarla aynı düzeyde anlayışa ve kesinliğe yaklaşan Whisper adlı nöral ağı eğittik ve açık kaynak olarak paylaşıyoruz.

Makaleyi oku Kodu görüntüle Model kartını görüntüle

Yükleniyor...

Otomatik konuşma tanıma (ASR) sistemimiz Whisper, birçok farklı dilde ve görevde 680.000 saatlik internetten toplanmış denetimli veri kullanılarak eğitildi. Kullanılan veri setinin böylesine büyük ve çeşitli olmasının lehçeler ve ağızlar, arka plan gürültüsü ve teknik dil kullanımı açısından anlayışı artırdığını gösterdik. Ayrıca, birçok dilde metin deşifresine ve bu dillerden İngilizceye çeviri yapılmasına olanak tanıyor. Kullanışlı uygulamaların geliştirilmesi ve yüksek anlayışlı konuşma işleme alanlarında araştırmalara temel oluşturması için modelleri ve çıkarım kodlarını açık kaynak olarak yayınlıyoruz.

Whisper mimarisi uçtan uca çalışan basit bir yaklaşımla, kodlayıcı-kod çözücü bir Transformer şeklinde uygulandı. Bu yöntemde, girilen ses verileri 30 saniyelik parçalara bölünür, log-Mel spektrogramına dönüştürülür ve ardından bir kodlayıcıya iletilir. Bir kod çözücü ilgili metin açıklamasını tahmin etmek üzere eğitilir ve bu sürecin farklı aşamalarında dil tanıma, cümle düzeyinde zaman damgaları ekleme, farklı dillerdeki konuşmaları deşifre etme ve bunları İngilizceye çevirme gibi görevlerin tekil model tarafından yapılması amacıyla özel tokenler kullanılır.

ASR modellerinin nasıl eğitildiğini gösteren diyagram

Mevcut diğer yaklaşımlarda sıklıkla daha küçük, daha yakından eşleştirilmiş ses-metin eğitimi veri setleri¹ ^{2, 3} ya da daha geniş kapsamlı ancak denetlenmeyen ses ön eğitimi^{4, 5, 6} kullanılır. Whisper çok geniş ve çeşitlilik sergileyen bir veri setiyle eğitildiği ve belirli bir veri setine ince ayarlanmadığı için, konuşma tanıma alanında son derece rekabetçi bir benchmark testi olarak tanınan LibriSpeech performance testinde uzmanlaşmış modeller kadar iyi performans göstermiyor. Ancak Whisper’ın sıfır örnekli (zero-shot) öğrenme performansını çok farklı veri setleri ile ölçtüğümüzde, çok daha başarılı olduğunu ve bu modellere kıyasla %50 daha az hata yaptığını gördük.

Whisper’ın ses veri setinin yaklaşık üçte biri İngilizce dışındaki dillerden geliyor ve modele dönüşümlü olarak orijinal dilde deşifre veya İngilizceye çevirme görevleri veriliyor. Bu yaklaşımın konuşmadan metne çeviriyi öğrenme alanında özellikle etkili olduğunu ve CoVoST2 veri setinden İngilizceye sıfır örnekli (zero-shot) çeviride Whisper’ın denetimli en son modellere kıyasla daha iyi performans gösterdiğini gözlemledik.

Yükleniyor...

Whisper’ın yüksek doğruluk oranı ve kullanım kolaylığı sayesinde, geliştiricilerin çok daha çeşitli uygulamalara ses arayüzü ekleyebileceğini umuyoruz. Daha fazla bilgi almak ve Whisper’ı denemek için makaleye⁠(yeni bir pencerede açılır), model kartına⁠(yeni bir pencerede açılır) ve koda⁠(yeni bir pencerede açılır) göz at.

Referanslar

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(yeni bir pencerede açılır).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(yeni bir pencerede açılır).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(yeni bir pencerede açılır).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(yeni bir pencerede açılır).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(yeni bir pencerede açılır).

İlgili makaleler

Tümünü görüntüle

Hierarchical text-conditional image generation with CLIP latents

Yayın13 Nis 2022

Solving (some) formal math olympiad problems

Dönüm Noktası2 Şub 2022

Solving math word problems

Yayın29 Eki 2021