Whisper yaiku sistem automatic speech recognition (ASR) sing dilatih nganggo 680.000 jam data multibasa lan multitugas sing diawasi, dikumpulake saka web. Kita nuduhake yen panggunaan dataset sing gedhe lan manéka warna kaya iki nambah ketangguhan marang aksen, swara latar, lan basa teknis. Kajaba kuwi, iki uga ndadekake transkripsi ing pirang-pirang basa, uga terjemahan saka basa-basa kasebut menyang basa Inggris. Kita mbukak-sumberake model lan kode inferensi kanggo dadi dhasar nggawe aplikasi sing migunani lan kanggo riset luwih lanjut babagan pemrosesan wicara sing tangguh.
Arsitektur Whisper yaiku pendekatan end-to-end sing prasaja, diimplementasikake minangka encoder-decoder transformer. Audio input dipérang dadi potongan 30 detik, diowahi dadi spektrogram log-Mel, banjur dilebokake menyang encoder. Decoder dilatih kanggo ngramal katrangan teks sing cocog, dicampur karo token khusus sing nuntun model tunggal iki kanggo nindakake tugas kaya identifikasi basa, cap wektu tingkat frasa, transkripsi wicara multibasa, lan terjemahan wicara menyang basa Inggris.
Pendekatan liya sing wis ana asring nggunakake dataset latihan audio-teks sing luwih cilik lan luwih raket dipasangkan,1 2, 3 utawa nggunakake prelatihan audio sing amba nanging tanpa supervisi.4, 5, 6 Amarga Whisper dilatih nganggo dataset sing gedhe lan manéka warna lan ora di-fine-tune marang dataset tartamtu, kinerjane ora ngluwihi model sing mligi kanggo performa LibriSpeech, sawijining benchmark pangenalan wicara sing misuwur banget kompetitif. Nanging, nalika kita ngukur performa conto tanpa latihan Whisper ing akeh dataset sing manéka warna, kita nemokake yen Whisper luwih tangguh lan nggawe kesalahan 50% luwih sithik tinimbang model-model kasebut.
Kira-kira sapratelone dataset audio Whisper iku dudu basa Inggris, lan model iki kanthi gantian diwenehi tugas kanggo nranskripsi ing basa asline utawa nerjemahake menyang basa Inggris. Kita nemokake pendekatan iki utamane efektif kanggo sinau terjemahan wicara dadi teks lan ngluwihi SOTA sing diawasi ing terjemahan CoVoST2 menyang basa Inggris kanthi conto tanpa latihan.
Kita ngarep-arep akurasi Whisper sing dhuwur lan gampang dienggo bakal ngidini para pangembang nambahake antarmuka swara menyang aplikasi sing luwih akeh. Delengen makalah(mbukak ing jendhela anyar), kertu model(mbukak ing jendhela anyar), lan kode(mbukak ing jendhela anyar) kanggo sinau rincian liyane lan nyoba Whisper.
Referensi
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Cukup campur kabeh data pangenalan wicara sing kasedhiya kanggo nglatih siji jaringan saraf gedhe. Preprint arXiv arXiv:2104.02133, 2021(mbukak ing jendhela anyar).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: Dataset pangenalan wicara basa Inggris skala gedhe lan manéka warna kanggo panggunaan komersial. Preprint arXiv arXiv:2111.09344, 2021(mbukak ing jendhela anyar).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Korpus asr multi-domain sing terus berkembang kanthi 10.000 jam audio sing wis ditranskripsi. Preprint arXiv arXiv:2106.06909, 2021(mbukak ing jendhela anyar).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: Kerangka kerja kanggo sinau representasi wicara kanthi self-supervised. Preprint arXiv arXiv:2006.11477, 2020(mbukak ing jendhela anyar).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Pangenalan wicara tanpa supervisi. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Njlajah frontier sinau semi-supervised skala gedhe kanggo automatic speech recognition. Preprint arXiv arXiv:2109.13226, 2021(mbukak ing jendhela anyar).


