Tunawaletea Whisper
Tumeunda na kufungua chanzo cha mtandao wa neva unaoitwa Whisper, ambao unakaribia uwezo wa binadamu katika uimara na usahihi wa utambuzi wa hotuba ya Kiingereza.
Whisper ni mfumo wa utambuzi wa hotuba wa kiotomatiki (ASR) uliofunzwa kwa masaa 680,000 ya data ya lugha nyingi na kazi nyingi zinazosimamiwa zilizokusanywa kutoka kwenye wavuti. Tunaonyesha kwamba matumizi ya mkusanyiko mkubwa na tofauti wa data kama huu husababisha kuboreshwa kwa uimara dhidi ya lafudhi, kelele za mandharinyuma na lugha ya kiufundi. Zaidi ya hayo, huwezesha unukuzi katika lugha nyingi, pamoja na tafsiri kutoka lugha hizo hadi Kiingereza. Tunafungua chanzo cha miundo na msimbo wa uhitimishaji kwa umma ili itumike kama msingi wa kuunda programu muhimu na kwa utafiti zaidi kuhusu uchakataji thabiti wa hotuba.
Usanifu wa Whisper ni mbinu rahisi ya mwisho hadi mwisho, inayotekelezwa kama Transfoma ya kusimba-kusimbua. Sauti ya ingizo hugawanywa katika vipande vya sekunde 30, inabadilishwa kuwa spektrogramu ya log-Mel na kisha inapitishwa kwenye kisimbaji. Kisimbuaji kimepewa mafunzo kubashiri maelezo ya maandishi yanayolingana, yaliyochanganywa na tokeni maalum zinazouelekeza muundo mmoja kutekeleza shughuli kama vile utambulisho wa lugha, mihuri ya muda ya kiwango cha maneno, unukuzi wa hotuba za lugha nyingi na tafsiri ya hotuba kwa Kiingereza.
Mbinu zingine zilizopo mara nyingi hutumia seti ndogo, zilizoanishwa kwa karibu zaidi za mafunzo ya maandishi ya sauti, 1 2 3 au hutumia mafunzo mapana lakini yasiyosimamiwa ya awali ya sauti. 4 5 6 Kwa sababu Whisper ilifundishwa kwenye seti kubwa na tofauti ya data na haikufanyiwa marekebisho maalum kwa yoyote, haishindi miundo inayobobea katika utendaji wa LibriSpeech, kiwango maarufu cha ushindani katika utambuzi wa hotuba. Hata hivyo, tunapopima uwezo wa Whisper wa kufanya kazi bila mafunzo maalum katika seti nyingi na tofauti za data, tunagundua kuwa ni imara zaidi na hufanya makosa machache kwa asilimia 50 ikilinganishwa na miundo hiyo mingine.
Theluthi moja ya seti ya data ya sauti ya Whisper si ya Kiingereza na kwa kubadilishana hupewa shughuli ya kuandika kwa lugha ya asili au kutafsiri hadi Kiingereza. Tunaona mbinu hii ni bora sana katika kujifunza kutafsiri hotuba kuwa maandishi na inazidi utendaji wa SOTA inayosimamiwa kwenye CoVoST2 kwa tafsiri ya Kiingereza bila mafunzo ya maalum.
Tunatumai kuwa usahihi wa hali ya juu wa Whisper na urahisi wa matumizi utawaruhusu wasanidi programu kuongeza violesura vya sauti kwenye seti pana zaidi ya programu. Tazama karatasi(fungua katika dirisha jipya), kadi ya muundo(fungua katika dirisha jipya) na msimbo(fungua katika dirisha jipya) ili kupata maelezo zaidi na kujaribu Whisper.
Marejeleo
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. na Norouzi, M. SpeechStew: Changanya tu data zote za utambuzi wa hotuba zinazopatikana ili ufunze mtandao mmoja mkubwa wa neva. arXiv preprint arXiv:2104.02133, 2021(fungua katika dirisha jipya).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. na Reddi, V. J. Hotuba ya watu: Seti kubwa na tofauti ya data ya utambuzi wa usemi wa Kiingereza kwa matumizi ya kibiashara. arXiv preprint arXiv:2111.09344, 2021(fungua katika dirisha jipya).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Mkusanyiko wa asr unaobadilika, wa vikoa vingi na saa 10,000 za sauti iliyonakiliwa. arXiv preprint arXiv:2106.06909, 2021(fungua katika dirisha jipya).
- 4
Baevski, A., Zhou, H., Mohamed, A., na Auli, M. wav2vec 2.0: Mfumo wa ujifunzaji usiosimamiwa wa uwakilishi wa hotuba. arXiv preprint arXiv:2006.11477, 2020(fungua katika dirisha jipya).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Kugundua mipaka ya ujifunzaji wa kiwango kikubwa unaosimamiwa nusu kwa utambuzi wa usemi wa kiotomatiki. arXiv preprint arXiv:2109.13226, 2021(fungua katika dirisha jipya).


