U bood nuxurka ugu muhiimsan
OpenAI
Soo raraya...

Whisper waa nidaam aqoonsiga hadalka tooska ah (ASR) oo lagu tababaray 680,000 saacadood oo xog la kormeero ah oo afaf badan iyo hawlo badan leh, lagana soo ururiyey webka. Waxaan muujinaynaa in adeegsiga xog sidan u weyn oo kala duwan ay horseeddo adkaysi ka wanaagsan lahjadaha, qaylada gadaasha, iyo luqadda farsamada. Intaa waxaa dheer, waxay suurtagelisaa qoraal-u-rogis luqado badan ah, iyo sidoo kale turjumaad luqadahaas laga sameeyo loona beddelo Ingiriisi. Waxaan si furan u sii-daynaynaa noocyo iyo koodhka inference-ka si ay saldhig ugu noqdaan dhisidda barnaamijyo waxtar leh iyo cilmi-baaris dheeraad ah oo ku saabsan habaynta hadalka adkaysiga leh.

Soo koobidda qaab-dhismeedka nooca ASR

Qaab-dhismeedka Whisper waa hab fudud oo dhammaad-ilaa-dhammaad ah, waxaana loo hirgeliyey sidii encoder-decoder transformer. Codka gelinta ah waxaa loo kala jebiyaa qaybo 30-ilbiriqsi ah, waxaa loo beddelaa log-Mel spectrogram, dabadeedna waxaa loo gudbiyaa encoder. Decoder ayaa loo tababaraa inuu saadaaliyo qoraalka u dhigma, iyadoo lagu dhex daray token-yo gaar ah oo ku haga hal nooc inuu qabto hawlo sida aqoonsiga luqadda, waqti-calaamadaha heer weedh, qoraal-u-rogista hadalka afaf badan, iyo turjumaadda hadalka ee Ingiriisiga.

Jaantus faahfaahinaya sida noocyada ASR loo tababaro

Habab kale oo jira badanaa waxay adeegsadaan ururinno xog tababar maqal-qoraal ah oo yaryar oo si dhow isugu lammaan,1 2, 3 ama waxay isticmaalaan tababar-hore maqal ah oo ballaaran balse aan la kormeerin.4, 5, 6 Maaddaama Whisper lagu tababaray xog weyn oo kala duwan oo aan lagu sii hagaajin mid gaar ah, kama fiicna noocyada ku takhasusay waxqabadka LibriSpeech, oo ah halbeeg si weyn loogu tartamo oo caan ku ah aqoonsiga hadalka. Hase yeeshee, marka aan cabbirno waxqabadka tooska ah ee Whisper ee xog-ururinno badan oo kala duwan, waxaan ogaannaa inuu aad uga adkaysi badan yahay oo uu sameeyo khaladaad 50% ka yar noocyadaas.

Qiyaastii saddex-meelood meel xogta maqalka ee Whisper waa aan-Ingiriisi ahayn, waxaana marna la siiyaa hawsha qoraal-u-rogista luqaddii asalka ahayd ama turjumaadda Ingiriisiga. Waxaan ogaanay in habkani si gaar ah ugu waxtar leeyahay barashada turjumaadda hadal-ilaa-qoraal, isla markaana uu ka sarreeyo SOTA-da la kormeero ee turjumaadda CoVoST2 ilaa Ingiriisiga ee waxqabadka tooska ah.

Soo raraya...

Waxaan rajaynaynaa in saxnaanta sare iyo fudaydka adeegsiga Whisper ay u oggolaan doonaan horumariyeyaasha inay ku daraan isdhexgallada codka barnaamijyo aad uga tiro badan. Eeg warqadda(ku furmaa daaqad cusub), kaadhka nooca(ku furmaa daaqad cusub), iyo koodhka(ku furmaa daaqad cusub) si aad u barato faahfaahin dheeraad ah oo aad u tijaabiso Whisper.

Tixraacyo

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Si fudud isugu qas dhammaan xogta aqoonsiga hadalka ee la heli karo si loo tababaro hal shabakad neerfeed oo weyn. Daabacaadda hore ee arXiv arXiv:2104.02133, 2021(ku furmaa daaqad cusub).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: Ururin aqoonsiga hadalka Ingiriisiga oo baaxad weyn oo kala duwan leh oo loogu talagalay adeegsi ganacsi. Daabacaadda hore ee arXiv arXiv:2111.09344, 2021(ku furmaa daaqad cusub).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Korpus asr oo isbeddelaya, dhinacyo badan leh, oo wata 10,000 saacadood oo maqal la qoraal-rogey. Daabacaadda hore ee arXiv arXiv:2106.06909, 2021(ku furmaa daaqad cusub).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: Qaab-dhismeed loogu talagalay barashada is-kormeerka ah ee matalaadaha hadalka. Daabacaadda hore ee arXiv arXiv:2006.11477, 2020(ku furmaa daaqad cusub).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Aqoonsiga hadalka aan la kormeerin. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Sahminta xadka ugu casriyeysan ee barashada nus-kormeerka ah ee baaxadda weyn loogu talagalay aqoonsiga hadalka tooska ah. Daabacaadda hore ee arXiv arXiv:2109.13226, 2021(ku furmaa daaqad cusub).