Is córas uathoibríoch aithinte cainte (ASR) é Whisper atá oilte ar 680,000 uair an chloig de shonraí ilteangacha maoirsithe iltascacha a bailíodh ón ngréasán. Taispeánaimid go mbíonn iontaofacht níos fearr i leith canúintí, torainn chúlra agus teanga theicniúil mar thoradh ar úsáid tacar sonraí chomh mór agus chomh héagsúil sin. Ina theannta sin, cuireann sé ar chumas tras-scríobh i dteangacha éagsúla, chomh maith le haistriúchán ó na teangacha sin go Béarla. Táimid ag cur samhlacha agus cód tátail ar fáil mar fhoinse oscailte chun bheith mar bhunús le feidhmchláir úsáideacha a thógáil agus le tuilleadh taighde ar phróiseáil láidir cainte.
Is cur chuige simplí ceann go ceann í ailtireacht Whisper, curtha i bhfeidhm mar Thrasfhoirmitheoir ionchódóra-díchódóra. Roinntear an fhuaim ionchuir ina codanna 30 soicind, tiontaítear í go speictreamghram log-Mel, agus ansin seoltar chuig ionchódóir í. Cuirtear oiliúint ar dhíchódóir chun an fotheideal téacs comhfhreagrach a thuar, measctha le téacschomharthaí speisialta a threoraíonn an tsamhail aonair chun tascanna a dhéanamh amhail aithint teanga, stampaí ama ag leibhéal frásaí, tras-scríobh cainte ilteangach, agus aistriúchán cainte go Béarla.
Is minic a úsáideann cur chuige eile atá ann cheana tacair sonraí oiliúna fuaime-téacs níos lú agus níos dlúithe péireáilte,1 2, 3 nó úsáideann siad réamhoiliúint fuaime leathan ach neamh-mhaoirsithe.4, 5, 6 Toisc gur cuireadh oiliúint ar Whisper ar thacar sonraí mór agus éagsúil agus nár mionchoigeartaíodh é d’aon tacar ar leith, ní sháraíonn sé samhlacha a dhéanann speisialtóireacht ar fheidhmíocht LibriSpeech, tagarmharc aitheanta an-iomaíoch in aithint cainte. Mar sin féin, nuair a thomhaisimid feidhmíocht neamh-iarracht Whisper thar go leor tacar sonraí éagsúil, feicimid go bhfuil sé i bhfad níos athléimní agus go ndéanann sé 50% níos lú earráidí ná na samhlacha sin.
Tá thart ar aon trian de thacar sonraí fuaime Whisper neamh-Bhéarla, agus tugtar an tasc dó gach re seach tras-scríobh a dhéanamh sa bhunteanga nó aistriú go Béarla. Feicimid go bhfuil an cur chuige seo thar a bheith éifeachtach chun aistriúchán cainte-go-téacs a fhoghlaim agus go sáraíonn sé an SOTA maoirsithe ar aistriúchán CoVoST2 go Béarla ar bhealach neamh-iarracht.
Tá súil againn go gcuirfidh cruinneas ard Whisper agus a éascaíocht úsáide ar chumas forbróirí comhéadain ghutha a chur le réimse i bhfad níos leithne feidhmchlár. Féach ar an bpáipéar(osclaíonn i bhfuinneog nua), an gcárta samhail(osclaíonn i bhfuinneog nua), agus an gcód(osclaíonn i bhfuinneog nua) chun tuilleadh sonraí a fhoghlaim agus triail a bhaint as Whisper.
Tagairtí
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Níl ort ach na sonraí aithinte cainte uile atá ar fáil a mheascadh chun líonra néarach mór amháin a oiliúint. Réamhchló ar arXiv arXiv:2104.02133, 2021(osclaíonn i bhfuinneog nua).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: Tacar sonraí mórscála éagsúil um aithint cainte Béarla le haghaidh úsáide tráchtála. Réamhchló ar arXiv arXiv:2111.09344, 2021(osclaíonn i bhfuinneog nua).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Corpas ASR ilfhearainn atá ag forbairt le 10,000 uair an chloig d’fhuaim thras-scríofa. Réamhchló ar arXiv arXiv:2106.06909, 2021(osclaíonn i bhfuinneog nua).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: Creat le haghaidh foghlaim fhéin-mhaoirsithe ar léiriúcháin cainte. Réamhchló ar arXiv arXiv:2006.11477, 2020(osclaíonn i bhfuinneog nua).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Aithint cainte neamh-mhaoirsithe. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Ag fiosrú na teorann de fhoghlaim leath-mhaoirsithe mhórscála le haghaidh aithint uathoibríoch cainte. Réamhchló ar arXiv arXiv:2109.13226, 2021(osclaíonn i bhfuinneog nua).


