Aqbeż għall-kontenut prinċipali
OpenAI
Qed jillowdja...

Whisper hija sistema ta’ rikonoxximent awtomatiku tad-diskors (ASR) imħarrġa fuq 680,000 siegħa ta’ data ssorveljata multilingwi u multitask miġbura mill-web. Nuru li l-użu ta’ dataset daqshekk kbir u divers iwassal għal robustezza aħjar għall-aċċenti, l-istorbju fl-isfond u l-lingwaġġ tekniku. Barra minn hekk, jippermetti traskrizzjoni f’diversi lingwi, kif ukoll traduzzjoni minn dawk il-lingwi għall-Ingliż. Qed nagħmlu open-source mudelli u kodiċi tal-inferenza biex iservu ta’ bażi għall-bini ta’ applikazzjonijiet utli u għal aktar riċerka dwar l-ipproċessar robust tad-diskors.

Sommarju ASR tal-Arkitettura tal-Mudell

L-arkitettura ta’ Whisper hija approċċ sempliċi end-to-end, implimentat bħala encoder-decoder transformer. L-awdjo tal-input jinqasam f’biċċiet ta’ 30 sekonda, jinbidel fi spettrogramma log-Mel, u mbagħad jgħaddi għal encoder. Decoder jitħarreġ biex ibassar it-test korrispondenti, imħallat ma’ tokens speċjali li jiggwidaw il-mudell wieħed biex iwettaq kompiti bħall-identifikazzjoni tal-lingwa, timestamps fil-livell tal-frażi, traskrizzjoni multilingwi tad-diskors, u traduzzjoni tad-diskors għall-Ingliż.

Dijagramma li tispjega kif jitħarrġu mudelli ASR

Approċċi eżistenti oħra spiss jużaw datasets iżgħar u aktar marbuta mill-qrib ta’ taħriġ awdjo-test,1 2 u 3 jew jużaw pretraining tal-awdjo wiesa’ iżda mhux issorveljat.4, 5, u 6 Minħabba li Whisper tħarrġet fuq dataset kbir u divers u ma ġietx fine-tuned għal xi wieħed speċifiku, ma tegħlibx mudelli li jispeċjalizzaw fil-prestazzjoni ta’ LibriSpeech, benchmark famużament kompetittiv fir-rikonoxximent tad-diskors. Madankollu, meta nkejlu l-prestazzjoni tagħha l-ebda ritratt fuq ħafna datasets differenti, insibu li hija ħafna aktar robusta u tagħmel 50% inqas żbalji minn dawk il-mudelli.

Madwar terz tad-dataset tal-awdjo ta’ Whisper mhuwiex bl-Ingliż, u alternattivament tingħata l-kompitu li tittraskrivi fil-lingwa oriġinali jew tittraduċi għall-Ingliż. Insibu li dan l-approċċ huwa partikolarment effettiv biex jitgħallem it-traduzzjoni mid-diskors għat-test u jegħleb is-SOTA ssorveljat fuq CoVoST2 fit-traduzzjoni għall-Ingliż l-ebda ritratt.

Qed jillowdja...

Nittamaw li l-preċiżjoni għolja u l-faċilità tal-użu ta’ Whisper jippermettu lill-iżviluppaturi jżidu interfaces tal-vuċi ma’ firxa ferm usa’ ta’ applikazzjonijiet. Agħti ħarsa lejn id-dokument(jinfetaħ f’tieqa ġdida), l-iskeda -mudell(jinfetaħ f’tieqa ġdida), u l-kodiċi(jinfetaħ f’tieqa ġdida) biex titgħallem aktar dettalji u biex tipprova Whisper.

Referenzi

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Ħallat sempliċement id-data kollha disponibbli tar-rikonoxximent tad-diskors biex tħarreġ network newrali kbir wieħed. Preprint arXiv arXiv:2104.02133, 2021(jinfetaħ f’tieqa ġdida).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: Dataset fuq skala kbira u divers ta’ rikonoxximent tad-diskors bl-Ingliż għal użu kummerċjali. Preprint arXiv arXiv:2111.09344, 2021(jinfetaħ f’tieqa ġdida).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Korpus ASR multidominju li jevolvi b’10,000 siegħa ta’ awdjo traskritt. Preprint arXiv arXiv:2106.06909, 2021(jinfetaħ f’tieqa ġdida).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: Qafas għat-tagħlim awto-ssorveljat ta’ rappreżentazzjonijiet tad-diskors. Preprint arXiv arXiv:2006.11477, 2020(jinfetaħ f’tieqa ġdida).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Rikonoxximent tad-diskors mhux issorveljat. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Nesploraw il-fruntiera tat-tagħlim semi-ssorveljat fuq skala kbira għar-rikonoxximent awtomatiku tad-diskors. Preprint arXiv arXiv:2109.13226, 2021(jinfetaħ f’tieqa ġdida).