Whisper એ એક સ્વચાલિત ભાષણ ઓળખ (ASR) સિસ્ટમ છે, જેને વેબ પરથી એકત્રિત કરવામાં આવેલા 680,000 કલાકના બહુભાષી અને બહુકાર્ય દેખરેખવાળા ડેટા પર તાલીમ આપવામાં આવી છે. અમે બતાવીએ છીએ કે આવા મોટા અને વૈવિધ્યસભર ડેટાસેટનો ઉપયોગ ઉચ્ચાર, પૃષ્ઠભૂમિ અવાજ અને ટેક્નિકલ ભાષા સામે વધુ મજબૂતાઈ આપે છે. વધુમાં, તે અનેક ભાષાઓમાં ટ્રાન્સક્રિપ્શન તેમજ તે ભાષાઓમાંથી અંગ્રેજીમાં અનુવાદને શક્ય બનાવે છે. અમે ઉપયોગી એપ્લિકેશન્સ બનાવવા માટેના આધારરૂપે અને મજબૂત ભાષણ પ્રોસેસિંગ પર વધુ સંશોધન માટે મોડલ્સ અને inference code ને ઓપન-સોર્સ કરી રહ્યા છીએ.
Whisper આર્કિટેક્ચર એક સરળ એન્ડ-ટુ-એન્ડ અભિગમ છે, જે encoder-decoder ટ્રાન્સફોર્મર તરીકે અમલમાં મૂકાયેલ છે. ઇનપુટ ઑડિયોને 30-સેકન્ડના ભાગોમાં વહેંચવામાં આવે છે, તેને log-Mel spectrogram માં રૂપાંતરિત કરવામાં આવે છે, અને પછી encoder માં મોકલવામાં આવે છે. decoder ને સંબંધિત ટેક્સ્ટ કૅપ્શનનું અનુમાન કરવા માટે તાલીમ આપવામાં આવે છે, જેમાં ખાસ ટોકન્સ મિશ્રિત હોય છે, જે એકલ મોડલને ભાષાની ઓળખ, વાક્યખંડ-સ્તરના ટાઇમસ્ટેમ્પ્સ, બહુભાષી ભાષણ ટ્રાન્સક્રિપ્શન અને અંગ્રેજીમાં ભાષણ અનુવાદ જેવા કાર્યો કરવા માટે દિશા આપે છે.
અન્ય વર્તમાન અભિગમો ઘણી વાર નાના, વધુ નજીકથી જોડાયેલા ઑડિયો-ટેક્સ્ટ તાલીમ ડેટાસેટ્સનો ઉપયોગ કરે છે,1 2, 3 અથવા વ્યાપક પરંતુ અનસુપરવાઇઝ્ડ ઑડિયો પ્રીટ્રેનિંગનો ઉપયોગ કરે છે.4, 5, 6 કારણ કે Whisper ને મોટા અને વૈવિધ્યસભર ડેટાસેટ પર તાલીમ અપાઈ હતી અને તેને કોઈ એક વિશિષ્ટ ડેટાસેટ માટે fine-tune કરવામાં આવ્યો નહોતો, તેથી તે ભાષણ ઓળખમાં અત્યંત સ્પર્ધાત્મક માપદંડ તરીકે જાણીતા LibriSpeech પ્રદર્શન માટે વિશેષતા ધરાવતા મોડલ્સને પાછળ નથી પાડતું. જોકે, જ્યારે અમે ઘણા વૈવિધ્યસભર ડેટાસેટ્સમાં Whisper નું ઝીરો-શોટ પ્રદર્શન માપીએ છીએ, ત્યારે અમે જાણીએ છીએ કે તે ઘણું વધુ મજબૂત છે અને તે મોડલ્સ કરતાં 50% ઓછી ભૂલો કરે છે.
Whisper ના ઑડિયો ડેટાસેટનો લગભગ એક તૃતીયાંશ ભાગ અંગ્રેજી સિવાયનો છે, અને તેને વારી વારીથી મૂળ ભાષામાં ટ્રાન્સક્રાઇબ કરવાનો અથવા અંગ્રેજીમાં અનુવાદ કરવાનો કાર્ય આપવામાં આવે છે. અમે જાણ્યું કે આ અભિગમ ખાસ કરીને ભાષણ-થી-ટેક્સ્ટ અનુવાદ શીખવામાં અસરકારક છે અને અંગ્રેજીમાં CoVoST2 અનુવાદ ઝીરો-શોટ માટે supervised SOTA કરતાં વધુ સારું પ્રદર્શન કરે છે.
અમે આશા રાખીએ છીએ કે Whisper ની ઊંચી ચોકસાઈ અને ઉપયોગમાં સરળતા વિકાસકર્તાઓને ઘણી વધુ વ્યાપક એપ્લિકેશન્સમાં વૉઇસ ઇન્ટરફેસ ઉમેરવાની મંજૂરી આપશે. વધુ વિગતો જાણવા અને Whisper અજમાવવા માટે પેપર(નવી વિન્ડોમાં ખૂલે છે), મોડલ કાર્ડ(નવી વિન્ડોમાં ખૂલે છે), અને કોડ(નવી વિન્ડોમાં ખૂલે છે) જુઓ.
સંદર્ભો
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: એક મોટું ન્યુરલ નેટવર્ક તાલીમ આપવા માટે ઉપલબ્ધ તમામ ભાષણ ઓળખ ડેટાને સરળતાથી મિશ્રિત કરો. arXiv preprint arXiv:2104.02133, 2021(નવી વિન્ડોમાં ખૂલે છે).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: વ્યાવસાયિક ઉપયોગ માટેનો વિશાળ-સ્તરીય વૈવિધ્યસભર અંગ્રેજી ભાષણ ઓળખ ડેટાસેટ. arXiv preprint arXiv:2111.09344, 2021(નવી વિન્ડોમાં ખૂલે છે).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: 10,000 કલાકના ટ્રાન્સક્રાઇબ કરેલા ઑડિયો સાથે વિકસતું, બહુ-ડોમેન ASR કોર્પસ. arXiv preprint arXiv:2106.06909, 2021(નવી વિન્ડોમાં ખૂલે છે).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: ભાષણ પ્રતિનિધિત્વના self-supervised learning માટેનું એક ફ્રેમવર્ક. arXiv preprint arXiv:2006.11477, 2020(નવી વિન્ડોમાં ખૂલે છે).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsupervised speech recognition. Neural Information Processing Systems માં પ્રગતિ, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: સ્વચાલિત ભાષણ ઓળખ માટે વિશાળ-સ્તરીય અર્ધ-દેખરેખવાળા અભ્યાસના અત્યાધુનિક ક્ષેત્રની શોધ. arXiv preprint arXiv:2109.13226, 2021(નવી વિન્ડોમાં ખૂલે છે).


