21 செப்டம்பர், 2022

Whisper-ஐ அறிமுகப்படுத்துகிறோம்

ஆங்கில பேச்சு அடையாளம் காண்பதில் மனித நிலை துல்லியத்தையும் நிலைத்தன்மையையும் அடையும் வகையில், Whisper எனப்படும் நரம்பியல் வலையமைப்பை நாங்கள் பயிற்சி அளித்து, திறந்த மூலமாக வெளியிட்டுள்ளோம்.

கட்டுரையை வாசிக்கவும்குறியீட்டைப் பார்க்கவும்மாதிரி கார்டைப் பார்க்கவும்

ஏற்றுகிறது…

ஏற்றுகிறது...

Whisper என்பது இணையத்திலிருந்து சேகரிக்கப்பட்ட 6,80,000 மணி நேர பன்மொழி மற்றும் பன்முக மேற்பார்வை தரவுகளின் அடிப்படையில் பயிற்சியளிக்கப்பட்ட தானியக்க பேச்சு அடையாளம் (ASR) முறைமையாகும். இத்தகைய பெரிய மற்றும் மாறுபட்ட தரவுத் தொகுப்பைப் பயன்படுத்துவது, உச்சரிப்புகள், பின்னணி இரைச்சல் மற்றும் தொழில்நுட்ப மொழி ஆகியவற்றில் மேம்பட்ட உறுதியை ஏற்படுத்துகிறது என்பதை நாங்கள் காட்டுகிறோம். மேலும், இது பல மொழிகளில் எழுத்துப் பதிவு செய்வதை செயல்படுத்துகிறது, அத்துடன் அந்த மொழிகளிலிருந்து ஆங்கிலத்திற்கு மொழிபெயர்ப்பு செய்வதையும் செயல்படுத்துகிறது. பயனுள்ள பயன்பாடுகளை உருவாக்கவும், உறுதியான பேச்சுச் செயலாக்கம் குறித்த மேலதிக ஆய்வுக்காகவும் ஒரு அடித்தளமாகச் செயல்படும் வகையில், நாங்கள் மாதிரிகளையும் மற்றும் இன்ஃபரன்ஸ் குறியீட்டையும் திறந்த மூலமாக்குகிறோம்.

Whisper-இன் கட்டமைப்பானது ஒரு எளிமையான எண்ட்-டு-எண்ட் அணுகுமுறையாகும். இது என்கோடர்-டீகோடர் ட்ரான்ஸ்ஃபார்மராக செயல்படுத்தப்பட்டுள்ளது உள்ளீட்டு ஆடியோவானது 30 வினாடி துண்டுகளாகப் பிரிக்கப்பட்டு, லாக்-மெல் ஸ்பெக்ட்ரோகிராமாக மாற்றப்பட்டு, பின்னர் குறியாக்கியாக அனுப்பப்படுகிறது. ஒரு டீகோடர் அதற்குரிய உரை தலைப்பை ஊகிக்கப் பயிற்சி அளிக்கப்படுகிறது. இது, ஒரு குறிப்பிட்ட மாதிரியை மொழி அடையாளம் காணுதல், சொற்றொடர்-நிலை நேர முத்திரைகள் , பலமொழிப் பேச்சுப் பதிவு மற்றும் ஆங்கிலத்திற்குப் பேச்சு மொழிபெயர்ப்பு போன்ற பணிகளைச் செய்ய வழிநடத்தும் சிறப்பு டோக்கன்களுடன் கலக்கப்படுகிறது.

ASR மாதிரிகள் எவ்வாறு பயிற்சியளிக்கப்படுகின்றன என்பதை விளக்கும் வரைபடம்

பிற தற்போதைய அணுகுமுறைகள் பொதுவாக சிறிய மற்றும் மிக நெருக்கமாக இணைக்கப்பட்ட ஆடியோ-உரை பயிற்சி தரவுத்தொகுப்புகளைப் பயன்படுத்துகின்றன ¹ ^{2 மற்றும் 3} அல்லது பரந்த, ஆனால் மேற்பார்வையற்ற ஆடியோ முன்-பயிற்சியைப் பயன்படுத்துகின்றன ^{4, 5 மற்றும் 6}. Whisper ஒரு பெரிய மற்றும் மாறுபட்ட தரவுத்தொகுப்பில் பயிற்சி பெற்றதால், எந்தவொரு குறிப்பிட்ட ஒன்றிற்கும் நுணுக்கமாக இசைவிக்கப்படாததால், பேச்சு அங்கீகாரத்தில் பிரபலமான போட்டித் தரமான LibriSpeech-இல் சிறப்பாகச் செயல்படும் மாடல்களை இது விஞ்சுவதில்லை. எனினும், பல மாறுபட்ட தரவுத் தொகுப்புகளில் Whisper-இன் 'ஜீரோ-ஷாட்' செயல்திறனை நாம் அளவிடும்போது, அது அதிக உறுதியுடன் இருப்பதையும், அந்த மாதிரிகளைக் காட்டிலும் 50% குறைவான பிழைகளைச் செய்வதையும் காண்கிறோம்.

Whisper-இன் ஆடியோ தரவுத் தொகுப்பில் மூன்றில் ஒரு பங்கு ஆங்கிலம் அல்லாதவை. மேலும், அது அசல் மொழியில் எழுத்துப் பதிவு செய்யும் பணி அல்லது ஆங்கிலத்திற்கு மொழிபெயர்க்கும் பணி என மாறி மாறி கொடுக்கப்படுகிறது. இந்த அணுகுமுறை பேச்சுக்கு உரை மொழிபெயர்ப்பைக் கற்றுக்கொள்வதில் மிகவும் பயனுள்ளதாக இருக்கிறது என்பதைக் காண்கிறோம். மேலும், இது CoVoST2 ஆங்கில மொழிபெயர்ப்பு ஜீரோ-ஷாட்டில் மேற்பார்வையிடப்பட்ட SOTA-வை விஞ்சுகிறது.

ஏற்றுகிறது...

Whisper-இன் அதிக துல்லியமும், பயன்படுத்துவதற்கான எளிமையும், உருவாக்குபவர்கள் குரல் இடைமுகங்களை இன்னும் பரந்த அளவிலான பயன்பாடுகளில் சேர்க்க அனுமதிக்கும் என்று நாங்கள் நம்புகிறோம். மேலும் விவரங்களை அறிய ஆய்வுக் கட்டுரை⁠(புதிய சாளரத்தில் திறக்கும்), மாதிரி அட்டை⁠(புதிய சாளரத்தில் திறக்கும்), மற்றும் குறியீட்டை⁠(புதிய சாளரத்தில் திறக்கும்) பாருங்கள் மற்றும் Whisper ஐ முயற்சிக்கவும் .

குறிப்புகள்

1
சான், டபிள்யூ., பார்க், டி., லீ, சி., ஜாங், ஒய்., லீ, கியூ., மற்றும் நோரூசி, எம் ஸ்பீச்ஸ்டியூ: ஒரு பெரிய நியூரல் வலையமைப்பைப் பயிற்றுவிக்க கிடைக்கக்கூடிய அனைத்து பேச்சு அங்கீகாரத் தரவையும் கலக்கவும். arXiv preprint arXiv:2104.02133, 2021⁠(புதிய சாளரத்தில் திறக்கும்).
2
கால்வேஸ், டி., டயமோஸ், ஜி., டோரஸ், ஜேஎம்சி, அச்சோர்ன், கே., கோபி, ஏ., கான்டர், டி., லாம், எம்., மஜூம்டர், எம்., மற்றும் ரெட்டி, வி.ஜே. மக்களின் பேச்சு: வணிக பயன்பாட்டிற்கான பெரிய அளவிலான மாறுபட்ட ஆங்கில பேச்சு அங்கீகார தரவுத்தொகுப்பு. arXiv முன்அச்சு arXiv:2111.09344, 2021⁠(புதிய சாளரத்தில் திறக்கும்).
3
சென், ஜி., சாய், எஸ்., வாங், ஜி., டு, ஜே., ஜாங், டபிள்யூ.-க்யூ., வெங், சி., சு, டி., போவி, டி., டிர்மல், ஜே., ஜாங், ஜே., மற்றும் பலர். Gigaspeech: 10,000 மணிநேர எழுத்துப் பதிவு செய்யப்பட்ட ஆடியோவைக் கொண்ட, வளர்ந்து வரும், பல களங்களைக் கொண்ட ASR சேகரிப்பு. arXiv முன்அச்சு arXiv:2106.06909, 2021⁠(புதிய சாளரத்தில் திறக்கும்).
4
பேவ்ஸ்கி, ஏ., ஜோ, எச்., முகமது, ஏ., மற்றும் ஆலி, எம். wav2vec 2.0: பேச்சு பிரதிநிதித்துவங்களின் சுய மேற்பார்வை கற்றலுக்கான கட்டமைப்பு. arXiv preprint arXiv:2006.11477, 2020⁠(புதிய சாளரத்தில் திறக்கும்).
5
பேவ்ஸ்கி, ஏ., ஹ்சு, டபிள்யூ.என்., கோனியூ, ஏ., மற்றும் ஆலி, எம். உன்சு ஆகியோர் பேச்சு அங்கீகாரத்தை ஆய்வு செய்தனர். நரம்பியல் தகவல் செயலாக்க அமைப்புகளில் முன்னேற்றங்கள், 34:27826–27839, 2021.
6
ஜாங், ஒய்., பார்க், டி. எஸ்., ஹான், டபிள்யூ., கின், ஜே., குலாட்டி, ஏ., ஷோர், ஜே., ஜான்சன், ஏ., சூ, ஒய்., ஹுவாங், ஒய்., வாங், எஸ்., மற்றும் பலர். BigSSL: தானியங்கிப் பேச்சு அங்கீகாரத்திற்காக (ASR) பெரிய அளவிலான அரை-மேற்பார்வையிடப்பட்ட கற்றலின் எல்லையை ஆராய்தல். arXiv preprint arXiv:2109.13226, 2021⁠(புதிய சாளரத்தில் திறக்கும்).

தொடர்புடைய கட்டுரைகள்

அனைத்தையும் பார்க்கவும்

Hierarchical text-conditional image generation with CLIP latents

பதிப்பு13 ஏப்ரல், 2022

Solving (some) formal math olympiad problems

மைல்கல்2 பிப்ரவரி, 2022

Solving math word problems

பதிப்பு29 அக்டோபர், 2021