21 సెప్టెంబర్, 2022

Whisper పరిచయం

మేం Whisper అనే న్యూరల్ నెట్‌ను ట్రైన్ చేసి, ఓపెన్‌సోర్స్ చేస్తున్నాం. ఇది ఇంగ్లీష్ స్పీచ్ రికగ్నిషన్‌లో మానవ స్థాయి స్థిరత్వం మరియు ఖచ్చితత్వానికి చేరువ అవుతుంది.

పేపర్ చదవండి కోడ్ చూడండి మోడల్ కార్డును చూడండి

లోడ్ అవుతోంది…

లోడ్ అవుతోంది...

Whisper అనేది ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ (ASR) సిస్టమ్, ఇది వెబ్ నుండి సేకరించిన 6,80,000 గంటల బహుభాషా మరియు మల్టీటాస్క్ సూపర్‌వైజ్డ్ డేటాపై శిక్షణ పొందింది. ఇంత పెద్ద, విభిన్నమైన డేటాసెట్ వినియోగం యాక్సెంట్‌లు, బ్యాక్‌గ్రౌండ్ శబ్దం మరియు టెక్నికల్ భాష పట్ల స్థిరత్వాన్ని మెరుగుపరుస్తుందని మేం చూపిస్తున్నాం. అంతేకాకుండా, ఇది బహుభాషల్లో ట్రాన్స్‌క్రిప్షన్ చేయడాన్ని, అలాగే ఆ భాషల నుండి ఇంగ్లీష్‌లోకి అనువాదాన్ని సాధ్యమవుతుంది. మేం ఉపయోగకరమైన అప్లికేషన్‌లను అభివృద్ధి చేయడానికి మరియు బలమైన స్పీచ్ ప్రాసెసింగ్‌పై మరింత పరిశోధన కోసం మోడల్‌లు మరియు ఇన్‌ఫరెన్స్ కోడ్‌ను ఓపెన్‌సోర్స్ చేస్తున్నాం, ఇది ఒక ఆధారంగా పనిచేస్తుంది.

Whisper ఆర్కిటెక్చర్ ఒక సింపుల్ ఎండ్-టు-ఎండ్ అప్రోచ్, ఇది ఎన్‌కోడర్-డీకోడర్ ట్రాన్స్‌ఫార్మర్‌గా అమలు చేయబడింది. ఇన్‌పుట్ ఆడియోను 30 సెకన్ల భాగాలుగా విభజించి, లాగ్-మెల్ స్పెక్ట్రోగ్రామ్‌గా మార్చి, ఆపై ఎన్‌కోడర్‌లోకి పంపబడుతుంది. డీకోడర్ అనేది సంబంధిత టెక్ట్స్ క్యాప్షన్‌ను అంచనా వేయడానికి శిక్షణ పొందుతుంది, ఇందులో ప్రత్యేక టోకెన్‌లు మిశ్రమంగా ఉంటాయి, ఇవి ఒకే మోడల్‌ను భాష గుర్తించడం, వాక్య స్థాయి టైమ్‌స్టాంపులు, బహుభాషా స్పీచ్ ట్రాన్స్‌క్రిప్షన్, మరియు ఇంగ్లీష్‌కు స్పీచ్ అనువాదం వంటి పనులు చేయమని సూచిస్తాయి.

ASR మోడల్‌లకు ఎలా శిక్షణ ఇవ్వబడుతుందనేది చూపించే డయాగ్రామ్

ప్రస్తుతం ఉన్న ఇతర పద్ధతులు తరచుగా చిన్న, మరింత దగ్గరగా జత చేయబడిన ఆడియో-టెక్స్ట్ శిక్షణ డేటాసెట్‌లను¹ ^{2, 3} లేదా విస్తృతమైన కానీ పర్యవేక్షణ లేని ఆడియో ప్రీట్రైనింగ్‌ను^{4, 5, 6} ఉపయోగిస్తాయి. Whisper ఒక పెద్ద మరియు వైవిధ్యమైన డేటాసెట్‌పై శిక్షణ పొందింది మరియు ఏ నిర్దిష్ట డేటాసెట్‌కు చక్కగా ట్యూన్ చేయలేదు, అందువల్ల ఇది లిబ్రిస్పీచ్ పనితీరులో ప్రత్యేకత కలిగిన నమూనాలను అధిగమించలేదు, ఇది స్పీచ్ రికగ్నిషన్‌లో ప్రసిద్ధ పోటీ బెంచ్‌మార్క్. అయితే, Whisper జీరో-షాట్ పనితీరును అనేక విభిన్న డేటాసెట్‌ల్లో కొలిచినప్పుడు, ఇది మరింత స్థిరంగా ఉండి, ఆ మోడల్‌లతో పోలిస్తే 50% తక్కువ తప్పులు చేస్తుందని మేం కనుగొన్నాం.

Whisper ఆడియో డేటాసెట్‌లో సుమారు మూడవ వంతు నాన్-ఇంగ్లీష్‌లో ఉంటుంది, మరియు దానికి ఒరిజినల్ భాషలో ట్రాన్స్‌క్రిప్షన్ చేయడం లేదా ఇంగ్లీష్‌లోకి అనువదించడం అనే పనిని ప్రత్యామ్నాయంగా అప్పగిస్తారు. ఈ పద్ధతి స్పీచ్-టు-టెక్ట్స్ అనువాదాన్ని నేర్చుకోవడంలో ప్రత్యేకంగా ప్రభావవంతమైందని, అలాగే CoVoST2 నుండి ఇంగ్లీష్ అనువాదంలో సూపర్‌వైజ్డ్ SOTA కంటే జీరో-షాట్‌లో మెరుగ్గా పనిచేస్తుందని మేం కనుగొన్నాం.

లోడ్ అవుతోంది...

Whisper అధిక ఖచ్చితత్వం మరియు వాడుక సౌలభ్యం డెవలపర్‌లు విస్తృత అప్లికేషన్‌ల్లో వాయిస్ ఇంటర్‌ఫేస్‌లను జోడించడానికి అనుమతిస్తుందని మేం ఆశిస్తున్నాం. మరిన్ని వివరాలను తెలుసుకోవడానికి మరియు Whisper ను ప్రయత్నించడానికి పేపర్⁠(కొత్త విండోలో తెరుచుకుంటుంది), నమూనా కార్డు⁠(కొత్త విండోలో తెరుచుకుంటుంది) మరియు కోడ్⁠(కొత్త విండోలో తెరుచుకుంటుంది)ను తనిఖీ చేయండి.

రిఫరెన్సులు

1
చాన్, W., పార్క్, D., లీ, C., జాంగ్, Y., లె, Q., మరియు నోరౌజీ, M. SpeechStew: పెద్ద న్యూరల్ నెట్‌వర్క్‌ను శిక్షణ ఇవ్వడానికి లభ్యమవుతున్న మొత్తం స్పీచ్ రికగ్నిషన్ డేటాను కలపండి. arXiv ప్రిప్రింట్ arXiv:2104.02133, 2021⁠(కొత్త విండోలో తెరుచుకుంటుంది).
2
గాల్వేజ్, డి., డయామోస్, జి., టోర్రెస్, జెఎంసి, అచోర్న్, కె., గోపి, ఎ., కాంటర్, డి., లామ్, ఎం., మజుందార్, ఎం., మరియు రెడ్డి, విజె ప్రజల ప్రసంగం: వాణిజ్య వినియోగం కోసం పెద్ద-స్థాయి వైవిధ్యమైన ఇంగ్లీష్ ప్రసంగ గుర్తింపు డేటాసెట్. arXiv ప్రీప్రింట్ arXiv:2111.09344, 2021⁠(కొత్త విండోలో తెరుచుకుంటుంది).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., తదితరులు. Gigaspeech: 10,000 గంటల ట్రాన్స్‌స్క్రైబ్ చేసిన ఆడియోతో అభివృద్ధి చెందుతున్న, బహుళ-డొమైన్ ASR కార్పస్. arXiv ప్రీప్రింట్ arXiv:2106.06909, 2021⁠(కొత్త విండోలో తెరుచుకుంటుంది).
4
బేవ్స్కీ, ఎ., జౌ, హెచ్., మొహమ్మద్, ఎ., మరియు ఆలి, ఎం. wav2vec 2.0: స్పీచ్ రిప్రజెంటేషన్ల కోసం స్వీయ-పర్యవేక్షిత అభ్యాసం ఫ్రేమ్‌వర్క్. arXiv ప్రీప్రింట్ arXiv:2006.11477, 2020⁠(కొత్త విండోలో తెరుచుకుంటుంది).
5
Baevski, A., Hsu, W.N., Conneau, A., మరియు Auli, M. Unsupervised స్పీచ్ రికగ్నిషన్. న్యూరల్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్‌లో పురోగతులు, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., తదితరులు. BigSSL: ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ కోసం పెద్ద-స్థాయి సెమీ-సూపర్వైజ్డ్ లెర్నింగ్ సరిహద్దులను అన్వేషించండి. arXiv ప్రీప్రింట్ arXiv:2109.13226, 2021⁠(కొత్త విండోలో తెరుచుకుంటుంది).

సంబంధిత వ్యాసాలు

అన్నీ చూడండి

Hierarchical text-conditional image generation with CLIP latents

ప్రచురణ13 ఏప్రిల్, 2022

Solving (some) formal math olympiad problems

మైలురాయి2 ఫిబ్రవరి, 2022

Solving math word problems

ప్రచురణ29 అక్టోబర్, 2021