Whisper పరిచయం
మేం Whisper అనే న్యూరల్ నెట్ను ట్రైన్ చేసి, ఓపెన్సోర్స్ చేస్తున్నాం. ఇది ఇంగ్లీష్ స్పీచ్ రికగ్నిషన్లో మానవ స్థాయి స్థిరత్వం మరియు ఖచ్చితత్వానికి చేరువ అవుతుంది.
Whisper అనేది ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ (ASR) సిస్టమ్, ఇది వెబ్ నుండి సేకరించిన 6,80,000 గంటల బహుభాషా మరియు మల్టీటాస్క్ సూపర్వైజ్డ్ డేటాపై శిక్షణ పొందింది. ఇంత పెద్ద, విభిన్నమైన డేటాసెట్ వినియోగం యాక్సెంట్లు, బ్యాక్గ్రౌండ్ శబ్దం మరియు టెక్నికల్ భాష పట్ల స్థిరత్వాన్ని మెరుగుపరుస్తుందని మేం చూపిస్తున్నాం. అంతేకాకుండా, ఇది బహుభాషల్లో ట్రాన్స్క్రిప్షన్ చేయడాన్ని, అలాగే ఆ భాషల నుండి ఇంగ్లీష్లోకి అనువాదాన్ని సాధ్యమవుతుంది. మేం ఉపయోగకరమైన అప్లికేషన్లను అభివృద్ధి చేయడానికి మరియు బలమైన స్పీచ్ ప్రాసెసింగ్పై మరింత పరిశోధన కోసం మోడల్లు మరియు ఇన్ఫరెన్స్ కోడ్ను ఓపెన్సోర్స్ చేస్తున్నాం, ఇది ఒక ఆధారంగా పనిచేస్తుంది.
Whisper ఆర్కిటెక్చర్ ఒక సింపుల్ ఎండ్-టు-ఎండ్ అప్రోచ్, ఇది ఎన్కోడర్-డీకోడర్ ట్రాన్స్ఫార్మర్గా అమలు చేయబడింది. ఇన్పుట్ ఆడియోను 30 సెకన్ల భాగాలుగా విభజించి, లాగ్-మెల్ స్పెక్ట్రోగ్రామ్గా మార్చి, ఆపై ఎన్కోడర్లోకి పంపబడుతుంది. డీకోడర్ అనేది సంబంధిత టెక్ట్స్ క్యాప్షన్ను అంచనా వేయడానికి శిక్షణ పొందుతుంది, ఇందులో ప్రత్యేక టోకెన్లు మిశ్రమంగా ఉంటాయి, ఇవి ఒకే మోడల్ను భాష గుర్తించడం, వాక్య స్థాయి టైమ్స్టాంపులు, బహుభాషా స్పీచ్ ట్రాన్స్క్రిప్షన్, మరియు ఇంగ్లీష్కు స్పీచ్ అనువాదం వంటి పనులు చేయమని సూచిస్తాయి.
ప్రస్తుతం ఉన్న ఇతర పద్ధతులు తరచుగా చిన్న, మరింత దగ్గరగా జత చేయబడిన ఆడియో-టెక్స్ట్ శిక్షణ డేటాసెట్లను1 2, 3 లేదా విస్తృతమైన కానీ పర్యవేక్షణ లేని ఆడియో ప్రీట్రైనింగ్ను4, 5, 6 ఉపయోగిస్తాయి. Whisper ఒక పెద్ద మరియు వైవిధ్యమైన డేటాసెట్పై శిక్షణ పొందింది మరియు ఏ నిర్దిష్ట డేటాసెట్కు చక్కగా ట్యూన్ చేయలేదు, అందువల్ల ఇది లిబ్రిస్పీచ్ పనితీరులో ప్రత్యేకత కలిగిన నమూనాలను అధిగమించలేదు, ఇది స్పీచ్ రికగ్నిషన్లో ప్రసిద్ధ పోటీ బెంచ్మార్క్. అయితే, Whisper జీరో-షాట్ పనితీరును అనేక విభిన్న డేటాసెట్ల్లో కొలిచినప్పుడు, ఇది మరింత స్థిరంగా ఉండి, ఆ మోడల్లతో పోలిస్తే 50% తక్కువ తప్పులు చేస్తుందని మేం కనుగొన్నాం.
Whisper ఆడియో డేటాసెట్లో సుమారు మూడవ వంతు నాన్-ఇంగ్లీష్లో ఉంటుంది, మరియు దానికి ఒరిజినల్ భాషలో ట్రాన్స్క్రిప్షన్ చేయడం లేదా ఇంగ్లీష్లోకి అనువదించడం అనే పనిని ప్రత్యామ్నాయంగా అప్పగిస్తారు. ఈ పద్ధతి స్పీచ్-టు-టెక్ట్స్ అనువాదాన్ని నేర్చుకోవడంలో ప్రత్యేకంగా ప్రభావవంతమైందని, అలాగే CoVoST2 నుండి ఇంగ్లీష్ అనువాదంలో సూపర్వైజ్డ్ SOTA కంటే జీరో-షాట్లో మెరుగ్గా పనిచేస్తుందని మేం కనుగొన్నాం.
Whisper అధిక ఖచ్చితత్వం మరియు వాడుక సౌలభ్యం డెవలపర్లు విస్తృత అప్లికేషన్ల్లో వాయిస్ ఇంటర్ఫేస్లను జోడించడానికి అనుమతిస్తుందని మేం ఆశిస్తున్నాం. మరిన్ని వివరాలను తెలుసుకోవడానికి మరియు Whisper ను ప్రయత్నించడానికి పేపర్(కొత్త విండోలో తెరుచుకుంటుంది), నమూనా కార్డు(కొత్త విండోలో తెరుచుకుంటుంది) మరియు కోడ్(కొత్త విండోలో తెరుచుకుంటుంది)ను తనిఖీ చేయండి.
రిఫరెన్సులు
- 1
చాన్, W., పార్క్, D., లీ, C., జాంగ్, Y., లె, Q., మరియు నోరౌజీ, M. SpeechStew: పెద్ద న్యూరల్ నెట్వర్క్ను శిక్షణ ఇవ్వడానికి లభ్యమవుతున్న మొత్తం స్పీచ్ రికగ్నిషన్ డేటాను కలపండి. arXiv ప్రిప్రింట్ arXiv:2104.02133, 2021(కొత్త విండోలో తెరుచుకుంటుంది).
- 2
గాల్వేజ్, డి., డయామోస్, జి., టోర్రెస్, జెఎంసి, అచోర్న్, కె., గోపి, ఎ., కాంటర్, డి., లామ్, ఎం., మజుందార్, ఎం., మరియు రెడ్డి, విజె ప్రజల ప్రసంగం: వాణిజ్య వినియోగం కోసం పెద్ద-స్థాయి వైవిధ్యమైన ఇంగ్లీష్ ప్రసంగ గుర్తింపు డేటాసెట్. arXiv ప్రీప్రింట్ arXiv:2111.09344, 2021(కొత్త విండోలో తెరుచుకుంటుంది).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., తదితరులు. Gigaspeech: 10,000 గంటల ట్రాన్స్స్క్రైబ్ చేసిన ఆడియోతో అభివృద్ధి చెందుతున్న, బహుళ-డొమైన్ ASR కార్పస్. arXiv ప్రీప్రింట్ arXiv:2106.06909, 2021(కొత్త విండోలో తెరుచుకుంటుంది).
- 4
బేవ్స్కీ, ఎ., జౌ, హెచ్., మొహమ్మద్, ఎ., మరియు ఆలి, ఎం. wav2vec 2.0: స్పీచ్ రిప్రజెంటేషన్ల కోసం స్వీయ-పర్యవేక్షిత అభ్యాసం ఫ్రేమ్వర్క్. arXiv ప్రీప్రింట్ arXiv:2006.11477, 2020(కొత్త విండోలో తెరుచుకుంటుంది).
- 5
Baevski, A., Hsu, W.N., Conneau, A., మరియు Auli, M. Unsupervised స్పీచ్ రికగ్నిషన్. న్యూరల్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్లో పురోగతులు, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., తదితరులు. BigSSL: ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ కోసం పెద్ద-స్థాయి సెమీ-సూపర్వైజ్డ్ లెర్నింగ్ సరిహద్దులను అన్వేషించండి. arXiv ప్రీప్రింట్ arXiv:2109.13226, 2021(కొత్త విండోలో తెరుచుకుంటుంది).


