Whisperን ማስተዋወቅ
በእንግሊዘኛ የንግግር ማወቂያ ላይ ወደ ሰው ደረጃ ጥንካሬ እና ትክክለኛነት የሚቀርብ Whisper የተባለ የነርቭ መረብ አሰልጥነናል እና ክፍት ነን።
Whisper በ680,000 ሰዓታት በብዙ ቋንቋዎች እና በብዙ ተግባራት የተመረቀ ከመስመር ላይ የተሰበሰበ ቁጥጥር መረጃ ላይ የተማረ አውቶማቲክ የንግግር መረጃ መለያ (ASR) ስርዓት ነው። እኛ ይህን የመሰለ ትልቅ እና የተለያየ የውሂብ ስብስብ መጠቀም ዘዬዎች፣ የበስተጀርባ ድምጽ እና ቴክኒካዊ ቋንቋ ጥቅም ላይ በሚውልበት ጊዜ የተሻሻለ ችሎታ እንደሚያመጣ እናሳያለን። ከዚህም በላይ በበርካታ ቋንቋዎች መጻፍ እንዲሁም ከእነዚህ ቋንቋዎች ወደ እንግሊዝኛ መተርጎምን ያስችላል። ጠቃሚ መተግበሪያዎችን ለመገንባት እና ጠንካራ የንግግር ሂደት ላይ ተጨማሪ ምርምር እንዲሆን መሠረት ሆኖ እንዲያገለግል ሞዴሎችን እና የማጣቀሻ ኮድን ኦፕን ሶርስ እያደረኝ ነው።
የWhisper አርክቴክቸር እንደ ኢንኮደር-ዲኮደር ትራንስፎርመር የተተገበረ ቀላል ከጫፍ እስከ ጫፍ የሚደርስ አቀራረብ ነው። የግቤት ድምጽ በ30 ሰከንድ ክፍሎች ይከፋፈላል፣ ወደ log-Mel ስፔክትሮግራምም ይቀየራል፣ ከዚያም ወደ ኢንኮደር ይላካል። አንድ ዲኮደር ተዛማጅ የጽሑፍ ርዕስ ለመተንበይ ያሰለጠናል፣ ከቶከኖች ጋርም ተዘርዝሮ አንድ ሞዴልን ለቋንቋ መለያ፣ ለሐረግ ደረጃ የጊዜ ማህተሞች፣ ለብዙ ቋንቋ የንግግር ትርጉም እና ወደ ለእንግሊዝኛ የንግግር ትርጉም ተግባሮችን ለማከናወን ያመራል።
ሌሎች ነባር አቀራረቦች በተደጋጋሚ አነስተኛ፣ በቅርበት የተጣመረ የድምጽ-ጽሑፍ ስልጠና የውሂብ ስብስቦችን ይጠቀማሉ፣ 1 2 3 ወይም ሰፊ ነገር ግን ቁጥጥር የሌለው የድምፅ ቅድመ ስልጠናን ይጠቀማሉ። 4 5 6 ምክንያቱም Whisper በትልቅ እና ልዩ ልዩ ውሂብ ጥርቅም ላይ ስለተሠለጠነ እና ምንም ልዩ ውሂብ ስብስብ ላይ ስላልተስተካከለ፣ በንግግር መረጃ ማወቂያ ውስጥ ታዋቂ የሆነው LibriSpeech አፈፃፀም ላይ ያተኮሩ ሞዴሎችን ማሸነፍ አልቻለም። ነገር ግን፣ የWhisper ዜሮ-ሾት አፈጻጸምን በብዙ የተለያዩ የውሂብ ስብስቦች ስንለካቸው እንደተገኘው የበለጠ ችሎታ ያለው እና ከእነዚያ ሞዴሎች 50% ያነሰ ስህተቶችን ይሰራል።
የWhisper የድምጽ ውሂብ ስብስብ ሦስት ከሚሆኑት አንዱ እንግሊዝኛ ያልሆነ ነው እናም በአማራጭም በዋናው ቋንቋ መገልበጥ ወይም ወደ እንግሊዝኛ የመተርጎም ተግባር ይሰጠዋል። እኛ በተለይም ይህ አቀራረብ ንግግርን ወደ ጽሑፍ ለመተርጎም ጠቃሚ እንደሆነ እና የሚመራውን SOTAን ከCoVoST2 ወደ ኢንግሊዝኛ ትርጉም ዜሮ-ሾት እንደሚሻል እይተናል።
እኛ የWhisper ከፍተኛ ትክክለኛነት እና የአጠቃቀም ቀላልነት አበልፃጊዎች የድምፅ በይነገጾችን ወደ በጣም ሰፋ ያሉ የመተግበሪያዎች ስብስብ እንዲጨምሩ እንደሚያስችል ተስፋ አናደርጋለን። ተጨማሪ ዝርዝሮችን ለማወቅ እና Whisper ለመሞከር ወረቀቱን(በአዲስ መስኮት ውስጥ ይክፈታል)፣ የሞዴል ካርዱን(በአዲስ መስኮት ውስጥ ይክፈታል) እና ኮዱን(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።
ማጣቀሻዎች
- 1
ቻን፣ ደብልዩ.፣ ፓርክ፣ ዲ.፣ ሊ.፣ ሲ.፣ ዣንግ፣ ዋይ.፣ ሌ፣ ቂው. እና ኖራውዚ፣ ኤም. ስፔችስቲው፦ ሁሉንም የሚገኙ የንግግር ማግኛ ውሂብ በቀላሉ በመቀላቀል አንድ ትልቅ የነርቭ አውታረ መረብ አሰልጥን። arXiv preprint arXiv:2104.02133, 2021(በአዲስ መስኮት ውስጥ ይክፈታል).
- 2
ጋላቬዝ፣ ዲ.፣ ዲያሞስ፣ ጊ.፣ ቶሬስ፣ ጄ. ኤም. ሲ.፣ ኤኮርን፣ ኬ.፣ ጎፒ፣ ኤ.፣ ካንተር፣ ዲ.፣ ላም፣ ኤም.፣ ማዙምደር፣ ኤም. እና ሬዲ፣ ቪ. ጄ. የህዝብ ንግግር፦ ለንግድ አጠቃቀም ከፍተኛ የተለያዩ የእንግሊዝኛ ንግግር መለያ ውሂብ ስብስብ። arXiv preprint arXiv:2111.09344, 2021(በአዲስ መስኮት ውስጥ ይክፈታል).
- 3
ቼን፣ ጂ.፣ ቻይ፣ ኤስ.፣ ዋንግ፣ ጂ.፣ ዱ፣ ጄ.፣ ዣንግ፣ ደብልዩ.-ኪው.፣ ዌንግ፣ ሲ.፣ ሱ፣ ዲ.፣ ፖቬይ፣ ዲ.፣ ትርማል፣ ጄ.፣ ዣንግ፣ ጄ.፣ ኢቲ አል። Gigaspeech፦ በማሻሻያ ሂደት ውስጥ ያለ፣ ከ10,000 ሰዓታት የተጻፈ ድምጽ ጋር የሆነ በብዙ ጎራዎች የተሰማሩ asr ኮርፐስ። arXiv preprint arXiv:2106.06909, 2021(በአዲስ መስኮት ውስጥ ይክፈታል)።
- 4
ባዬቭስኪ፣ ኤ.፣ ዣው፣ ኤች.፣ መሃመድ፣ ኤ. እና አውሊ፣ ኤም. wav2vec 2.0፦ የንግግር ውክልናዎችን በራሱ የሚቆጣጠር የመማር መዋቅር። arXiv preprint arXiv:2006.11477, 2020(በአዲስ መስኮት ውስጥ ይክፈታል).
- 5
ባዬቭስኪ፣ ኤ.፣ ሀሱ፣ ደብልዩ.ኤን.፣ ኮንያው፣ ኤ. እና አውሊ፣ ኤም. ቁጥጥር የሌለበት የንግግር መለያ። በነርቭ መረጃ ማቀነባበሪያ ስርዓቶች ውስጥ ያሉ እድገቶች፣ 34:27826–27839, 2021።
- 6
ዣንግ፣ ዋይ.፣ ፓርክ፣ ዲኤስ፣ ሃን፣ ደብልዩ.፣ ቂን፣ ጄ.፣ ጉላቲ፣ ኤ.፣ ስሆር፣ ጄ.፣ ጃንሰን፣ ኤ.፣ ጡ፣ ዋይ.፣ ሁዋንግ፣ ዋይ.፣ ዋንግ፣ ኤስ.፣ ኢቲ አል። BigSSL፦ ለአውቶማቲክ የንግግር መለየትን በከፍተኛ ደረጃ ከፊል ቁጥጥር ያለው የትምህርት ድንበርን ማሰስ። arXiv preprint arXiv:2109.13226, 2021(በአዲስ መስኮት ውስጥ ይክፈታል).


