2022 സെപ്റ്റംബർ 21

Whisperനെ പരിചയപ്പെടുത്തുന്നു

ഇംഗ്ലീഷ് സംസാര തിരിച്ചറിയലിൽ മനുഷ്യനിലവാരത്തിലുള്ള കരുത്തും കൃത്യതയും കൈവരിക്കുന്ന Whisper എന്ന ന്യൂറൽ നെറ്റ്വർക്ക് ഞങ്ങൾ പരിശീലിപ്പിക്കുകയും ഓപ്പൺ-സോഴ്സിംഗ് ചെയ്യുകയും ചെയ്തു.

പേപ്പർ വായിക്കുക കോഡ് കാണുക മോഡൽ കാർഡ് കാണുക

ലോഡിംഗ്…

ലോഡിംഗ്...

Whisper വെബിൽ നിന്ന് ശേഖരിച്ച 680,000 മണിക്കൂർ ബഹുഭാഷാ, മൾട്ടിടാസ്ക് മേൽനോട്ടത്തിലുള്ള ഡാറ്റയിൽ പരിശീലനം ലഭിച്ച ഓട്ടോമാറ്റിക് സ്പീച്ച് റെക്കഗ്നിഷൻ (ASR) സംവിധാനമാണ്. ഇത്തരം വലുതും വൈവിധ്യമാർന്നതുമായ ഡാറ്റാസെറ്റിന്റെ ഉപയോഗം ഉച്ചാരണങ്ങൾ, പശ്ചാത്തല ശബ്ദം, സാങ്കേതിക ഭാഷ എന്നിവയോടുള്ള മെച്ചപ്പെട്ട പ്രതിരോധശേഷിയിലേക്ക് നയിക്കുന്നുവെന്ന് ഞങ്ങൾ കാണിക്കുന്നു. മുകളിൽ പറഞ്ഞതുപോലെ, ഇത് പല ഭാഷകളിലും ട്രാൻസ്ക്രിപ്ഷനും, ആ ഭാഷകളിൽ നിന്ന് ഇംഗ്ലീഷിലേക്ക് പരിഭാഷയും പ്രവർത്തന സജ്ജമാക്കുന്നു. ഉപയോഗപ്രദമായ ആപ്ലിക്കേഷനുകൾ നിർമ്മിക്കുന്നതിനും കരുത്തുറ്റ വാക്ക് പ്രോസസ്സിംഗിനെക്കുറിച്ചുള്ള കൂടുതൽ ഗവേഷണങ്ങൾക്കും അടിസ്ഥാനമായി പ്രവർത്തിക്കുന്നതിന് ഞങ്ങൾ മോഡലുകളും അനുമാന കോഡും ഓപ്പൺ-സോഴ്സ് ചെയ്യുന്നു.

Whisper ആർക്കിടെക്ചർ ഒരു ലളിതമായ എൻഡ്-ടു-എൻഡ് സമീപനമാണ്, ഇത് എൻകോഡർ-ഡീകോഡർ ട്രാൻസ്ഫോർമറായി നടപ്പിലാക്കുന്നു. ഇൻപുട്ട് ഓഡിയോ 30-സെക്കൻഡ് ചങ്കുകളായി വിഭജിക്കപ്പെടുന്നു, ലോഗ്-മെൽ സ്പെക്ട്രോഗ്രാമിലേക്ക് പരിവർത്തനം ചെയ്യപ്പെടുന്നു, തുടർന്ന് എൻകോഡറിലേക്ക് അയയ്ക്കപ്പെടുന്നു. ഒരു ഡീകോഡർ, ഭാഷാ തിരിച്ചറിയൽ, പദാവല-തല ടൈംസ്റ്റാമ്പുകൾ, ബഹുഭാഷാ സംഭാഷണ ട്രാൻസ്ക്രിപ്ഷൻ, ഇംഗ്ലീഷിലേക്ക് വിവർത്തനം തുടങ്ങിയ ടാസ്കുകൾ നടത്താൻ സിംഗിൾ മോഡലിനെ നയിക്കുന്ന പ്രത്യേക tokenകളുമായി ഇടകലർന്ന അനുബന്ധ ടെക്സ്റ്റ് അടിക്കുറിപ്പ് പ്രവചിക്കാൻ പരിശീലിപ്പിക്കുന്നു.

ASR മോഡലുകൾ എങ്ങനെ പരിശീലിപ്പിക്കപ്പെടുന്നു എന്നതിനെ വിശദീകരിക്കുന്ന ഡയഗ്രം

മറ്റു നിലവിലുള്ള സമീപനങ്ങൾ പതിവായി ചെറുതും കൂടുതൽ അടുത്ത ജോടിയാക്കിയതുമായ ഓഡിയോ-ടെക്സ്റ്റ് പരിശീലനം ഡാറ്റാസെറ്റുകൾ ഉപയോഗിക്കുന്നു, ¹ ² ³ അല്ലെങ്കിൽ വിശാലവും മേൽനോട്ടമില്ലാത്തതുമായ ഓഡിയോ പ്രീട്രെയിനിംഗ് ഉപയോഗിക്കുന്നു. ⁴ ⁵ ⁶ Whisper വലുതും വൈവിധ്യപൂർണ്ണവുമായ ഒരു ഡാറ്റാസെറ്റിൽ പരിശീലിപ്പിക്കപ്പെട്ടതിനാൽ, പ്രത്യേകമായ ഒരു ഡാറ്റാസെറ്റിനായി ഫൈൻ-ട്യൂൺ ചെയ്തിട്ടില്ല. അതിനാൽ, പ്രസിദ്ധമായ മത്സര മാനദണ്ഡമായ ലിബ്രിസ്പീച്ച് പ്രകടനത്തിൽ വൈദഗ്ദ്ധ്യം നേടിയ മോഡലുകളെ ഇത് മറികടക്കുന്നില്ല, ഇത് സംഭാഷണ തിരിച്ചറിയലിൽ ഒരു പ്രശസ്തമായ മത്സര മാനദണ്ഡമാണ്. എന്നിരുന്നാലും, വൈവിധ്യമാർന്ന ഡാറ്റാസെറ്റുകളിൽ Whisper-ന്റെ സീറോ-ഷോട്ട് പ്രകടനം അളക്കുമ്പോൾ, അത് കൂടുതൽ കരുത്തുറ്റതാണെന്നും ആ മോഡലുകളേക്കാൾ 50% കുറവ് പിശകുകൾ വരുത്തുന്നുണ്ടെന്നും ഞങ്ങൾ കണ്ടെത്തുന്നു.

Whisper-ന്റെ ഓഡിയോ ഡാറ്റാസെറ്റിൽ ഏകദേശം മൂന്നിലൊന്ന് ഭാഗം ഇംഗ്ലീഷല്ലാത്തതാണ്, കൂടാതെ ഇത് യഥാർത്ഥ ഭാഷയിൽ ട്രാൻസ്ക്രിപ്ഷൻ ചെയ്യുകയോ ഇംഗ്ലീഷിലേക്ക് വിവർത്തനം ചെയ്യുകയോ ചെയ്യാനുള്ള ടാസ്ക് മാറിമാറി നൽകപ്പെടുന്നു. സ്പീച്ച് ടു ടെക്സ്റ്റ് വിവർത്തനം പഠിക്കുന്നതിൽ ഈ സമീപനം പ്രത്യേകിച്ചും ഫലപ്രദമാണെന്ന് ഞങ്ങൾ കണ്ടെത്തുന്നു, കൂടാതെ CoVoST2-ൽ ഇംഗ്ലീഷിലേക്ക് സീറോ-ഷോട്ട് പരിഭാഷയിൽ മേൽനോട്ടം വഹിക്കുന്ന SOTA-യെ മറികടക്കുന്നു.

ലോഡിംഗ്...

Whisper-ന്റെ ഉയർന്ന കൃത്യതയും ഉപയോഗിക്കാനുള്ള എളുപ്പവും ഡെവലപ്പർമാരെ വളരെ കൂടുതൽ ആപ്ലിക്കേഷനുകളിൽ വോയ്സ് ഇന്റർഫേസുകൾ ചേർക്കാൻ അനുവദിക്കുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു. കൂടുതൽ വിശദാംശങ്ങൾ അറിയാനും Whisper പരീക്ഷിക്കാനും പേപ്പർ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡൽ കാർഡ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), കോഡ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പരിശോധിക്കുക.

അവലംബങ്ങൾ

1
ചാൻ, ഡബ്ല്യു., പാർക്ക്, ഡി., ലീ, സി., ഴാങ്, വൈ., ലെ, ക്യു., ഒപ്പം നൊറൂസി, എം. സ്പീച്ച്സ്റ്റ്യൂ: ലഭ്യമായ എല്ലാ സ്പീച്ച് റെക്കഗ്നിഷൻ ഡാറ്റയും ലളിതമായി ഇളക്കി ഒരു വലിയ ന്യൂറൽ നെറ്റ്‌വർക്ക് ട്രെയിൻ ചെയ്യുക. arXiv പ്രീപ്രിൻറ് arXiv:2104.02133, 2021⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു).
2
ഗാൽവെസ്, ഡി., ഡയാമോസ്, ജി., ടോറസ്, ജെ എം സി., അചോൺ, കെ., ഗോപി, എ., കാന്റർ, ഡി., ലാം, എം., മസുംദർ, എം., റെഡ്ഡി, വി. ജെ. ജനങ്ങളുടെ പ്രസംഗം: വാണിജ്യ ഉപയോഗത്തിനായി വലിയ തോതിലുള്ള വൈവിധ്യമാർന്ന ഇംഗ്ലീഷ് സ്പീച്ച് റെക്കഗ്നിഷൻ ഡാറ്റാസെറ്റ്. arXiv പ്രീപ്രിൻറ് arXiv:2111.09344, 2021⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു).
3
ചെൻ, ജി., ചായ്, എസ്., വാങ്, ജി., ഡു, ജെ., ഷാങ്, ഡബ്ല്യു. ക്യു., വെങ്, സി., സു, ഡി., പോവി, ഡി., ട്രമൽ, ജെ., ഷാങ്, ജെ., മറ്റുള്ളവർ. Gigaspeech: 10,000 മണിക്കൂർ ട്രാൻസ്ക്രിപ്റ്റ് ചെയ്ത ഓഡിയോയുള്ള, വികസിച്ചുകൊണ്ടിരിക്കുന്ന മൾട്ടി-ഡൊമെയ്ൻ ASR കോർപസ്. arXiv പ്രീപ്രിൻറ് arXiv:2106.06909, 2021⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു).
4
ബെയ്വ്സ്കി, എ., ഴൗ, എച്ച്., മുഹമ്മദ്, എ., ഒപ്പം ഔലി, എം. wav2vec 2.0: വാക്കുകളുടെ പ്രതിനിധാനങ്ങളുടെ സ്വയം മേൽനോട്ടത്തിലുള്ള പഠനത്തിനുള്ള ഒരു ചട്ടക്കൂട്. arXiv പ്രീപ്രിന്റ് arXiv:2006.11477, 2020⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു).
5
ബെയ്വ്സ്കി, എ., ഹ്സു, ഡബ്ല്യു എൻ., കൊന്നൗ, എ., ഒപ്പം ഔലി, എം. നിയന്ത്രണമില്ലാത്ത വാക്കുതെളിവ് തിരിച്ചറിയൽ. ന്യൂറൽ ഇൻഫർമേഷൻ പ്രോസസ്സിംഗ് സിസ്റ്റങ്ങളിലെ മുന്നേറ്റങ്ങൾ 34: 27826–27839, 2021.
6
ഷാങ്, വൈ., പാർക്ക്, ഡിഎസ്, ഹാൻ, ഡബ്ല്യു., ക്വിൻ, ജെ., ഗുലാത്തി, എ., ഷോർ, ജെ., ജാൻസെൻ, എ., സു, വൈ., ഹുവാങ്, വൈ., വാങ്, എസ്., മറ്റുള്ളവർ. BigSSL: ഓട്ടോമാറ്റിക് സ്പീച്ച് റെക്കഗ്നിഷനുവേണ്ടി വലിയ തോതിലുള്ള സെമി-സൂപ്പർവൈസ്ഡ് ലേണിംഗിന്റെ മുൻനിരയെ കണ്ടെത്തുക. arXiv പ്രീപ്രിൻറ് arXiv:2109.13226, 2021⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു).

അനുബന്ധ ലേഖനങ്ങൾ

എല്ലാം കാണുക

Hierarchical text-conditional image generation with CLIP latents

പ്രസിദ്ധീകരണം2022 ഏപ്രിൽ 13

Solving (some) formal math olympiad problems

നാഴികക്കല്ല്2022 ഫെബ്രുവരി 2

Solving math word problems

പ്രസിദ്ധീകരണം2021 ഒക്‌ടോബർ 29