Prezantojmë Whisper
Ne kemi trajnuar dhe po e bëjmë me burim të hapur një rrjet neural të quajtur Whisper që i afrohet qëndrueshmërisë dhe saktësisë së nivelit njerëzor në njohjen e të folurit anglisht.
Whisper është një sistem automatik i njohjes së të folurit (ASR), i trajnuar në 680 000 orë të dhënash të mbikëqyrura shumëgjuhëshe dhe me shumë detyra, të mbledhura nga uebi. Ne tregojmë se përdorimi i një grupi kaq të madh dhe të larmishëm të dhënash çon në përmirësimin e qëndrueshmërisë ndaj thekseve, zhurmës së sfondit dhe gjuhës teknike. Për më tepër, aktivizon transkriptimin në gjuhë të shumta, si dhe përkthimin nga ato gjuhë në anglisht. Ne po i bëjmë me burim të hapur modelet dhe kodin e inferencës për të shërbyer si një themel për ndërtimin e aplikacioneve të dobishme dhe për kërkime të mëtejshme mbi përpunimin e fuqishëm të të folurit.
Arkitektura e Whisper është një qasje e thjeshtë nga fillimi deri në fund, e zbatuar si një transformator kodues-deshifrues. Audioja hyrëse ndahet në pjesë 30-sekondëshe, konvertohet në një spektrogram log-Mel dhe më pas kalon në një kodues. Një deshifrues është trajnuar për të parashikuar mbishkrimin përkatës të tekstit, të ndërthurur me tokenë specialë që drejtojnë modelin e vetëm për të kryer detyra si identifikimi i gjuhës, shënimet kohore në nivel fraze, transkriptimi i të folurit shumëgjuhësh dhe përkthimi i të folurit anglisht.
Qasjet e tjera ekzistuese shpesh përdorin grupe më të vogla të dhënash trajnimi audio-tekst, të çiftuara më ngushtë, 1 2 3 ose përdorin trajnime paraprake audio në plan të gjerë, por pa mbikëqyrje. 4 5 6 Për shkak se Whisper u trajnua në një grup të madh dhe të larmishëm të dhënash dhe nuk u përshtat për ndonjë specifik, ai nuk arrin të mposhtë modelet që specializohen në performancën e LibriSpeech, një standard i njohur konkurrues në njohjen e të folurit. Megjithatë, kur matim performancën pa trajnim paraprak të Whisper në shumë grupe të ndryshme të dhënash, shohim se është shumë më e qëndrueshme dhe bën 50% më pak gabime sesa ato modele.
Rreth një e treta e grupit të të dhënave audio të Whisper nuk është në anglisht dhe i jepet ose detyra e transkriptimit në gjuhën origjinale, ose përkthimi në anglisht. E shohim këtë qasje veçanërisht efektive për të mësuar përkthimin nga gjuha e folur në tekst dhe e tejkalon SOTA-n e mbikëqyrur në përkthimin pa trajnim paraprak nga CoVoST2 në anglisht.
Shpresojmë që saktësia e lartë dhe lehtësia e përdorimit të Whisper do t'u lejojë zhvilluesve të shtojnë ndërfaqe zanore në një grup shumë më të gjerë aplikacionesh. Shiko punimin(hapet në një dritare të re), kartën e modelit(hapet në një dritare të re) dhe kodin(hapet në një dritare të re) për të mësuar më shumë detaje dhe për të provuar Whisper.
Referenca
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. dhe Norouzi, M. SpeechStew: Thjesht përzieni të gjitha të dhënat e disponueshme të njohjes së të folurit për të trajnuar një rrjet të madh neural. arXiv preprint arXiv:2104.02133, 2021(hapet në një dritare të re).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., dhe Reddi, V. J. E folura e njerëzve: Një grup i madh dhe i larmishëm të dhënash për njohjen e të folurit anglisht për përdorim komercial. arXiv preprint arXiv:2111.09344, 2021(hapet në një dritare të re).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: Një korpus ASR në zhvillim, me shumë domene dhe 10 000 orë audio të transkriptuara. arXiv preprint arXiv:2106.06909, 2021(hapet në një dritare të re).
- 4
Baevski, A., Zhou, H., Mohamed, A. dhe Auli, M. wav2vec 2.0: Një kuadër për të mësuar me vetë-mbikëqyrje përfaqësimet e të folurit. arXiv preprint arXiv:2006.11477, 2020(hapet në një dritare të re).
- 5
Baevski, A., Hsu, W.N., Conneau, A. dhe Auli, M. Njohja e pambikëqyrur e të folurit. Përparime në sistemet e përpunimit të informacioneve neurale, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Eksplorimi i kufirit të të mësuarit me gjysmë mbikëqyrje në shkallë të gjerë për njohjen automatike të të folurit. arXiv preprint arXiv:2109.13226, 2021(hapet në një dritare të re).


