21 սեպտեմբերի, 2022 թ.

Ներկայացնում ենք Whisper-ը

Մենք վերապատրաստել ենք և բաց կոդով ենք տրամադրում Whisper կոչվող նյարդային ցանցը, որը մոտենում է մարդու մակարդակի կայունությանն և ճշգրտությանը անգլերեն խոսքի ճանաչման հարցում։

Կարդալ հոդվածը Դիտել կոդը Դիտել մոդելի քարտը

Բեռնվում է…

Բեռնվում է...

Whisper-ը խոսքի ճանաչման ավտոմատ (ASR) համակարգ է, որը վերապատրաստվել է 680000 ժամ բազմալեզու և բազմաբնույթ վերահսկվող տվյալների վրա, որոնք հավաքվել են համացանցից։ Մենք ցույց ենք տալիս, որ նման մեծ և բազմազան տվյալների հավաքածուի օգտագործումը հանգեցնում է շեշտադրումների, ֆոնային աղմուկի և տեխնիկական լեզվի նկատմամբ բարելավված կայունության։ Ավելին, այն հնարավորություն է տալիս տառադարձել բազմաթիվ լեզուներով, ինչպես նաև թարգմանել այդ լեզուներից անգլերեն։ Մենք մոդելներն ու եզրակացության կոդը բաց կոդով ենք տրամադրում, որպեսզի դրանք կարողանան ծառայել որպես հիմք օգտակար կիրառություններ կառուցելու և խոսքի հզոր մշակման ոլորտում հետագա հետազոտությունների համար։

Whisper ճարտարապետությունը պարզ ծայրից ծայր մոտեցում է, որն իրականացվում է որպես կոդավորիչ-դեկոդեր փոխարկիչ։ Մուտքային աուդիոն բաժանվում է 30 վայրկյան տևողությամբ մասերի, վերածվում log-Mel սպեկտրոգրամի, ապա փոխանցվում է կոդավորիչի։ Վերծանողը վերապատրաստվում է կանխատեսել համապատասխան տեքստի վերնագիրը՝ խառնված հատուկ token-ների հետ, որոնք ուղղորդում են միասնական մոդելին կատարելու այնպիսի առաջադրանքներ, ինչպիսիք են լեզվի նույնականացումը, բառակապակցության մակարդակի ժամանակային նշագրումները, բազմալեզու խոսքի տառադարձումը և անգլերեն խոսքի թարգմանությունը:

Աղյուսակ, որը մանրամասնում է, թե ինչպես են վերապատրաստվում ASR մոդելները։

Այլ գոյություն ունեցող մոտեցումները հաճախ օգտագործում են ավելի փոքր, ավելի սերտ զուգակցված աուդիո-տեքստային ուսուցման տվյալների հավաքածուներ, ¹ ² ³ կամ օգտագործում են լայն, բայց չվերահսկվող աուդիո նախաուսուցում։ ⁴ ⁵ ⁶ Քանի որ Whisper-ը վերապատրաստվել է մեծ և բազմազան տվյալների հավաքածուի վրա և չի ճշգրտվել որևէ կոնկրետ մեկի համար, այն չի գերազանցում LibriSpeech-ի՝ խոսքի ճանաչման ոլորտում հայտնի մրցակցային չափանիշի, կատարողականության մեջ մասնագիտացած մոդելներին։ Այնուամենայնիվ, երբ մենք չափում ենք Whisper-ի զրոյական ուսուցման կատարումը բազմաթիվ բազմազան տվյալների հավաքածուներում, մենք գտնում ենք, որ այն շատ ավելի կայուն է և 50%-ով ավելի քիչ սխալներ է թույլ տալիս, քան այդ մոդելները:

Whisper-ի աուդիո տվյալների հավաքածուի մոտ մեկ երրորդը ոչ անգլերեն է, և այն հերթով ստանում է բնօրինակի լեզվով տառադարձելու կամ անգլերեն թարգմանելու առաջադրանք: Մենք գտնում ենք, որ այս մոտեցումը հատկապես արդյունավետ է խոսքից տեքստ թարգմանություն սովորելու համար և գերազանցում է վերահսկվող SOTA-ին CoVoST2-ը զրոյից անգլերեն թարգմանելու գործում։

Բեռնվում է...

Հուսով ենք, որ Whisper-ի բարձր ճշգրտությունը և օգտագործման հեշտությունը թույլ կտան ծրագրավորողներին ավելացնել ձայնային ինտերֆեյսներ շատ ավելի լայն հավելվածների հավաքածուի մեջ։ Դիտեք հոդվածը⁠(բացվում է նոր պատուհանում), մոդելի քարտը⁠(բացվում է նոր պատուհանում) և կոդը⁠(բացվում է նոր պատուհանում) ՝ ավելի մանրամասն իմանալու և Whisper-ը փորձելու համար:

Հղումներ

1
Չան, Վ., Պարկ, Դ., Լի, C., Ժանգ, Y., Լե, Q. և Նորոուզի, Մ. SpeechStew: Պարզապես խառնեք բոլոր հասանելի խոսքի ճանաչման տվյալները՝ մեկ մեծ նեյրոնային ցանց վարժեցնելու համար: arXiv preprint arXiv:2104.02133, 2021⁠(բացվում է նոր պատուհանում).
2
Գալվեզ, Դ., Դիամոս, Գ., Տորես, Ջ. Մ. Կ., Աքորն, Կ., Գոպի, Ա., Կանտեր, Դ., Լամ, Մ., Մազումդեր, Մ., և Ռեդդի, Վ. Ջ. Ժողովրդի խոսքը. Լայնածավալ բազմազան անգլերեն խոսքի ճանաչման տվյալների հավաքածու առևտրային օգտագործման համար։ arXiv preprint arXiv:2111.09344, 2021⁠(բացվում է նոր պատուհանում).
3
Չեն, Գ., Չայ, Ս., Վանգ, Գ., Դու, Ջ., Զանգ, Վ.-Ք., Վենգ, Ճ., Սու, Դ., Պովեյ, Դ., Տրմալ, Ջ., Զանգ, Ջ., և այլն։ Gigaspeech՝ զարգացող, բազմադոմենային aSR կորպուս՝ 10000 ժամ տառադարձված աուդիոյով։ arXiv նախատպել arXiv:2106.06909, 2021⁠(բացվում է նոր պատուհանում)։
4
Բաևսկի, Ա., Չժոու, Հ., Մոհամեդ, Ա. և Աուլի, Մ. wav2vec 2.0: Խոսքի ներկայացումների ինքնուրույն վերահսկվող ուսուցման շրջանակ: arXiv preprint arXiv:2006.11477, 2020⁠(բացվում է նոր պատուհանում).
5
Բաևսկի, Ա., Հսու, Վ.Ն., Կոննո, Ա., և Աուլի, Մ. Անվերահսկելի խոսքի ճանաչում։ Նեյրոնային տեղեկատվության մշակման համակարգերի առաջընթացներ, 34:27826–27839, 2021 թ.
6
Չժան, Յ., Պարկ, Դ. Ս., Հան, Վ., Ցին, Ջ., Գուլատի, Ա., Շոր, Ջ., Յանսեն, Ա., Շու, Յ., Հուանգ, Յ., Վան, Ս., և այլք։ BigSSL. Խոսքի ավտոմատ ճանաչման համար լայնամասշտաբ կիսահսկվող ուսուցման սահմանի ուսումնասիրություն: arXiv preprint arXiv:2109.13226, 2021⁠(բացվում է նոր պատուհանում).

Առնչվող հոդվածներ

Դիտել բոլորը

Hierarchical text-conditional image generation with CLIP latents

Հրատարակություն13 ապր, 2022 թ.

Solving (some) formal math olympiad problems

Ուղենիշ2 փտվ, 2022 թ.

Solving math word problems

Հրատարակություն29 հոկ, 2021 թ.