21 სექტემბერი, 2022

Introducing Whisper

ნაშრომის წაკითხვა კოდის ნახვა მოდელის ბარათის ნახვა

იტვირთება…

იტვირთება...

Whisper არის მეტყველების ავტომატური ამოცნობის (ASR) სისტემა, რომელიც გაწვრთნილია ვებიდან შეგროვებულ 680,000 საათის მრავალენოვან და მრავალამოცანიან ზედამხედველობით მონაცემებზე. ჩვენ ვაჩვენებთ, რომ ასეთი დიდი და მრავალფეროვანი მონაცემთა ნაკრების გამოყენება აუმჯობესებს მდგრადობას აქცენტების, ფონური ხმაურისა და ტექნიკური ენის მიმართ. გარდა ამისა, ეს შესაძლებელს ხდის ტრანსკრიფციას მრავალ ენაზე, ასევე ამ ენებიდან ინგლისურად თარგმნას. ჩვენ ღია კოდით ვაქვეყნებთ მოდელებსა და ინფერენსის კოდს, რათა ეს სასარგებლო აპლიკაციების შექმნის საფუძვლად და მეტყველების მდგრადი დამუშავების შემდგომი კვლევის საყრდენად გამოდგეს.

Whisper-ის არქიტექტურა არის მარტივი end-to-end მიდგომა, რომელიც encoder-decoder ტრანსფორმერის სახით არის განხორციელებული. შემავალი აუდიო 30-წამიან ნაწილებად იყოფა, გარდაიქმნება log-Mel სპექტროგრამად და შემდეგ ენკოდერში გადაეცემა. დეკოდერი გაწვრთნილია შესაბამისი ტექსტური წარწერის პროგნოზირებაზე, სპეციალურ token-ებთან ერთად, რომლებიც ერთ მოდელს ისეთი ამოცანების შესრულებას მიუთითებს, როგორიცაა ენის იდენტიფიკაცია, ფრაზის დონის დროითი ნიშნულები, მრავალენოვანი მეტყველების ტრანსკრიფცია და ინგლისურად მეტყველების თარგმნა.

დიაგრამა, რომელიც აღწერს, როგორ იწვრთნება ASR მოდელები

სხვა არსებული მიდგომები ხშირად იყენებს უფრო მცირე, აუდიოსა და ტექსტის უფრო მჭიდროდ დაწყვილებულ სასწავლო მონაცემთა ნაკრებებს,¹ ^{2 და 3} ან მიმართავს ფართო, მაგრამ ზედამხედველობის გარეშე აუდიო-წინასწარ გაწვრთნას.^{4, 5 და 6} იმის გამო, რომ Whisper დიდი და მრავალფეროვანი მონაცემთა ნაკრებზე გაწვრთნეს და არც ერთ კონკრეტულზე დამატებით არ მოურგებიათ, ის ვერ სჯობნის მოდელებს, რომლებიც LibriSpeech-ის შედეგებზე სპეციალიზდებიან — მეტყველების ამოცნობაში ფართოდ ცნობილ კონკურენტულ ბენჩმარკზე. თუმცა, როცა Whisper-ის ნულოვანი მცდელობის შედეგებს მრავალ მრავალფეროვან მონაცემთა ნაკრებზე ვზომავთ, ვხედავთ, რომ ის ბევრად უფრო მდგრადია და ამ მოდელებზე 50%-ით ნაკლებ შეცდომას უშვებს.

Whisper-ის აუდიო მონაცემთა ნაკრების დაახლოებით მესამედი არაინგლისურია, და მას მონაცვლეობით ეძლევა ან ორიგინალ ენაზე ტრანსკრიფციის, ან ინგლისურად თარგმნის ამოცანა. ვხვდებით, რომ ეს მიდგომა განსაკუთრებით ეფექტურია მეტყველებიდან ტექსტში თარგმნის სწავლაში და CoVoST2-ზე ინგლისურად თარგმნის ნულოვანი მცდელობის რეჟიმში ზედამხედველობით SOTA-ს აჭარბებს.

იტვირთება...

ვიმედოვნებთ, Whisper-ის მაღალი სიზუსტე და გამოყენების სიმარტივე დეველოპერებს საშუალებას მისცემს, ხმოვანი ინტერფეისები აპლიკაციების ბევრად უფრო ფართო სპექტრს დაუმატონ. მეტი დეტალის გასაგებად და Whisper-ის გამოსაცდელად იხილეთ ნაშრომი⁠(იხსნება ახალ ფანჯარაში), მოდელის ბარათი⁠(იხსნება ახალ ფანჯარაში) და კოდი⁠(იხსნება ახალ ფანჯარაში).

წყაროები

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: უბრალოდ აურიეთ მეტყველების ამოცნობის ყველა ხელმისაწვდომი მონაცემი ერთი დიდი ნეირონული ქსელის გასაწვრთნელად. arXiv preprint arXiv:2104.02133, 2021⁠(იხსნება ახალ ფანჯარაში).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. ხალხის მეტყველება: დიდი მასშტაბის მრავალფეროვანი ინგლისური მეტყველების ამოცნობის მონაცემთა ნაკრები კომერციული გამოყენებისთვის. arXiv preprint arXiv:2111.09344, 2021⁠(იხსნება ახალ ფანჯარაში).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: განვითარებადი, მრავალდომენიანი asr კორპუსი 10,000 საათი ტრანსკრიბირებული აუდიოთი. arXiv preprint arXiv:2106.06909, 2021⁠(იხსნება ახალ ფანჯარაში).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: ჩარჩო მეტყველების რეპრეზენტაციების თვითზედამხედველობითი სწავლებისთვის. arXiv preprint arXiv:2006.11477, 2020⁠(იხსნება ახალ ფანჯარაში).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. მეტყველების ამოცნობა ზედამხედველობის გარეშე. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: დიდი მასშტაბის ნახევრად ზედამხედველობითი სწავლის მოწინავე მიმართულებების შესწავლა მეტყველების ავტომატური ამოცნობისთვის. arXiv preprint arXiv:2109.13226, 2021⁠(იხსნება ახალ ფანჯარაში).

დაკავშირებული სტატიები

ყველას ნახვა

Hierarchical Text Conditional Image Generation With Clip Latents

CLIP ლატენტებით იერარქიული ტექსტით განპირობებული სურათის გენერირება

პუბლიკაცია13 აპრ. 2022

Solving (some) formal math olympiad problems

ეტაპი2 თებ. 2022

მათემატიკური ტექსტური ამოცანების ამოხსნა

პუბლიკაცია29 ოქტ. 2021