२१ सप्टेंबर, २०२२

Whisper ची ओळख

आम्ही Whisper नावाचं न्यूरल नेट ट्रेन करून ओपन-सोर्स केलं आहे, जे इंग्रजी स्पीच रिकग्निशनमध्ये मानवी स्तराच्या मजबुती आणि अचूकतेच्या जवळ जातं.

पेपर वाचा कोड पहा मॉडेल कार्ड पहा

लोड होत आहे...

लोड होत आहे ...

Whisper हा ऑटोमॅटिक स्पीच रिकग्निशन (ASR) सिस्टीम आहे, जो वेबसवरून गोळा केलेल्या ६,८०,००० तासांच्या मल्टीलिंग्वल आणि मल्टिटास्क सुपरव्हाइज्ड डेटावर ट्रेन केला आहे. आम्ही दाखवतो की इतक्या मोठ्या आणि विविध डेटासेटच्या वापरामुळे उच्चारण, बॅकग्राउंड आवाज आणि तांत्रिक भाषेतील मजबुती वाढते. शिवाय, यामुळे अनेक भाषांमध्ये ट्रान्स्क्रिप्शन करता येते, तसेच त्या भाषांमधून इंग्रजीत भाषांतरही करता येते. आम्ही उपयुक्त अॅप्लिकेशन्स तयार करण्यासाठी आणि मजबूत स्पीच प्रोसेसिंगवर पुढील संशोधनासाठी मूलाधार म्हणून काम करण्यासाठी मॉडेल्स आणि इन्फरन्स कोड ओपन-सोर्स करत आहोत.

Whisper आर्किटेक्चर हा एक साधा एंड-टू-एंड अप्रोच आहे, जो एन्कोडर-डिकोडर ट्रान्सफॉर्मर म्हणून इम्प्लिमेंट केला आहे. इनपुट ऑडिओ ३० सेकंदांच्या भागांमध्ये विभागला जातो, लॉग-मेल स्पेक्ट्रोग्राममध्ये कन्व्हर्ट केला जातो आणि नंतर एन्कोडरमध्ये दिला जातो. डिकोडरला संबंधित टेक्स्ट कॅप्शन प्रेडिक्ट करण्यासाठी ट्रेन केलं जातं, ज्यात स्पेशल टोकन्स मिसळलेले असतात जे एकाच मॉडेलला भाषा ओळख, फ्रेज-लेवल टाइमस्टॅम्प्स, मल्टीलिंग्वल स्पीच ट्रान्स्क्रिप्शन आणि इंग्रजीमध्ये स्पीच ट्रान्सलेशन यांसारख्या टास्कसाठी डायरेक्ट करतात.

ASR मॉडेल्स कसे ट्रेन होतात याचा तपशील दाखवणारा डायग्राम

इतर विद्यमान दृष्टिकोन वारंवार लहान, अधिक जवळून जोडलेले ऑडिओ-मजकूर प्रशिक्षण डेटासेट वापरतात, ¹ ² ³ किंवा व्यापक परंतु अनसुपरव्हाइज्ड ऑडिओ प्री-ट्रेनिंग वापरतात. ⁴ ⁵ ⁶ कारण Whisper ला मोठ्या आणि विविध डेटासेटवर प्रशिक्षित केले गेले होते आणि कोणत्याही विशिष्ट डेटासेटसाठी फाइन-ट्यून केले गेले नव्हते, त्यामुळे ते लिब्रीस्पीच कार्यक्षमतेमध्ये तज्ञ असलेल्या मॉडेल्सना हरवू शकत नाही, जे स्पीच रेकग्निशनमधील एक प्रसिद्ध स्पर्धात्मक बेंचमार्क आहे. मात्र, जेव्हा आम्ही Whisper चा झिरो-शॉट परफॉर्मन्स विविध डेटासेट्सवर मोजतो तेव्हा तो खूपच मजबूत असल्याचं आणि त्या मॉडेल्सपेक्षा ५०% कमी चुका करतो असं आढळतं.

Whisper च्या ऑडिओ डेटासेटपैकी सुमारे एक-तृतीयांश नॉन-इंग्रजी आहे, आणि त्याला कधी मूळ भाषेत ट्रान्स्क्रिप्शन तर कधी इंग्रजीत ट्रान्सलेशन करण्याचं टास्क दिलं जातं. हा अप्रोच स्पीच-टू-टेक्स्ट ट्रान्सलेशन शिकण्यात विशेषतः प्रभावी आहे आणि CoVoST2 वर इंग्रजी ट्रान्सलेशन झिरो-शॉटमध्ये सुपरव्हाइज्ड SOTA पेक्षा चांगलं परफॉर्म करतो.

लोड होत आहे ...

आम्हाला आशा आहे की Whisper ची उच्च अचूकता आणि वापरण्याची सुलभता डेव्हलपर्सना अधिक व्यापक अॅप्लिकेशन्समध्ये व्हॉईस इंटरफेस जोडण्यास सक्षम करेल. अधिक तपशील जाणून घेण्यासाठी आणि Whisper वापरून पाहण्यासाठी पेपर⁠(नवीन विंडोमध्ये उघडेल), मॉडेल कार्ड⁠(नवीन विंडोमध्ये उघडेल), आणि कोड⁠(नवीन विंडोमध्ये उघडेल) पहा.

संदर्भ

1
चॅन, डब्ल्यू., पार्क, डी., ली, सी., झांग, वाय., ले, क्यू., आणि नोरोझी, एम. स्पीचस्ट्यू: एका मोठ्या न्यूरल नेटवर्कला ट्रेन करण्यासाठी सर्व उपलब्ध स्पीच ओळख डेटा फक्त मिसळा. arXiv प्रीप्रिंट arXiv:2104.02133, 2021⁠(नवीन विंडोमध्ये उघडेल).
2
गॅल्वेझ, D., डायमोस, G., टोरेस, J. M. C., अचॉर्न, K., गोपी, A., कांटर, D., लॅम, M., मजूमदार, M., आणि रेड्डी, V. J. लोकांचे भाषण: व्यावसायिक वापरासाठी मोठ्या प्रमाणात वैविध्यपूर्ण इंग्रजी भाषण ओळख डेटासेट. arXiv प्रीप्रिंट arXiv:2111.09344, 2021⁠(नवीन विंडोमध्ये उघडेल).
3
चेन, G., चाई , S., वांग , G., Du, J., झांग , W.-Q.,वेन्ग , C., Su, D., पोवाय , D., थर्मल, J., झांग, J., et al. Gigaspeech: १०,००० तासांच्या लिप्यंतरित ऑडिओसह एक विकसित, बहु-डोमेन एएसआर कॉर्पस. arXiv preprint arXiv:2106.06909, 2021⁠(नवीन विंडोमध्ये उघडेल).
4
बेव्स्की, ए., झोउ, एच., मोहम्मद, ए., आणि औली, एम. wav2vec 2.0: स्पीच रिप्रेझेंटेशन्ससाठी सेल्फ-सुपरव्हाइज्ड लर्निंगचं फ्रेमवर्क. arXiv प्रीप्रिंट arXiv:2006.11477, 2020⁠(नवीन विंडोमध्ये उघडेल).
5
बाएव्हस्की, A., हसू, W.N., कॉन्नो, A., आणि ऑली, M. अनसुपरव्हाइज्ड स्पीच रिकग्निशन. न्यूरल इन्फॉर्मेशन प्रोसेसिंग सिस्टीम्समधील प्रगती, 34:27826–27839, 2021.
6
झांग, Y., पार्क, D. S., हान, W., Qin, J., गुलाटी, A., शोर, J., जनसेन, A., Xu, Y., हुआंग , Y., वांग, S., et al. BigSSL: स्वयंचलित भाषण ओळखीसाठी मोठ्या प्रमाणात अर्ध-निरीक्षित शिक्षणाच्या सीमांचे एक्सप्लोर करणे. arXiv प्रीप्रिंट arXiv:2109.13226, 2021⁠(नवीन विंडोमध्ये उघडेल).

Whisper ची ओळख

संदर्भ

संबंधित लेख