21 सितंबर 2022

पेश है Whisper

हमने Whisper नाम के एक न्यूरल नेट को ट्रेन किया है और उसे ओपन-सोर्स कर रहे हैं, जो अंग्रेज़ी जुबान की पहचान करने के काम को इंसानों के स्तर की मज़बूती और एक्‍यूरेसी तक पहुंचता है.

पेपर पढ़ें कोड देखें मॉडल कार्ड देखें

लोड किया जा रहा है...

Whisper एक ऑटोमेटिक स्‍पीच रिकॉग्निशन (ASR) सिस्‍टम है, जिसे वेब से इकट्ठा किए गए अलग-अलग भाषाओं और कई टास्क के सुपरवाइज़ किए गए डेटा पर 6,80,000 घंटों तक ट्रेन किया गया है. हमने दिखाया है कि इतने भारी-भरकम और अलग-अलग तरह के डेटासेट के इस्‍तेमाल से उच्चारण, बैकग्राउंड के शोर और तकनीकी भाषा की मज़बूती में बेहतरी आती है. इसके अलावा, यह एक से ज्‍़यादा भाषाओं में ट्रांसक्रिप्‍शन के साथ-साथ उन भाषाओं से अंग्रेज़ी में अनुवाद भी कर देता है. हम उपयोगी ऐप्लिकेशन बनाने और मज़बूत स्‍पीच प्रोसेसिंग पर आगे के रिसर्च के लिए बुनियाद के तौर पर काम करने के लिए मॉडल और इनफ़ेरेंस कोड को ओपन-सोर्स कर रहे हैं.

Whisper की बनावट आसान एंड-टू-एंड अप्रोच वाली है, जिसे एनकोडर-डिकोडर ट्रांसफ़ॉर्मर के तौर पर लागू किया जाता है. इनपुट ऑडियो को 30-सेकंड के हिस्‍सों में बांटा जाता है, लॉग-मेल स्पेक्ट्रोग्राम में बदला जाता है, और फिर एनकोडर में भेजा जाता है. डिकोडर को मेल खाते टेक्‍स्‍ट कैप्शन का अनुमान लगाने के लिए ट्रेन किया जाता है, जो ख़ास टोकनों से मिला हुआ होता है और सिंगल मॉडल को भाषा की पहचान करने, वाक्‍य के स्‍तर के टाइमस्टैंप, एक से ज्‍़यादा भाषा के ट्रांसक्रिप्‍शन और अंग्रेज़ी में स्‍पीच को अनुवाद करने जैसे टास्क को परफ़ॉर्म करने के लिए डायरेक्ट करता है.

डायग्राम में बताया गया है कि ASR मॉडल कैसे ट्रेन किए जाते हैं

अन्य मौजूदा अप्रोच अक्सर ही छोटे, ज्‍़यादा नज़दीकी से जुड़े ऑडियो-टेक्स्ट ट्रेनिंग डेटासेट का इस्‍तेमाल करते हैं,¹ ^{2 और 3} या बड़े लेकिन अनसुपरवाइज्‍़ड ऑडियो प्रीट्रेनिंग का इस्‍तेमाल करते हैं.^{4, 5 और 6} क्योंकि Whisper को एक बहुत बड़े और अलग-अलग डेटासेट पर ट्रेन किया गया था और इसे किसी ख़ास एक के लिए फ़ाइन-ट्यून नहीं किया गया था, इसलिए यह उन मॉडल को मात नहीं दे पाता, जो LibriSpeech परफ़ॉर्मेंस में माहिर हैं, जो कि जुबान की पहचान करने में मशहूर कॉम्पिटिटिव बेंचमार्क है. वैसे, जब हम कई अलग-अलग डेटासेट में Whisper की ज़ीरो शॉट परफ़ॉर्मेंस को मापते हैं, तो हमने पाया कि यह बहुत ज्‍़यादा मज़बूत है और अन्‍य मॉडल के मुक़ाबले 50% कम ग़लतियां करता है.

Whisper के ऑडियो डेटासेट का अंदाज़न एक तिहाई हिस्सा अंग्रेज़ी में नहीं है, और इसे बारी-बारी से ओरिजनल भाषा में ट्रांस्क्राइब करने या अंग्रेज़ी में अनुवाद करने का काम दिया जाता है. हमने पाया कि यह अप्रोच स्‍पीच से टेक्‍स्‍ट अनुवाद सीखने में ख़ास तौर पर असरदार है और CoVoST2 से अंग्रेज़ी अनुवाद ज़ीरो-शॉट पर सुपरवाइज्‍़ड SOTA से बेहतर परफ़ॉर्म करता है.

लोड किया जा रहा है...

हमें उम्‍मीद है कि Whisper की ज्‍़यादा एक्यूरेसी और इस्‍तेमाल करने में आसानी डेवलपर को ऐप्लिकेशन के ज्‍़यादा बड़े सेट में वॉइस इंटरफ़ेस जोड़ने देगी. ज्‍़यादा जानकारी पाने के लिए और Whisper को आज़माकर देखने के लिए पेपर⁠(एक नई विंडो में खुलेगा), मॉडल कार्ड⁠(एक नई विंडो में खुलेगा), और कोड⁠(एक नई विंडो में खुलेगा) को चेक करें.

रेफ़रेंस

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., और Norouzi, M. SpeechStew: सभी उपलब्ध स्पीच रिकग्निशन डेटा को मिलाकर एक बड़ा न्यूरल नेटवर्क ट्रेन करें. arXiv preprint arXiv:2104.02133, 2021⁠(एक नई विंडो में खुलेगा).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. लोगों का भाषण: व्यावसायिक उपयोग के लिए एक बड़े पैमाने पर विविध अंग्रेज़ी स्पीच रिकग्निशन डेटासेट. arXiv preprint arXiv:2111.09344, 2021⁠(एक नई विंडो में खुलेगा).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., आदि. Gigaspeech: 10,000 घंटों के ट्रांसक्राइब्ड ऑडियो वाला एक विकसित होता हुआ, मल्टी-डोमेन ASR कॉर्पस. arXiv preprint arXiv:2106.06909, 2021. Gigaspeech: 10,000 घंटों के ट्रांसक्राइब्ड ऑडियो वाला एक विकसित होता हुआ, मल्टी-डोमेन ASR कॉर्पस. arXiv preprint arXiv:2106.06909, 2021⁠(एक नई विंडो में खुलेगा).
4
Baevski, A., Zhou, H., Mohamed, A., और Auli, M. wav2vec 2.0: स्पीच रिप्रेज़ेंटेशन्स की सेल्फ-सुपरवाइज़्ड लर्निंग के लिए एक फ्रेमवर्क. arXiv preprint arXiv:2006.11477, 2020⁠(एक नई विंडो में खुलेगा).
5
Baevski, A., Hsu, W.N., Conneau, A., और Auli, M. अनसुपरवाइज़्ड स्पीच रिकग्निशन. एडवांसेज़ इन न्यूरल इन्फ़ॉर्मेशन प्रोसेसिंग सिस्टम्स 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., आदि. BigSSL: ऑटोमैटिक स्पीच रिकग्निशन के लिए बड़े पैमाने पर सेमी-सुपरवाइज़्ड लर्निंग की सीमाओं का अन्वेषण. arXiv preprint arXiv:2109.13226, 2021⁠(एक नई विंडो में खुलेगा).

पेश है Whisper

रेफ़रेंस

संबंधित आर्टिकल्स