২১ সেপ্টেম্বর, ২০২২

Whisper এর পরিচিতি

আমরা Whisper নামে একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণ দিয়েছি এবং উন্মুক্ত উৎস হিসেবে প্রকাশ করছি, যা ইংরেজি বক্তৃতা শনাক্তকরণে মানব-স্তরের স্থিতিস্থাপকতা ও নির্ভুলতার কাছাকাছি পৌঁছেছে।

পেপার পড়ুন কোড দেখুন মডেল কার্ড দেখুন

লোডিং…

লোড হচ্ছে...

Whisper একটি স্বয়ংক্রিয় বক্তৃতা শনাক্তকরণ (ASR) সিস্টেম, যা ওয়েব থেকে সংগৃহীত ৬,৮০,০০০ ঘণ্টার বহুভাষিক ও বহু-কাজভিত্তিক সুপারভাইজড ডেটাতে প্রশিক্ষিত. আমরা প্রমাণ করেছি যে এমন বৃহৎ ও বৈচিত্র্যময় ডেটাসেটের ব্যবহার উচ্চারণ, পটভূমি-শব্দ এবং প্রযুক্তিগত ভাষার প্রতি স্থিতিস্থাপকতা উন্নত করে. তাছাড়া, এটি একাধিক ভাষায় ট্রান্সক্রিপশন করার পাশাপাশি সেইসব ভাষা থেকে ইংরেজিতে অনুবাদ করার সুযোগ দেয়. আমরা মডেল এবং ইনফারেন্স কোড ওপেন সোর্স করছি, যাতে কার্যকরী অ্যাপ্লিকেশন তৈরির ভিত্তি হিসেবে এবং দৃঢ় বক্তৃতা প্রক্রিয়াকরণ নিয়ে আরও গবেষণার জন্য এটি ব্যবহার করা যায়.

Whisper-এর আর্কিটেকচার একটি সরল এন্ড-টু-এন্ড পদ্ধতি, যা একটি এনকোডার-ডিকোডার ট্রান্সফরমার হিসেবে বাস্তবায়িত. ইনপুট অডিওকে ৩০-সেকেন্ডের ভাগে বিভক্ত করে, লগ-মেল স্পেকট্রোগ্রামে রূপান্তর করা হয়, তারপর এনকোডারে পাঠানো হয়. একটি ডিকোডার প্রশিক্ষিত হয় যথাযথ টেক্সট ক্যাপশন ভবিষ্যদ্বাণী করতে, যেখানে বিশেষ টোকেন থাকে যা একক মডেলটিকে ভাষা শনাক্তকরণ, বাক্যাংশ-স্তরের টাইমস্ট্যাম্প, বহুভাষিক বক্তৃতা ট্রান্সক্রিপশন, এবং ইংরেজিতে বক্তৃতা অনুবাদের মতো কাজ সম্পাদনে নির্দেশ দেয়.

ASR মডেল কীভাবে প্রশিক্ষিত হয় তার বিস্তারিত ডায়াগ্রাম

অন্য বিদ্যমান পদ্ধতিগুলো প্রায়ই ছোট ও আরও ঘনিষ্ঠভাবে যুক্ত অডিও-টেক্সট প্রশিক্ষণ ডেটাসেট ব্যবহার করে¹ ^{2, 3} বা বিস্তৃত কিন্তু আনসুপারভাইজড অডিও প্রি-ট্রেনিং ব্যবহার করে.^{4, 5, 6} কারণ Whisper একটি বৃহৎ ও বহুমুখী ডেটাসেটে প্রশিক্ষিত হয়েছিল এবং কোনো নির্দিষ্ট ডেটাসেটের জন্য ফাইন-টিউন করা হয়নি, তাই এটি LibriSpeech পারফরম্যান্সে বিশেষায়িত মডেলগুলোকে ছাড়িয়ে যায় না, যা বক্তৃতা শনাক্তকরণের একটি বিখ্যাত প্রতিযোগিতামূলক বেঞ্চমার্ক. তবে, যখন আমরা Whisper-এর জিরো-শট পারফরম্যান্স বিভিন্ন বৈচিত্র্যময় ডেটাসেটে পরিমাপ করি, আমরা দেখি এটি অনেক বেশি দৃঢ় এবং ঐ মডেলগুলোর তুলনায় ৫০% কম ত্রুটি করে.

Whisper-এর অডিও ডেটাসেটের প্রায় এক-তৃতীয়াংশই অ-ইংরেজি, এবং এটিকে পালাক্রমে মূল ভাষায় ট্রান্সক্রাইব করা বা ইংরেজিতে অনুবাদ করার কাজ দেওয়া হয়েছে. আমরা দেখতে পাই এই পদ্ধতি বিশেষভাবে কার্যকর বক্তৃতা থেকে লেখায় অনুবাদ শেখাতে, এবং CoVoST2 থেকে ইংরেজিতে অনুবাদে সুপারভাইজড SOTA-এর তুলনায় জিরো-শটে আরও ভালো পারফর্ম করে.

লোড হচ্ছে...

আমরা আশা করি Whisper-এর উচ্চ নির্ভুলতা ও সহজ ব্যবহারযোগ্যতা ডেভেলপারদের বিভিন্নধরনের অ্যাপ্লিকেশনে ভয়েস ইন্টারফেস যোগ করতে সক্ষম করবে. আরও বিস্তারিত জানার জন্য এবং Whisper পরীক্ষা করার জন্য পেপার⁠(একটি নতুন উইন্ডোতে খোলে), মডেল কার্ড⁠(একটি নতুন উইন্ডোতে খোলে) এবং কোড⁠(একটি নতুন উইন্ডোতে খোলে) দেখুন .

রেফারেন্স

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., এবং Norouzi, M. SpeechStew: একটি বৃহৎ নিরপক্ষে নেটওয়ার্ককে প্রশিক্ষণ দিন সমস্ত উপলব্ধ বক্তৃতা স্বীকৃতি ডেটা মিশ্রিত করুন. arXiv প্রিপ্রিন্ট arXiv:2104.02133, 2021⁠(একটি নতুন উইন্ডোতে খোলে).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., এবং Reddi, V. J. জনগণের বক্তৃতা: বাণিজ্যিক ব্যবহারের জন্য একটি বড় আকারের বৈচিত্র্যময় ইংরেজি স্পিচ স্বীকৃতি ডেটাসেট. arXiv প্রিপ্রিন্ট arXiv:2111.09344, 2021⁠(একটি নতুন উইন্ডোতে খোলে).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., প্রমুখ. গিগাস্পিচ: 10,000 ঘন্টা প্রতিলিপি করা অডিও সহ একটি বিবর্তিত, মাল্টি-ডোমেন এএসআর কর্পাস. arXiv প্রিপ্রিন্ট arXiv:2106.06909, 2021⁠(একটি নতুন উইন্ডোতে খোলে).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(একটি নতুন উইন্ডোতে খোলে).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu পর্যবেক্ষণকৃত বক্তব্য শনাক্তকরণ. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমস, 34:27826–27839, 2021-এ অগ্রগতি.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., প্রমুখ BigSSL: স্বয়ংক্রিয় বক্তৃতা স্বীকৃতির জন্য বৃহৎ-স্কেল আধা-তত্ত্বাবধানে শিক্ষার সীমানা অন্বেষণ. arXiv প্রিপ্রিন্ট arXiv:2109.13226, 2021⁠(একটি নতুন উইন্ডোতে খোলে).

Whisper এর পরিচিতি

রেফারেন্স

সম্পর্কিত আর্টিকেল