মূল কনটেন্টে যান
OpenAI

২১ সেপ্টেম্বর, ২০২২

রিলিজ

Whisper এর পরিচিতি

আমরা Whisper নামে একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণ দিয়েছি এবং উন্মুক্ত উৎস হিসেবে প্রকাশ করছি, যা ইংরেজি বক্তৃতা শনাক্তকরণে মানব-স্তরের স্থিতিস্থাপকতা ও নির্ভুলতার কাছাকাছি পৌঁছেছে।

লোডিং…
লোড হচ্ছে...

Whisper একটি স্বয়ংক্রিয় বক্তৃতা শনাক্তকরণ (ASR) সিস্টেম, যা ওয়েব থেকে সংগৃহীত ৬,৮০,০০০ ঘণ্টার বহুভাষিক ও বহু-কাজভিত্তিক সুপারভাইজড ডেটাতে প্রশিক্ষিত. আমরা প্রমাণ করেছি যে এমন বৃহৎ ও বৈচিত্র্যময় ডেটাসেটের ব্যবহার উচ্চারণ, পটভূমি-শব্দ এবং প্রযুক্তিগত ভাষার প্রতি স্থিতিস্থাপকতা উন্নত করে. তাছাড়া, এটি একাধিক ভাষায় ট্রান্সক্রিপশন করার পাশাপাশি সেইসব ভাষা থেকে ইংরেজিতে অনুবাদ করার সুযোগ দেয়. আমরা মডেল এবং ইনফারেন্স কোড ওপেন সোর্স করছি, যাতে কার্যকরী অ্যাপ্লিকেশন তৈরির ভিত্তি হিসেবে এবং দৃঢ় বক্তৃতা প্রক্রিয়াকরণ নিয়ে আরও গবেষণার জন্য এটি ব্যবহার করা যায়.

ASR মডেল আর্কিটেকচারের সারাংশ

Whisper-এর আর্কিটেকচার একটি সরল এন্ড-টু-এন্ড পদ্ধতি, যা একটি এনকোডার-ডিকোডার ট্রান্সফরমার হিসেবে বাস্তবায়িত. ইনপুট অডিওকে ৩০-সেকেন্ডের ভাগে বিভক্ত করে, লগ-মেল স্পেকট্রোগ্রামে রূপান্তর করা হয়, তারপর এনকোডারে পাঠানো হয়. একটি ডিকোডার প্রশিক্ষিত হয় যথাযথ টেক্সট ক্যাপশন ভবিষ্যদ্বাণী করতে, যেখানে বিশেষ টোকেন থাকে যা একক মডেলটিকে ভাষা শনাক্তকরণ, বাক্যাংশ-স্তরের টাইমস্ট্যাম্প, বহুভাষিক বক্তৃতা ট্রান্সক্রিপশন, এবং ইংরেজিতে বক্তৃতা অনুবাদের মতো কাজ সম্পাদনে নির্দেশ দেয়.

ASR মডেল কীভাবে প্রশিক্ষিত হয় তার বিস্তারিত ডায়াগ্রাম

অন্য বিদ্যমান পদ্ধতিগুলো প্রায়ই ছোট ও আরও ঘনিষ্ঠভাবে যুক্ত অডিও-টেক্সট প্রশিক্ষণ ডেটাসেট ব্যবহার করে1 2, 3 বা বিস্তৃত কিন্তু আনসুপারভাইজড অডিও প্রি-ট্রেনিং ব্যবহার করে.4, 5, 6 কারণ Whisper একটি বৃহৎ ও বহুমুখী ডেটাসেটে প্রশিক্ষিত হয়েছিল এবং কোনো নির্দিষ্ট ডেটাসেটের জন্য ফাইন-টিউন করা হয়নি, তাই এটি LibriSpeech পারফরম্যান্সে বিশেষায়িত মডেলগুলোকে ছাড়িয়ে যায় না, যা বক্তৃতা শনাক্তকরণের একটি বিখ্যাত প্রতিযোগিতামূলক বেঞ্চমার্ক. তবে, যখন আমরা Whisper-এর জিরো-শট পারফরম্যান্স বিভিন্ন বৈচিত্র্যময় ডেটাসেটে পরিমাপ করি, আমরা দেখি এটি অনেক বেশি দৃঢ় এবং ঐ  মডেলগুলোর তুলনায় ৫০% কম ত্রুটি করে.

Whisper-এর অডিও ডেটাসেটের প্রায় এক-তৃতীয়াংশই অ-ইংরেজি, এবং এটিকে পালাক্রমে মূল ভাষায় ট্রান্সক্রাইব করা বা ইংরেজিতে অনুবাদ করার কাজ দেওয়া হয়েছে. আমরা দেখতে পাই এই পদ্ধতি বিশেষভাবে কার্যকর বক্তৃতা থেকে লেখায় অনুবাদ শেখাতে, এবং CoVoST2 থেকে ইংরেজিতে অনুবাদে সুপারভাইজড SOTA-এর তুলনায় জিরো-শটে আরও ভালো পারফর্ম করে.

লোড হচ্ছে...

আমরা আশা করি Whisper-এর উচ্চ নির্ভুলতা ও সহজ ব্যবহারযোগ্যতা ডেভেলপারদের বিভিন্নধরনের অ্যাপ্লিকেশনে ভয়েস ইন্টারফেস যোগ করতে সক্ষম করবে. আরও বিস্তারিত জানার  জন্য এবং Whisper পরীক্ষা করার জন্য পেপার(একটি নতুন উইন্ডোতে খোলে)মডেল কার্ড(একটি নতুন উইন্ডোতে খোলে)  এবং কোড(একটি নতুন উইন্ডোতে খোলে) দেখুন .

রেফারেন্স

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., এবং Norouzi, M. SpeechStew: একটি বৃহৎ নিরপক্ষে নেটওয়ার্ককে প্রশিক্ষণ দিন সমস্ত উপলব্ধ বক্তৃতা স্বীকৃতি ডেটা মিশ্রিত করুন. arXiv প্রিপ্রিন্ট arXiv:2104.02133, 2021(একটি নতুন উইন্ডোতে খোলে).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., এবং Reddi, V. J. জনগণের বক্তৃতা: বাণিজ্যিক ব্যবহারের জন্য একটি বড় আকারের বৈচিত্র্যময় ইংরেজি স্পিচ স্বীকৃতি ডেটাসেট. arXiv প্রিপ্রিন্ট arXiv:2111.09344, 2021(একটি নতুন উইন্ডোতে খোলে).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., প্রমুখ. গিগাস্পিচ: 10,000 ঘন্টা প্রতিলিপি করা অডিও সহ একটি বিবর্তিত, মাল্টি-ডোমেন এএসআর কর্পাস. arXiv প্রিপ্রিন্ট arXiv:2106.06909, 2021(একটি নতুন উইন্ডোতে খোলে).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(একটি নতুন উইন্ডোতে খোলে).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu পর্যবেক্ষণকৃত বক্তব্য শনাক্তকরণ. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমস, 34:27826–27839, 2021-এ অগ্রগতি.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., প্রমুখ BigSSL: স্বয়ংক্রিয় বক্তৃতা স্বীকৃতির জন্য বৃহৎ-স্কেল আধা-তত্ত্বাবধানে শিক্ষার সীমানা অন্বেষণ. arXiv প্রিপ্রিন্ট arXiv:2109.13226, 2021(একটি নতুন উইন্ডোতে খোলে).