معرفی Whisper
ما یک شبکه عصبی به نام Whisper را آموزش دادهایم و آن را به صورت متنباز منتشر میکنیم که به استحکام و دقت سطح انسانی در تشخیص گفتار انگلیسی نزدیک میشود.
Whisper یک سیستم تشخیص خودکار گفتار (ASR) است که با استفاده از 680000 ساعت دادههای چندزبانه و چندوظیفهای نظارتشده که از وب جمعآوری شدهاند، آموزش دیده است. ما نشان میدهیم که استفاده از چنین مجموعه داده بزرگ و متنوعی باعث بهبود مقاومت در برابر لهجهها، نویز پسزمینه و زبان فنی میشود. علاوه بر این، امکان رونویسی به چندین زبان و همچنین ترجمه از آن زبانها به انگلیسی را فراهم میکند. ما مدلها و کد استنتاج را به صورت منبع باز ارائه میدهیم تا به عنوان پایهای برای ساخت برنامههای کاربردی مفید و تحقیقات بیشتر در پردازش گفتار قوی عمل کند.
معماری Whisper یک رویکرد ساده و جامع است که به عنوان یک ترانسفورماتور رمزگذار-رمزگشا پیادهسازی شده است. صدای ورودی به بخشهای ۳۰ ثانیهای تقسیم میشود، به یک طیفنگار log-Mel تبدیل میشود و سپس به یک انکودر منتقل میشود. یک رمزگشا آموزش داده میشود تا عنوان متن مربوطه را پیشبینی کند، که با tokenهای ویژهای ترکیب میشود که مدل واحد را برای انجام وظایفی مانند شناسایی زبان، زمانبندی در سطح عبارت، رونویسی گفتار چندزبانه و ترجمه گفتار به انگلیسی هدایت میکند.
سایر رویکردهای موجود اغلب از مجموعه دادههای آموزشی متن-صوتی کوچکتر و جفتشدهتر استفاده میکنند،1 2، 3 یا از پیشآموزش صوتی گسترده اما بدون نظارت استفاده میکنند.4، 5، 6 از آنجا که Whisper بر روی یک مجموعه داده بزرگ و متنوع آموزش دیده و برای هیچکدام بهطور خاص تنظیم نشده است، نمیتواند مدلهایی را که در عملکرد LibriSpeech تخصص دارند، شکست دهد؛ معیاری که بهعنوان یک شاخص رقابتی مشهور در تشخیص گفتار شناخته میشود. با این حال، وقتی عملکرد صفر شات Whisper را در مجموعه دادههای متنوع زیادی اندازهگیری میکنیم، متوجه میشویم که بسیار قویتر است و ۵۰٪ خطای کمتری نسبت به آن مدلها دارد.
حدود یک سوم از مجموعه دادههای صوتی Whisper غیرانگلیسی است و به طور متناوب وظیفه رونویسی به زبان اصلی یا ترجمه به انگلیسی به آن داده میشود. ما متوجه شدیم که این روش بهویژه در یادگیری ترجمه گفتار به متن بسیار مؤثر است و در ترجمه بدون نظارت CoVoST2 به انگلیسی از SOTA پیشی میگیرد.
امیدواریم دقت بالای Whisper و سهولت استفاده از آن به توسعهدهندگان اجازه دهد رابطهای دستیار صوتی را به مجموعه بسیار گستردهتری از برنامهها اضافه کنند. مقاله(در یک پنجره جدید باز میشود)، کارت مدل(در یک پنجره جدید باز میشود) و کد(در یک پنجره جدید باز میشود) را بررسی کن تا جزئیات بیشتری یاد بگیری و Whisper را امتحان کنی.
منابع
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., و نوروزی, M. SpeechStew: به سادگی تمام دادههای تشخیص گفتار موجود را برای آموزش یک شبکه عصبی بزرگ ترکیب کنید. پیشچاپ arXiv arXiv:2104.02133، 2021(در یک پنجره جدید باز میشود).
- 2
گالوز ، دی ، دیاموس ، جی ، تورس ، جی ام سی ، آخورن ، ک. ، گوپی ، آ. ، کانتر ، دی ، لام ، م. ، مازومدر ، م. ، و ردی ، وی جی. گفتار مردم: یک مجموعه داده بزرگ و متنوع برای تشخیص گفتار انگلیسی جهت استفاده تجاری. پیشچاپ arXiv:2111.09344، 2021(در یک پنجره جدید باز میشود).
- 3
چن، جی.، چای، اس.، وانگ، جی.، دو، جی.، ژانگ، دبلیو.-کیو.، ونگ، سی.، سو، دی.، پووی، دی.، ترمال، جی.، ژانگ، جی. و دیگران. Gigaspeech: یک مجموعه asr در حال تکامل و چند دامنه ای با 10,000 ساعت صدای رونویسی شده. پیشچاپ arXiv arXiv:2106.06909، 2021(در یک پنجره جدید باز میشود).
- 4
بائوسکی، آ.، ژو، ه.، محمد، آ.، و آئولی، م. wav2vec 2.0: چارچوبی برای یادگیری خودنظارتی بازنماییهای گفتاری. پیشچاپ arXiv:2006.11477، 2020(در یک پنجره جدید باز میشود).
- 5
بائوسکی، آ.، هسو، دبلیو.ان.، کونو، آ.، و آئولی، ام. اونسو بر تشخیص گفتار نظارت داشتند. پیشرفتها در سیستمهای پردازش اطلاعات عصبی، 34:27826–27839، 2021.
- 6
ژانگ، ی.، پارک، دی.اس، هان، دبلیو.، کین، جی.، گولاتی، ای.، شور، جی.، جانسن، ای.، شو، ی.، هوانگ، ی.، وانگ، اس.، و همکاران. BigSSL: کاوش در مرزهای یادگیری نیمهنظارتشده در مقیاس بزرگ برای شناسایی خودکار گفتار. پیشچاپ arXiv:2109.13226، 2021(در یک پنجره جدید باز میشود).


