پرش به محتوای اصلی
OpenAI

۳۰ شهریور ۱۴۰۱

انتشار

معرفی Whisper

ما یک شبکه عصبی به نام Whisper را آموزش داده‌ایم و آن را به صورت متن‌باز منتشر می‌کنیم که به استحکام و دقت سطح انسانی در تشخیص گفتار انگلیسی نزدیک می‌شود.

در حال بارگذاری…
در حال بارگذاری...

Whisper یک سیستم تشخیص خودکار گفتار (ASR) است که با استفاده از 680000 ساعت داده‌های چندزبانه و چندوظیفه‌ای نظارت‌شده که از وب جمع‌آوری شده‌اند، آموزش دیده است. ما نشان می‌دهیم که استفاده از چنین مجموعه داده بزرگ و متنوعی باعث بهبود مقاومت در برابر لهجه‌ها، نویز پس‌زمینه و زبان فنی می‌شود. علاوه بر این، امکان رونویسی به چندین زبان و همچنین ترجمه از آن زبان‌ها به انگلیسی را فراهم می‌کند. ما مدل‌ها و کد استنتاج را به صورت منبع باز ارائه می‌دهیم تا به عنوان پایه‌ای برای ساخت برنامه‌های کاربردی مفید و تحقیقات بیشتر در پردازش گفتار قوی عمل کند.

خلاصه‌ای از معماری مدل ASR

معماری Whisper یک رویکرد ساده و جامع است که به عنوان یک ترانسفورماتور رمزگذار-رمزگشا پیاده‌سازی شده است. صدای ورودی به بخش‌های ۳۰ ثانیه‌ای تقسیم می‌شود، به یک طیف‌نگار log-Mel تبدیل می‌شود و سپس به یک انکودر منتقل می‌شود. یک رمزگشا آموزش داده می‌شود تا عنوان متن مربوطه را پیش‌بینی کند، که با token‌های ویژه‌ای ترکیب می‌شود که مدل واحد را برای انجام وظایفی مانند شناسایی زبان، زمان‌بندی در سطح عبارت، رونویسی گفتار چندزبانه و ترجمه گفتار به انگلیسی هدایت می‌کند.

نموداری که نحوه آموزش مدل‌های ASR را با جزئیات نشان می‌دهد

سایر رویکردهای موجود اغلب از مجموعه داده‌های آموزشی متن-صوتی کوچک‌تر و جفت‌شده‌تر استفاده می‌کنند،1 2،‏ 3 یا از پیش‌آموزش صوتی گسترده اما بدون نظارت استفاده می‌کنند.4،‏ 5،‏ 6 از آنجا که Whisper بر روی یک مجموعه داده بزرگ و متنوع آموزش دیده و برای هیچ‌کدام به‌طور خاص تنظیم نشده است، نمی‌تواند مدل‌هایی را که در عملکرد LibriSpeech تخصص دارند، شکست دهد؛ معیاری که به‌عنوان یک شاخص رقابتی مشهور در تشخیص گفتار شناخته می‌شود. با این حال، وقتی عملکرد صفر شات Whisper را در مجموعه داده‌های متنوع زیادی اندازه‌گیری می‌کنیم، متوجه می‌شویم که بسیار قوی‌تر است و ۵۰٪ خطای کمتری نسبت به آن مدل‌ها دارد.

حدود یک سوم از مجموعه داده‌های صوتی Whisper غیرانگلیسی است و به طور متناوب وظیفه رونویسی به زبان اصلی یا ترجمه به انگلیسی به آن داده می‌شود. ما متوجه شدیم که این روش به‌ویژه در یادگیری ترجمه گفتار به متن بسیار مؤثر است و در ترجمه بدون نظارت CoVoST2 به انگلیسی از SOTA پیشی می‌گیرد.

در حال بارگذاری...

امیدواریم دقت بالای Whisper و سهولت استفاده از آن به توسعه‌دهندگان اجازه دهد رابط‌های دستیار صوتی را به مجموعه بسیار گسترده‌تری از برنامه‌ها اضافه کنند. مقاله(در یک پنجره جدید باز می‌شود)، کارت مدل(در یک پنجره جدید باز می‌شود) و کد(در یک پنجره جدید باز می‌شود) را بررسی کن تا جزئیات بیشتری یاد بگیری و Whisper را امتحان کنی.

منابع

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., و نوروزی, M. SpeechStew: به سادگی تمام داده‌های تشخیص گفتار موجود را برای آموزش یک شبکه عصبی بزرگ ترکیب کنید. پیش‌چاپ arXiv arXiv:2104.02133، 2021(در یک پنجره جدید باز می‌شود).

  2. 2

    گالوز ، دی ، دیاموس ، جی ، تورس ، جی ام سی ، آخورن ، ک. ، گوپی ، آ. ، کانتر ، دی ، لام ، م. ، مازومدر ، م. ، و ردی ، وی جی. گفتار مردم: یک مجموعه داده بزرگ و متنوع برای تشخیص گفتار انگلیسی جهت استفاده تجاری. پیش‌چاپ arXiv:2111.09344، 2021(در یک پنجره جدید باز می‌شود).

  3. 3

    چن، جی.، چای، اس.، وانگ، جی.، دو، جی.، ژانگ، دبلیو.-کیو.، ونگ، سی.، سو، دی.، پووی، دی.، ترمال، جی.، ژانگ، جی. و دیگران. Gigaspeech: یک مجموعه asr در حال تکامل و چند دامنه ای با 10,000 ساعت صدای رونویسی شده. پیش‌چاپ arXiv arXiv:2106.06909، 2021(در یک پنجره جدید باز می‌شود).

  4. 4

    بائوسکی، آ.، ژو، ه.، محمد، آ.، و آئولی، م. wav2vec 2.0: چارچوبی برای یادگیری خودنظارتی بازنمایی‌های گفتاری. پیش‌چاپ arXiv:2006.11477، 2020(در یک پنجره جدید باز می‌شود).

  5. 5

    بائوسکی، آ.، هسو، دبلیو.ان.، کونو، آ.، و آئولی، ام. اونسو بر تشخیص گفتار نظارت داشتند. پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی، 34:27826–27839، 2021.

  6. 6

    ژانگ، ی.، پارک، دی.اس، هان، دبلیو.، کین، جی.، گولاتی، ای.، شور، جی.، جانسن، ای.، شو، ی.، هوانگ، ی.، وانگ، اس.، و همکاران. BigSSL: کاوش در مرزهای یادگیری نیمه‌نظارت‌شده در مقیاس بزرگ برای شناسایی خودکار گفتار. پیش‌چاپ arXiv:2109.13226، 2021(در یک پنجره جدید باز می‌شود).