الإعلان عن Whisper
لقد قمنا بتدريب شبكة عصبية تسمى Whisper وجعلناها مفتوحة المصدر، وتتميّز بمستوى عالٍ من القوة والدقة في التعرّف على الكلام باللغة الإنجليزية يقترب من مستوى الأداء البشري.
يُعدّ Whisper نظامًا للتعرف التلقائي على الكلام (ASR) تم تدريبه على 680,000 ساعة من البيانات متعددة اللغات والمهام المتعددة الخاضعة للإشراف، التي تم جمعها من الويب. نثبت أن استخدام مجموعة بيانات كبيرة ومتنوعة كهذه يؤدي إلى تحسين قوة النظام تجاه اللهجات، والضوضاء الخلفية، واللغة التقنية. كما يتيح ذلك إمكانية تفريغ الكلام بلغات متعددة، بالإضافة إلى الترجمة من تلك اللغات إلى الإنجليزية. ونتيح النماذج وكود الاستدلال كمصدر مفتوح ليكون بمثابة أساس لإنشاء تطبيقات مفيدة ولإجراء المزيد من الأبحاث حول معالجة الكلام القوية.
تتميز بنية Whisper ببساطة أسلوبها الشامل، ويتم تنفيذها كشبكة محول التشفير وفك التشفير. يتم تقسيم الصوت المُدخل إلى مقاطع مدتها 30 ثانية، ويُحوّل كل مقطع إلى طيف صوتي وفق مقياس ميل مع تحويل لوغاريتمي، ثم يُمرّر إلى وحدة التشفير. يتم تدريب وحدة فك التشفير على التنبؤ بالنص المكتوب الذي يُطابق محتوى المقطع الصوتي، مع دمج رموز خاصة توجه النموذج لأداء مهام متعددة مثل تحديد اللغة، وإضافة الطوابع الزمنية على مستوى الجمل، وتفريغ الكلام متعدد اللغات، وترجمة الكلام (النص المنطوق) إلى الإنجليزية.
غالبًا ما تستخدم الأساليب الأخرى الموجودة مجموعات بيانات تدريب الصوت والنص المرتبطة بشكل أوثق، 1 2 و3 أو تعتمد على تدريب مسبق على نطاق واسع ولكن غير خاضع للإشراف.4 و5 و6 نظرًا لأن Whisper تم تدريبه على مجموعة بيانات كبيرة ومتنوعة ولم يتم ضبطه بدقة ليناسب أيّ مجموعة بيانات محددة، فإنه لا يتفوق على النماذج المتخصصة في أداء LibriSpeech، وهو معيار تنافسي معروف في التعرف على الكلام. ومع ذلك، عند قياس أداء Whisper دون أيّ تدريب مسبق عبر العديد من مجموعات البيانات المتنوعة، نجد أنه أكثر قوة ويرتكب أخطاء أقل بنسبة 50٪ مقارنةً بتلك النماذج.
يشكّل الجزء بلغة غير الإنجليزية من مجموعة بيانات Whisper الصوتية نحو ثلثها، ويُكلف بالتناوب إما بكتابة النص (التفريغ) باللغة الأصلية أو ترجمته إلى الإنجليزية. نجد أن هذا النهج فعال بشكل خاص في تعلم ترجمة الكلام إلى نص، ويتفوق على أفضل النماذج الخاضعة للإشراف SOTA في ترجمة CoVoST2 إلى الإنجليزية دون أيّ تدريب مسبق.
نأمل أن يمكّن Whisper، بفضل دقته العالية وسهولة استخدامه، المطوّرين من إضافة واجهات صوتية في مجموعة أوسع من التطبيقات. يُرجى التفضل بالاطّلاع على ورقة البحث(يفتح في نافذة جديدة)، وبطاقة النموذج(يفتح في نافذة جديدة)، والتعليمات البرمجية(يفتح في نافذة جديدة) لمعرفة المزيد من التفاصيل وتجربة Whisper.
المراجع
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(يفتح في نافذة جديدة).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(يفتح في نافذة جديدة).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(يفتح في نافذة جديدة).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(يفتح في نافذة جديدة).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(يفتح في نافذة جديدة).


