21 กันยายน 2565

ขอแนะนำ Whisper

เราได้ฝึกอบรมและเปิดซอร์สเครือข่ายประสาทที่เรียกว่า Whisper ซึ่งมีความทนทานและความแม่นยำในระดับมนุษย์ในการรู้จำเสียงพูดภาษาอังกฤษ

อ่านเอกสาร ดูโค้ด ดูการ์ดโมเดล

กำลังโหลด…

กำลังโหลด...

Whisper เป็นระบบรู้จำเสียงพูดอัตโนมัติ (ASR) ที่ได้รับการฝึกฝนด้วยข้อมูลหลายภาษาและหลายงานจำนวน 680,000 ชั่วโมงที่รวบรวมจากเว็บ เราแสดงให้เห็นว่าการใช้ชุดข้อมูลที่มีขนาดใหญ่และหลากหลายดังกล่าวนำไปสู่การเพิ่มความทนทานต่อสำเนียง เสียงรบกวนพื้นหลัง และภาษาทางเทคนิค นอกจากนี้ ยังเปิดการใช้งานถอดเสียงในหลายภาษาได้ รวมถึงแปลจากภาษาเหล่านั้นเป็นภาษาอังกฤษ เราเปิดซอร์สโมเดลและโค้ดการอนุมานเพื่อเป็นพื้นฐานในการสร้างแอปพลิเคชันที่มีประโยชน์และเพื่อการวิจัยเพิ่มเติมเกี่ยวกับการประมวลผลเสียงที่มีความทนทาน

สถาปัตยกรรม Whisper เป็นแนวทางแบบ end-to-end ที่เรียบง่าย ซึ่งนำมาใช้เป็นทรานส์ฟอร์เมอร์ตัวเข้ารหัส-ตัวถอดรหัส เสียงอินพุตถูกแบ่งออกเป็นช่วงละ 30 วินาที แปลงเป็นสเปกโตรแกรม log-Mel แล้วส่งไปยังตัวเข้ารหัส ตัวถอดรหัสได้รับการฝึกฝนให้ทำนายคำบรรยายข้อความที่เกี่ยวข้อง โดยผสมผสานกับโทเค็นพิเศษที่กำหนดให้โมเดลเดียวทำงานต่างๆ เช่น การระบุภาษา การประทับเวลาระดับวลี การถอดเสียงพูดหลายภาษา และการแปลคำพูดเป็นภาษาอังกฤษ

ไดอะแกรมที่แสดงรายละเอียดเกี่ยวกับวิธีการฝึกสอนโมเดล ASR

วิธีการที่มีอยู่อื่น ๆ มักใช้ชุดข้อมูลการฝึกสอนเสียงและข้อความที่มีขนาดเล็กกว่าและจับคู่กันอย่างใกล้ชิดกว่า ¹ ^2และ3 หรือใช้การฝึกสอนเสียงที่กว้างแต่ไม่มีการควบคุมดูแล ^{4 5 และ6} เนื่องจาก Whisper ได้รับการฝึกด้วยชุดข้อมูลขนาดใหญ่และหลากหลาย และไม่ได้ปรับแต่งให้เหมาะกับชุดข้อมูลใดชุดหนึ่งโดยเฉพาะ จึงไม่สามารถเอาชนะโมเดลที่เชี่ยวชาญในประสิทธิภาพของ LibriSpeech ซึ่งเป็นมาตรฐานที่มีการแข่งขันสูงในด้านการจดจำเสียงพูด อย่างไรก็ตาม เมื่อเราวัดประสิทธิภาพ zero-shot ของ Whisper จากชุดข้อมูลที่หลากหลาย เราพบว่ามันมีความทนทานมากกว่าและทำข้อผิดพลาดน้อยกว่าโมเดลเหล่านั้นถึง 50%

ประมาณหนึ่งในสามของชุดข้อมูลเสียงของ Whisper เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ และได้รับมอบหมายให้ทำงานถอดเสียงในภาษาต้นฉบับหรือแปลเป็นภาษาอังกฤษสลับกัน เราพบว่าแนวทางนี้มีประสิทธิภาพเป็นพิเศษในการเรียนรู้การแปลคำพูดเป็นข้อความ และมีประสิทธิภาพเหนือกว่า SOTA ที่มีการควบคุมบน CoVoST2 ในการแปลภาษาอังกฤษแบบ zero-shot

กำลังโหลด...

เราหวังว่าความแม่นยำสูงและความง่ายในการใช้งานของ Whisper จะช่วยให้นักพัฒนาสามารถเพิ่มอินเทอร์เฟซเสียงให้กับแอปพลิเคชันได้หลากหลายมากขึ้น โปรดตรวจสอบ เอกสาร⁠(เปิดในหน้าต่างใหม่), การ์ดโมเดล⁠(เปิดในหน้าต่างใหม่), และ โค้ด⁠(เปิดในหน้าต่างใหม่) เพื่อเรียนรู้รายละเอียดเพิ่มเติมและทดลองใช้ Whisper

เอกสารอ้างอิง

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(เปิดในหน้าต่างใหม่).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(เปิดในหน้าต่างใหม่)
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(เปิดในหน้าต่างใหม่).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(เปิดในหน้าต่างใหม่)
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(เปิดในหน้าต่างใหม่).

บทความที่เกี่ยวข้อง

ดูทั้งหมด

Hierarchical text-conditional image generation with CLIP latents

สิ่งพิมพ์13 เม.ย. 2565

Solving (some) formal math olympiad problems

หมุดหมาย2 ก.พ. 2565

Solving math word problems

สิ่งพิมพ์29 ต.ค. 2564