Giới thiệu Whisper
Chúng tôi đã huấn luyện và đang cung cấp mã nguồn mở cho một mạng nơ-ron có tên gọi Whisper, có khả năng nhận dạng giọng nói tiếng Anh với độ tin cậy và độ chính xác tiệm cận mức độ của con người.
Whisper là một hệ thống nhận dạng giọng nói tự động (ASR) được huấn luyện trên 680.000 giờ dữ liệu đa ngôn ngữ và đa tác vụ được thu thập có giám sát từ web. Chúng tôi chứng minh rằng việc sử dụng một bộ dữ liệu lớn và đa dạng như vậy giúp cải thiện mạnh mẽ khả năng thích ứng với giọng địa phương, các tiếng ồn xung quanh và ngôn ngữ chuyên ngành. Hơn nữa, hệ thống này cho phép phiên âm sang nhiều ngôn ngữ, cũng như dịch thuật từ các ngôn ngữ đó sang tiếng Anh. Chúng tôi đang cung cấp mã nguồn mở cho các mô hình và mã suy luận làm nền tảng cho việc xây dựng các ứng dụng hữu ích và để nghiên cứu sâu hơn về xử lý giọng nói mạnh mẽ.
Kiến trúc của Whisper theo phương pháp tiếp cận đầu-cuối đơn giản, được triển khai dưới dạng Transformer bộ mã hóa-bộ giải mã. Âm thanh đầu vào được chia thành các đoạn 30 giây, chuyển đổi thành phổ log-Mel, và sau đó được đưa vào một bộ mã hóa. Một bộ giải mã được huấn luyện để dự đoán phụ đề văn bản tương ứng, trong đó xen kẽ các token đặc biệt nhằm chỉ dẫn cho một mô hình duy nhất thực hiện các tác vụ như nhận dạng ngôn ngữ, gắn dấu thời gian ở cấp độ cụm từ, phiên âm giọng nói đa ngôn ngữ, và dịch giọng nói sang tiếng Anh.
Các phương pháp tiếp cận khác hiện có thường sử dụng các bộ dữ liệu huấn luyện âm thanh-văn bản nhỏ hơn, được ghép cặp chặt chẽ hơn,1 2, 3 hoặc sử dụng phương pháp tiền huấn luyện âm thanh không giám sát trên phạm vi rộng.4, 5, 6. Do Whisper được huấn luyện trên một bộ dữ liệu lớn và đa dạng, đồng thời chưa được tinh chỉnh cho bất kỳ bộ dữ liệu cụ thể nào, nên nó không vượt qua các mô hình chuyên biệt về hiệu suất trên LibriSpeech – một tiêu chuẩn đánh giá nổi tiếng có tính cạnh tranh cao trong lĩnh vực nhận dạng giọng nói. Tuy nhiên, khi đo lường hiệu suất zero-shot của Whisper trên nhiều bộ dữ liệu đa dạng, chúng tôi nhận thấy mô hình này ổn định hơn nhiều và tạo ra ít hơn 50% lỗi so với các mô hình đó.
Khoảng một phần ba bộ dữ liệu âm thanh của Whisper không phải là tiếng Anh, và mô hình này được luân phiên giao nhiệm vụ phiên âm bằng ngôn ngữ gốc hoặc dịch sang tiếng Anh. Chúng tôi nhận thấy phương pháp này đặc biệt hiệu quả trong việc học bản dịch giọng nói sang văn bản và vượt trội hơn cả các mô hình SOTA có giám sát trên tác vụ dịch zero-shot từ CoVoST2 sang tiếng Anh.
Chúng tôi hy vọng độ chính xác cao và tính dễ sử dụng của Whisper sẽ cho phép các nhà phát triển tích hợp giao diện giọng nói vào một loạt các ứng dụng đa dạng hơn rất nhiều. Hãy tham khảo bài báo(mở trong cửa sổ mới), thẻ mô hình(mở trong cửa sổ mới) và mã(mở trong cửa sổ mới) để tìm hiểu thêm chi tiết và dùng thử Whisper.
Tài liệu tham khảo
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(mở trong cửa sổ mới).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(mở trong cửa sổ mới).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(mở trong cửa sổ mới).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(mở trong cửa sổ mới).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(mở trong cửa sổ mới).


