Langsung ke konten utama
OpenAI

21 September 2022

Rilis

Memperkenalkan Whisper

Kami telah melatih dan merilis jaringan neural sumber terbuka bernama Whisper yang mendekati tingkat ketahanan dan akurasi manusia dalam pengenalan ucapan bahasa Inggris.

Memuat…
Memuat...

Whisper adalah sistem pengenalan suara otomatis atau automatic speech recognition (ASR) yang dilatih menggunakan 680.000 jam data multibahasa dan multitugas yang diawasi dan dikumpulkan dari web. Kami menunjukkan bahwa penggunaan dataset berukuran besar dan beragam akan meningkatkan ketahanan terhadap aksen, kebisingan latar belakang, dan bahasa teknis. Selain itu, sistem ini memungkinkan transkripsi dalam berbagai bahasa serta penerjemahan dari bahasa tersebut ke bahasa Inggris. Kami membuat model dan kode inferensi menjadi sumber terbuka untuk dijadikan dasar dalam membangun aplikasi yang bermanfaat serta riset lebih lanjut tentang pemrosesan suara yang andal.

Ringkasan Arsitektur Model ASR

Arsitektur Whisper adalah pendekatan end-to-end sederhana yang diterapkan sebagai Transformer encoder-decoder. Audio masukan dibagi menjadi potongan sepanjang 30 detik, dikonversi menjadi spektrogram log-Mel, lalu diteruskan ke encoder. Decoder dilatih untuk memprediksi teks keterangan yang sesuai, diselingi dengan token khusus yang mengarahkan satu model tersebut untuk melakukan berbagai tugas seperti identifikasi bahasa, penanda waktu tingkat frasa, transkripsi ucapan multibahasa, dan terjemahan ucapan ke bahasa Inggris.

Diagram yang memperinci bagaimana model ASR dilatih

Pendekatan lain yang ada sering kali menggunakan dataset pelatihan audio-teks yang lebih kecil dan lebih berkaitan erat,1 2, 3 atau menggunakan pelatihan awal audio yang luas tetapi tanpa pengawasan.4, 5, 6 Karena dilatih menggunakan dataset yang berukuran besar dan beragam tanpa penyesuaian khusus, Whisper tidak mengungguli model yang dikhususkan dalam kinerja LibriSpeech, tolok ukur yang terkenal kompetitif dalam pengenalan suara. Namun, ketika kami mengukur kinerja zero-shot Whisper di banyak dataset yang beragam, kami menemukan bahwa Whisper jauh lebih tangguh dan menghasilkan 50% lebih sedikit kesalahan dibandingkan model-model tersebut.

Sekitar sepertiga dari dataset audio Whisper adalah bukan Bahasa Inggris, dan sistem ini secara bergantian diberi tugas untuk melakukan transkripsi dalam bahasa aslinya atau menerjemahkannya ke Bahasa Inggris. Pendekatan ini kami nilai sangat efektif untuk mempelajari terjemahan suara ke teks, bahkan mengungguli model SOTA yang diawasi dalam terjemahan zero-shot dari CoVoST2 ke bahasa Inggris.

Memuat...

Dengan akurasi tinggi dan kemudahan penggunaan Whisper, kami berharap para pengembang dapat mengintegrasikan antarmuka suara ke berbagai jenis aplikasi dengan lebih luas. Lihat makalah(terbuka di jendela baru), kartu model(terbuka di jendela baru), dan kode(terbuka di jendela baru) untuk mempelajari selengkapnya serta mencoba Whisper.

Referensi

  1. 1

    Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(terbuka di jendela baru).

  2. 2

    Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(terbuka di jendela baru).

  3. 3

    Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(terbuka di jendela baru).

  4. 4

    Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(terbuka di jendela baru).

  5. 5

    Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.

  6. 6

    Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(terbuka di jendela baru).