Tutvustame Whisperit
Oleme treeninud ja teinud avatud lähtekoodina kättesaadavaks neurovõrgustiku nimega Whisper, mis läheneb inglise keele kõne tuvastuses võimekuselt ja täpsuselt inimese tasemele.
Whisper on automaatse kõnetuvastuse süsteem (ASR), mis on treenitud järelevalve all kogutud 680 000-tunnise mahuga mitmekeelse ja mitme ülesande lahendamist võimaldava veebipõhise andmestiku abil. Näitame, et nii suure ja mitmekülgse andmestiku kasutamine parandab töökindlust aktsentide, taustamüra ja tehnilise keele suhtes. Lisaks toetab see transkribeerimist mitmes keeles ja tõlkimist nendest keeltest inglise keelde. Avaldame avatud lähtekoodiga mudelid ja töökoodi, et luua alus kasulike rakenduste loomiseks ja edasisteks uuringuteks võimeka kõne töötluse valdkonnas.
Whisperi arhitektuur on lihtne terviklik lähenemisviis, mida rakendatakse kodeerija-dekodeerija transformerina. Helisisend jagatakse 30-sekundilisteks segmentideks, teisendatakse log-Mel spektrogrammiks ja seejärel edastatakse dekooderile. Dekooder on treenitud ennustama vastavat teksti, mis on segatud spetsiaalsete tokenitega, mis suunavad mudelit täitma selliseid ülesandeid nagu keeletuvastus, fraasitaseme ajatemplid, mitmekeelne kõnetranskriptsioon ja kõne tõlkimine inglise keelde.
Teiste olemasolevate lähenemisviiside puhul kasutatakse sageli väiksemaid, tihedamalt seotud heli-teksti koolitusandmestikke,1 2, 3 või ulatuslikumat, kuid järelevalveta heliteabe eeltreeningut.4, 5, 6 Kuna Whisperi treenimiseks kasutati mahukat ja mitmekesist andmestikku, kohandamata seda ühelegi konkreetsele, ei ületa see soorituselt mudeleid, mis on spetsialiseerunud konkurentsivõimelise kõnetuvastusalusena tuntud LibriSpeechi võimekusele. Kui aga mõõdame Whisperi jõudlust näideteta promptimisel paljude erinevate andmestike lõikes, leiame, et see on palju võimekam ja teeb 50% vähem vigu kui teised mudelid.
Umbes kolmandik Whisperi heliandmestikust ei ole ingliskeelne ja sellele antakse vaheldumisi ülesanne transkribeerida algkeeles või tõlkida inglise keelde. Leiame, et see lähenemisviis on eriti tõhus kõne tekstiks tõlkimise õppimisel ja ületab juhendatud uusimate mudelite sooritust CoVoST2 alusel ja näideteta promptimist kasutades inglise keelde tõlkimisel.
Loodame, et Whisperi suur täpsus ja kasutusmugavus võimaldavad arendajatel lisada häälliidesed palju suuremale hulgale rakendustele. Rohkemate üksikasjade saamiseks ja Whisperi proovimiseks tutvu artikli(avaneb uues aknas), mudelit tutvustava kaardi(avaneb uues aknas) ja koodiga(avaneb uues aknas) .
Viited
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recognition data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(avaneb uues aknas).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(avaneb uues aknas).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(avaneb uues aknas).
- 4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(avaneb uues aknas).
- 5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(avaneb uues aknas).


