21. September 2022

Wir stellen vor: Whisper

Wir haben ein neuronales Netz namens Whisper trainiert und stellen es als Open Source zur Verfügung. Whisper ist bei der Erkennung englischer Sprache fast so robust und genau ist wie Menschen.

Artikel lesen Code anzeigen Modellkarte anzeigen

Laden …

Wird geladen …

Whisper ist ein System zur automatischen Spracherkennung (ASR), das mit 680.000 Stunden mehrsprachiger und multitaskingfähiger überwachter Daten aus dem Internet trainiert wurde. Wir zeigen, dass die Verwendung eines so großen und vielfältigen Datensatzes zu einer verbesserten Robustheit hinsichtlich Akzenten, Hintergrundgeräuschen und Fachsprache führt. Darüber hinaus ermöglicht Whisper die Transkription in mehrere Sprachen sowie die Übersetzung aus diesen Sprachen ins Englische. Wir stellen Modelle und Inferenzcode als Open Source zur Verfügung, die als Grundlage für die Entwicklung nützlicher Anwendungen und für die weitere Forschung zur robusten Sprachverarbeitung dienen können.

ASR-Zusammenfassung der Modellarchitektur

Die Architektur von Whisper ist ein einfacher, durchgehender Ansatz, der als Encoder-Decoder-Transformator implementiert ist. Das eingegebene Audiomaterial wird in 30-Sekunden-Blöcke aufgeteilt, in ein Log-Mel-Spektrogramm umgewandelt und dann an einen Encoder übergeben. Ein Decoder wird darauf trainiert, die entsprechenden Untertitel vorherzusagen, vermischt mit speziellen Token, die das einzelne Modell anweisen, Aufgaben wie Spracherkennung, Zeitstempel auf Wortverbindungsebene, mehrsprachige Sprachtranskription und Sprachübersetzung ins Englische auszuführen.

Diagramm, das aufschlüsselt, wie ASR-Modelle trainiert werden

Andere bestehende Ansätze verwenden häufig kleinere, enger gepaarte Audio-Text-Trainingsdatensätze¹ ^{2 und 3} oder ein breites, aber unüberwachtes Audio-Pre-Training.^{4, 5 und 6} Da Whisper anhand eines großen und vielfältigen Datensatzes trainiert und nicht auf einen bestimmten Datensatz optimiert wurde, schlägt es keine Modelle, die auf die Leistung von LibriSpeech spezialisiert sind, einer bekanntermaßen leistungsstarken Benchmark in der Spracherkennung. Wenn wir jedoch die Zero-Shot-Leistung von Whisper anhand vieler unterschiedlicher Datensätze messen, stellen wir fest, dass es wesentlich robuster ist und 50 % weniger Fehler als diese Modelle aufzeigt.

Etwa ein Drittel des Audio-Datensatzes von Whisper ist nicht in Englisch und die Aufgabe besteht abwechselnd darin, in die Originalsprache zu transkribieren oder ins Englische zu übersetzen. Wir erachten diesen Ansatz beim Erlernen der Übersetzung von Sprache in Text als besonders effektiv und als dem überwachten SOTA bei der Zero-Shot-Übersetzung von CoVoST2 ins Englische überlegen.

Wird geladen …

Wir hoffen, dass die hohe Genauigkeit und Benutzerfreundlichkeit von Whisper es Entwicklern ermöglichen wird, Sprachschnittstellen zu einem breiteren Anwendungsspektrum hinzuzufügen. Sieh dir den Artikel⁠(wird in einem neuen Fenster geöffnet), die Modellkarte⁠(wird in einem neuen Fenster geöffnet) und den Code⁠(wird in einem neuen Fenster geöffnet) an, um mehr zu erfahren und Whisper zu testen.

Referenzen

1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., and Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021⁠(wird in einem neuen Fenster geöffnet).
2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021⁠(wird in einem neuen Fenster geöffnet).
3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021⁠(wird in einem neuen Fenster geöffnet).
4
Baevski, A., Zhou, H., Mohamed, A., and Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020⁠(wird in einem neuen Fenster geöffnet).
5
Baevski, A., Hsu, W.N., Conneau, A., and Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021⁠(wird in einem neuen Fenster geöffnet).

Wir stellen vor: Whisper

Referenzen

Ähnliche Artikel