Παρουσίαση του Whisper
Έχουμε εκπαιδεύσει και ανοίγουμε τον κώδικα ενός νευρωνικού δικτύου με την ονομασία Whisper, το οποίο προσεγγίζει την ανθρώπινη ισχύ και ακρίβεια στην αναγνώριση της αγγλικής ομιλίας.
Το Whisper αποτελεί σύστημα αυτόματης αναγνώρισης ομιλίας (ASR) το οποίο εκπαιδεύτηκε με 680.000 ώρες πολύγλωσσων και πολλαπλών εργασιών δεδομένων που συλλέχθηκαν από το διαδίκτυο. Δείχνουμε ότι η χρήση ενός τόσο μεγάλου και ποικίλου συνόλου δεδομένων οδηγεί σε βελτιωμένη ανθεκτικότητα στις προφορές, στον θόρυβο στο παρασκήνιο και στην τεχνική γλώσσα. Επιπλέον, επιτρέπει μεταγραφή σε πολλές γλώσσες, καθώς και μετάφραση από τις γλώσσες αυτές προς τα αγγλικά. Αποτελούμε μοντέλα ανοιχτού κώδικα και κώδικα συμπερασμάτων για να αποτελέσουμε βάση για τη δημιουργία χρήσιμων εφαρμογών, καθώς επίσης για περαιτέρω έρευνα σχετικά με την ισχυρή επεξεργασία ομιλίας.
Η αρχιτεκτονική Whisper αποτελεί μια απλή προσέγγιση από άκρο σε άκρο, η οποία εφαρμόζεται ως μετασχηματιστής κωδικοποιητή-αποκωδικοποιητή. Ο ήχος εισόδου χωρίζεται σε κομμάτια των 30 δευτερολέπτων, μετατρέπεται σε φασματογράφημα τύπου log-Mel και στη συνέχεια αποστέλλεται σε έναν κωδικοποιητή. Ένας αποκωδικοποιητής εκπαιδεύεται να προβλέπει την αντίστοιχη λεζάντα κειμένου, αναμεμειγμένη με ειδικά token που καθοδηγούν το μοντέλο να εκτελεί εργασίες όπως αναγνώριση γλώσσας, χρονικές σημάνσεις σε επίπεδο φράσης, πολύγλωσση μεταγραφή ομιλίας και μετάφραση ομιλίας προς τα αγγλικά.
Άλλες υπάρχουσες προσεγγίσεις χρησιμοποιούν συχνά μικρότερα, πιο στενά αντιστοιχισμένα σύνολα δεδομένων εκπαίδευσης ήχου-κειμένου,1 2, 3 ή χρησιμοποιούν ευρεία αλλά μη επιβλεπόμενη προεκπαίδευση ήχου.4, 5, 6 Επειδή το Whisper εκπαιδεύτηκε σε ένα μεγάλο και ποικίλο σύνολο δεδομένων και δεν προσαρμόστηκε σε κάποιο συγκεκριμένο, δεν κερδίζει τα μοντέλα που εξειδικεύονται στην απόδοση του LibriSpeech, ένα διάσημο ανταγωνιστικό ορόσημο στην αναγνώριση ομιλίας. Ωστόσο, όταν μετράμε την απόδοση μηδενικής προσπάθειας του Whisper σε πολλά διαφορετικά σύνολα δεδομένων, διαπιστώνουμε ότι είναι πολύ πιο ανθεκτικό και κάνει 50% λιγότερα σφάλματα από εκείνα τα μοντέλα.
Περίπου το ένα τρίτο του συνόλου δεδομένων ήχου του Whisper δεν είναι στα αγγλικά, ενώ του ανατίθεται εναλλάξ η εργασία μεταγραφής στην αρχική γλώσσα ή μετάφρασης στα αγγλικά. Θεωρούμε ότι η προσέγγιση αυτή είναι ιδιαίτερα αποτελεσματική στην εκμάθηση της μετάφρασης ομιλίας σε κείμενο και ξεπερνά το εποπτευόμενο SOTA στο CoVoST2 για μετάφραση στα αγγλικά με μηδενική προσπάθεια.
Ελπίζουμε ότι η υψηλή ακρίβεια και η ευκολία χρήσης του Whisper θα επιτρέψουν στους προγραμματιστές να προσθέσουν φωνητικά περιβάλλοντα χρήστη σε ένα πολύ ευρύτερο σύνολο εφαρμογών. Δες την εργασία(ανοίγει σε νέο παράθυρο), την κάρτα μοντέλου(ανοίγει σε νέο παράθυρο) και τον κώδικα(ανοίγει σε νέο παράθυρο) για να μάθεις περισσότερες λεπτομέρειες και να δοκιμάσεις το Whisper.
Αναφορές
- 1
Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q., και Norouzi, M. SpeechStew: Simply mix all available speech recogni- tion data to train one large neural network. arXiv preprint arXiv:2104.02133, 2021(ανοίγει σε νέο παράθυρο).
- 2
Galvez, D., Diamos, G., Torres, J. M. C., Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M. και Reddi, V. J. The people’s speech: A large-scale diverse english speech recognition dataset for commercial usage. arXiv preprint arXiv:2111.09344, 2021(ανοίγει σε νέο παράθυρο).
- 3
Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio. arXiv preprint arXiv:2106.06909, 2021(ανοίγει σε νέο παράθυρο).
- 4
Baevski, A., Zhou, H., Mohamed, A., και Auli, M. wav2vec 2.0: A framework for self-supervised learning of speech representations. arXiv preprint arXiv:2006.11477, 2020(ανοίγει σε νέο παράθυρο).
- 5
Baevski, A., Hsu, W.N., Conneau, A., και Auli, M. Unsu pervised speech recognition. Advances in Neural Information Processing Systems, 34:27826–27839, 2021.
- 6
Zhang, Y., Park, D. S., Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et al. BigSSL: Exploring the frontier of large-scale semi-supervised learning for automatic speech recognition. arXiv preprint arXiv:2109.13226, 2021(ανοίγει σε νέο παράθυρο).


