Whisper ಪರಿಚಯ
ನಾವು Whisper ಎಂಬ ನ್ಯೂರಲ್ ನೆಟ್ ಅನ್ನು ತರಬೇತಿ ನೀಡಿ ಓಪನ್ ಸೋರ್ಸ್ ಮಾಡಿದ್ದೇವೆ, ಇದು ಇಂಗ್ಲಿಷ್ ಮಾತು ಗುರುತಿಸುವಿಕೆಯಲ್ಲಿ ಮಾನವ ಮಟ್ಟದ ದೃಢತೆ ಮತ್ತು ಖಚಿತತೆಯನ್ನು ತಲುಪುತ್ತದೆ.
Whisper ಎನ್ನುವುದು ವೆಬ್ನಿಂದ ಸಂಗ್ರಹಿಸಲಾದ 6,80,000 ಗಂಟೆಗಳ ಬಹುಭಾಷಾ ಮತ್ತು ಬಹುಕಾರ್ಯ ನಿಯಂತ್ರಿತ ಡೇಟಾದ ಮೇಲೆ ತರಬೇತಿ ನೀಡಲಾದ ಸ್ವಯಂಚಾಲಿತ ಮಾತು ಗುರುತಿಸುವಿಕೆ (ASR) ಸಿಸ್ಟಮ್ ಆಗಿದೆ. ಇಂತಹ ದೊಡ್ಡ ಮತ್ತು ವೈವಿಧ್ಯಮಯ ಡೇಟಾಸೆಟ್ ಬಳಕೆ ಉಚ್ಚಾರಣೆ, ಹಿನ್ನೆಲೆ ಶಬ್ದ ಮತ್ತು ತಾಂತ್ರಿಕ ಭಾಷೆಯ ವಿರುದ್ಧ ಉತ್ತಮ ದೃಢತೆಯನ್ನು ನೀಡುತ್ತದೆ ಎಂದು ನಾವು ತೋರಿಸಿದ್ದೇವೆ. ಇದಲ್ಲದೆ, ಇದು ಹಲವು ಭಾಷೆಗಳಲ್ಲಿ ಟ್ರಾನ್ಸ್ಕ್ರಿಪ್ಷನ್ ಮಾಡಲು ಮತ್ತು ಆ ಭಾಷೆಗಳಿಂದ ಇಂಗ್ಲಿಷ್ಗೆ ಅನುವಾದ ಮಾಡಲು ಸಹ ಸಹಾಯ ಮಾಡುತ್ತದೆ. ನಾವು ಮಾದರಿಗಳು ಮತ್ತು ಇನ್ಫರೆನ್ಸ್ ಕೋಡ್ಗಳನ್ನು ಓಪನ್ ಸೋರ್ಸ್ ಮಾಡುತ್ತಿದ್ದೇವೆ, ಇದು ಉಪಯುಕ್ತ ಅರ್ಜಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಆಧಾರವಾಗಲು ಮತ್ತು ದೃಢವಾದ ಮಾತು ಸಂಸ್ಕರಣೆಯ ಮೇಲೆ ಮುಂದಿನ ಸಂಶೋಧನೆಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ.
Whisper ವಾಸ್ತುಶಿಲ್ಪವು ಎನ್ಕೋಡರ್-ಡೀಕೋಡರ್ ಟ್ರಾನ್ಸ್ಫಾರ್ಮರ್ ಆಗಿ ಅಳವಡಿಸಲಾದ ಸರಳ ಎಂಡ್-ಟು-ಎಂಡ್ ವಿಧಾನವಾಗಿದೆ. ಇನ್ಪುಟ್ ಆಡಿಯೊವನ್ನು 30 ಸೆಕೆಂಡ್ಗಳ ಭಾಗಗಳಾಗಿ ವಿಭಜಿಸಿ, ಲಾಗ್-ಮೆಲ್ ಸ್ಪೆಕ್ಟ್ರೋಗ್ರಾಮ್ ಆಗಿ ಪರಿವರ್ತಿಸಿ ನಂತರ ಎನ್ಕೋಡರ್ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ. ಭಾಷಾ ಗುರುತಿಸುವಿಕೆ, ಪದಗುಚ್ಛ-ಮಟ್ಟದ ಸಮಯಸ್ಟ್ಯಾಂಪ್ಗಳು, ಬಹುಭಾಷಾ ಮಾತಿನ ಪ್ರತಿಲೇಖನ ಮತ್ತು ಇಂಗ್ಲಿಷ್ಗೆ ಮಾತು ಅನುವಾದದಂತಹ ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಏಕ ಮಾಡೆಲ್ ಅನ್ನು ನಿರ್ದೇಶಿಸುವ ವಿಶೇಷ token ಗಳೊಂದಿಗೆ ಮಿಶ್ರಣ ಮಾಡಲಾದ ಅನುಗುಣವಾದ ಪಠ್ಯ ಶೀರ್ಷಿಕೆಯನ್ನು ಊಹಿಸಲು ಡಿಕೋಡರ್ಗೆ ಟ್ರೈನ್ ಮಾಡಲಾಗುತ್ತದೆ.
ಇತರ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ವಿಧಾನಗಳು ಆಗಾಗ್ಗೆ ಚಿಕ್ಕದಾದ, ಹೆಚ್ಚು ನಿಕಟವಾಗಿ ಜೋಡಿಸಲಾದ ಆಡಿಯೋ-ಪಠ್ಯ ಟ್ರೈನಿಂಗ್ ಡೇಟಾಸೆಟ್ಗಳನ್ನು ಬಳಸುತ್ತವೆ,1 2, 3 ಅಥವಾ ವಿಶಾಲವಾದ ಆದರೆ ಮೇಲ್ವಿಚಾರಣೆಯಿಲ್ಲದ ಆಡಿಯೋ ಪೂರ್ವ ಟ್ರೈನಿಂಗ್ ಅನ್ನು ಬಳಸುತ್ತವೆ.4, 5, 6Whisper ಅನ್ನು ದೊಡ್ಡ ಮತ್ತು ವೈವಿಧ್ಯಮಯ ಡೇಟಾಸೆಟ್ನಲ್ಲಿ ಟ್ರೈನ್ ಮಾಡಲಾಗಿದ್ದು, ಯಾವುದೇ ನಿರ್ದಿಷ್ಟ ಡೇಟಾಸೆಟ್ಗೆ ಉತ್ತಮವಾಗಿ ಟ್ಯೂನ್ ಮಾಡದ ಕಾರಣ, LibriSpeech ಕಾರ್ಯಕ್ಷಮತೆಯಲ್ಲಿ ಪರಿಣತಿ ಹೊಂದಿರುವ ಮಾಡೆಲ್ಗಳನ್ನು ಅದು ಹಿಂದಿಕ್ಕುವುದಿಲ್ಲ, ಇದು ಭಾಷಣ ಗುರುತಿಸುವಿಕೆಯಲ್ಲಿ ಪ್ರಸಿದ್ಧ ಸ್ಪರ್ಧಾತ್ಮಕ ಮಾನದಂಡವಾಗಿದೆ. ಆದರೆ, ನಾವು ಹಲವು ವೈವಿಧ್ಯಮಯ ಡೇಟಾಸೆಟ್ಗಳಲ್ಲಿನ Whisperನ ಶೂನ್ಯ-ಶಾಟ್ ಪ್ರದರ್ಶನವನ್ನು ಅಳೆಯುವಾಗ, ಅದು ಬಹಳ ಹೆಚ್ಚು ದೃಢವಾಗಿದ್ದು ಆ ಮಾದರಿಗಳಿಗಿಂತ 50% ಕಡಿಮೆ ದೋಷಗಳನ್ನು ಮಾಡುತ್ತದೆ ಎಂಬುದು ಗೊತ್ತಾಗುತ್ತದೆ.
Whisperನ ಆಡಿಯೋ ಡೇಟಾಸೆಟ್ನ ಸುಮಾರು ಮೂರನೇ ಭಾಗ ಇಂಗ್ಲಿಷ್ ಹೊರಗಿನ ಭಾಷೆಯದ್ದಾಗಿದ್ದು, ಅದಕ್ಕೆ ಮೂಲ ಭಾಷೆಯಲ್ಲಿ ಟ್ರಾನ್ಸ್ಕ್ರೈಬ್ ಮಾಡುವ ಅಥವಾ ಇಂಗ್ಲಿಷ್ಗೆ ಅನುವಾದ ಮಾಡುವ ಕಾರ್ಯ ನೀಡಲಾಗುತ್ತದೆ. ಈ ವಿಧಾನವು ಮಾತಿನಿಂದ ಪಠ್ಯಕ್ಕೆ ಅನುವಾದ ಕಲಿಯುವಲ್ಲಿ ವಿಶೇಷವಾಗಿ ಪರಿಣಾಮಕಾರಿಯಾಗಿದೆ ಮತ್ತು CoVoST2 ನಿಂದ ಇಂಗ್ಲಿಷ್ಗೆ ಶೂನ್ಯ-ಶಾಟ್ ಅನುವಾದದಲ್ಲಿ ಸೂಪರ್ವೈಸ್ಡ್ SOTA ಮಾದರಿಯನ್ನು ಮೀರಿಸುತ್ತದೆ ಎಂದು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ.
Whisper ನ ಹೆಚ್ಚಿನ ನಿಖರತೆ ಮತ್ತು ಬಳಕೆಯ ಸುಲಭತೆಯು ಡೆವಲಪರ್ಗಳಿಗೆ ಹೆಚ್ಚು ವ್ಯಾಪಕವಾದ ಅರ್ಜಿಗಳಿಗೆ ಧ್ವನಿ ಇಂಟರ್ಫೇಸ್ಗಳನ್ನು ಸೇರಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ ಎಂದು ನಾವು ಭಾವಿಸುತ್ತೇವೆ. ಹೆಚ್ಚಿನ ವಿವರಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳಲು ಮತ್ತು Whisper ಅನ್ನು ಪ್ರಯತ್ನಿಸಲು ಕಾಗದ(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), ಮಾಡೆಲ್ ಕಾರ್ಡ್(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ), ಮತ್ತು ಕೋಡ್(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ) ಅನ್ನು ಪರಿಶೀಲಿಸಿ.
ಉಲ್ಲೇಖಗಳು
- 1
ಚಾನ್, ಡಬ್ಲ್ಯೂ., ಪಾರ್ಕ್, ಡಿ., ಲೀ, ಸಿ., ಜಾಂಗ್, ವೈ., ಲೆ, ಕ್ಯೂ., ಮತ್ತು ನೊರೌಜಿ, ಎಂ. ಸ್ಪೀಚ್ಸ್ಟೂ: ಒಂದು ದೊಡ್ಡ ನರಮಂಡಲಕ್ಕೆ ಟ್ರೈನ್ ಮಾಡಲು ಲಭ್ಯವಿರುವ ಎಲ್ಲಾ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಡೇಟಾವನ್ನು ಸರಳವಾಗಿ ಮಿಶ್ರಣ ಮಾಡಿ. arXiv ಪ್ರಿಪ್ರಿಂಟ್ arXiv:2104.02133, 2021(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ).
- 2
ಗಾಲ್ವೆಜ್, ಡಿ., ಡಯಾಮೋಸ್, ಜಿ., ಟೊರೆಸ್, ಜೆ.ಎಂ.ಸಿ., ಅಕಾರ್ನ್, ಕೆ., ಗೋಪಿ, ಎ., ಕಾಂಟರ್, ಡಿ., ಲ್ಯಾಮ್, ಎಂ., ಮಜುಂದರ್, ಎಂ., ಮತ್ತು ರೆಡ್ಡಿ, ವಿ.ಜೆ. ಜನರ ಮಾತು: ವಾಣಿಜ್ಯ ಬಳಕೆಗಾಗಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ವೈವಿಧ್ಯಮಯ ಇಂಗ್ಲಿಷ್ ಮಾತು ಗುರುತಿಸುವಿಕೆ ಡೇಟಾಸೆಟ್. arXiv ಪ್ರಿಪ್ರಿಂಟ್ arXiv:2111.09344, 2021(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ).
- 3
ಚೆನ್, ಜಿ., ಚಾಯ್, ಎಸ್., ವಾಂಗ್, ಜಿ., ಡು, ಜೆ., ಜಾಂಗ್, ಡಬ್ಲ್ಯೂ.-ಕ್ಯೂ., ವೆಂಗ್, ಸಿ., ಸು, ಡಿ., ಪೊವಿ, ಡಿ., ಟ್ರಮಲ್, ಜೆ., ಝಾಂಗ್, ಜೆ., ಮತ್ತು ಇತರರು. ಗಿಗಾಸ್ಪೀಚ್: 10,000 ಗಂಟೆಗಳ ಲಿಪ್ಯಂತರಗೊಂಡ ಆಡಿಯೋದೊಂದಿಗೆ ವಿಕಸನಗೊಳ್ಳುತ್ತಿರುವ, ಬಹು-ಡೊಮೇನ್ ASR ಕಾರ್ಪಸ್. arXiv ಪ್ರಿಪ್ರಿಂಟ್ arXiv:2106.06909, 2021(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ).
- 4
ಬೇವ್ಸ್ಕಿ, ಎ., ಝೌ, ಹೆಚ್., ಮೊಹಮ್ಮದ್, ಎ., ಮತ್ತು ಔಲಿ, ಎಂ. ವಾವ್2ವೆಕ್ 2.0: ಭಾಷಣ ಪ್ರಾತಿನಿಧ್ಯಗಳ ಸ್ವಯಂ-ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆಗಾಗಿ ಒಂದು ಫ್ರೇಮ್ವರ್ಕ್. arXiv ಪ್ರಿಪ್ರಿಂಟ್ arXiv:2006.11477, 2020(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ).
- 5
ಬೇವ್ಸ್ಕಿ, ಎ., ಹ್ಸು, ಡಬ್ಲ್ಯೂ.ಎನ್., ಕಾನ್ಯೂ, ಎ., ಮತ್ತು ಔಲಿ, ಎಂ. ಅನ್ಸು ಮಾತು ಗುರುತಿಸುವಿಕೆಯನ್ನು ಪರೀಕ್ಷಿಸಿದರು. ನ್ಯೂರಲ್ ಮಾಹಿತಿ ಸಂಸ್ಕರಣಾ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿನ ಪ್ರಗತಿಗಳು, 34:27826–27839, 2021.
- 6
ಜಾಂಗ್, ವೈ., ಪಾರ್ಕ್, ಡಿ. ಎಸ್., ಹಾನ್, ಡಬ್ಲ್ಯೂ., ಕಿನ್, ಜೆ., ಗುಲಾಟಿ, ಎ., ಶೋರ್, ಜೆ., ಜಾನ್ಸೆನ್, ಎ., ಕ್ಸು, ವೈ., ಹುವಾಂಗ್, ವೈ., ವಾಂಗ್, ಎಸ್., ಮತ್ತು ಇತರರು. BigSSL: ಸ್ವಯಂಚಾಲಿತ ಮಾತು ಗುರುತಿಸುವಿಕೆಗಾಗಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಅರೆ-ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆಯ ಗಡಿಯನ್ನು ಅನ್ವೇಷಿಸುವುದು. arXiv ಪ್ರಿಪ್ರಿಂಟ್ arXiv:2109.13226, 2021(ಹೊಸ ಕಿಟಕಿಯಲ್ಲಿ ತೆರೆಯುತ್ತದೆ).


