21 вересня 2022 р.

Пропонуємо до вашої уваги Whisper.

Нейромережа з відкритим вихідним кодом, створена нами та здатна забезпечувати майже людську точність і надійність розпізнавання мовлення англійською.

Прочитати статтю Переглянути код Переглянути картку моделі

Завантаження…

Завантаження...

Whisper — це система автоматичного розпізнавання мовлення (ASR), навчена на 680 000 годинах багатомовних і багатозадачних розмічених даних, зібраних із веб-джерел. Ми демонструємо, що настільки масштабний і різноманітний набір даних підвищує стійкість моделі до акцентів, фонового шуму та фахової лексики. Крім того, модель може транскрибувати мовлення різними мовами та перекладати його англійською. Ми відкриваємо вихідний код моделей і код інференсу, щоб вони могли бути основою для створення застосунків і подальших досліджень у галузі надійного розпізнавання мовлення.

Архітектура Whisper заснована на простому наскрізному підході, побудованому на Transformer-моделі типу «енкодер–декодер». Вхідне аудіо розбивається на 30-секундні фрагменти, перетворюється на логарифмовану мел-спектрограму та передається в енкодер. Декодер навчається генерувати текст, зокрема спеціальні токени, які дають моделі змогу виконувати такі завдання, як визначення мови, таймкоди на рівні фраз, багатомовна транскрипція мовлення та переклад мовлення англійською.

Схема з деталізацією процесу навчання моделей ASR

Інші наявні підходи зазвичай спираються на менші та точніше узгоджені аудіотекстові набори даних,¹ ^{2, 3} або використовують великі, але неанотовані аудіоматеріали для попереднього навчання.^{4, 5, 6} Оскільки модель Whisper навчена на великому й різноманітному масиві даних і не проходила додаткового навчання на якомусь одному певному наборі, вона не перевершує спеціалізовані моделі, оптимізовані для LibriSpeech — одного з найконкурентніших еталонних тестів у сфері розпізнавання мовлення. Проте під час оцінювання у режимі zero-shot (без навчання для цільової задачі) на численних різних наборах даних ми бачимо, що Whisper значно стійкіша й припускається на 50 % менше помилок порівняно з такими моделями.

Близько третини аудіоданих Whisper становить неангломовне мовлення. Моделі почергово ставиться завдання або транскрибувати мовлення вихідною мовою, або перекладати його англійською. Такий підхід виявився особливо ефективним для навчання перетворенню мовлення на текст: у режимі zero-shot він перевершує найкращі на сьогодні моделі, спеціально натреновані на тесті перекладу англійською CoVoST2.

Завантаження...

Сподіваємося, що висока точність і простота використання Whisper дадуть змогу розробникам впроваджувати голосові інтерфейси в значно ширший спектр застосунків. Ознайомтеся зі статтею⁠(відкривається у новому вікні), карткою моделі⁠(відкривається у новому вікні) та кодом⁠(відкривається у новому вікні), щоб дізнатися більше й спробувати Whisper у роботі.

Джерела

1
Чан У., Пак Д., Лі С., Чжан І., Ле К., Норузі М. SpeechStew: просто об'єднайте всі доступні дані для розпізнавання мовлення, щоб навчити одну велику нейронну мережу. Препринт arXiv arXiv:2104.02133, 2021 р⁠(відкривається у новому вікні).
2
Гальвез Д., Діамос Г., Торрес Дж. М. С., Ачорн К., Ґопі А., Кантер Д., Лам М., Мазумдер М., Редді В. Дж. People’s Speech: великомасштабний і різноманітний набір англомовних даних для комерційного розпізнавання мовлення. Препринт arXiv:2111.09344, 2021 р⁠(відкривається у новому вікні).
3
Чень Ґ., Чай С., Ван Ґ., Ду Дж., Чжан В.-К., Вен Ч., Су Д., Повей Д., Трмал Дж., Чжан Дж. та ін. GigaSpeech: динамічний багатодоменний набір даних ASR обсягом 10 000 годин транскрибованого аудіо. Препринт arXiv:2106.06909, 2021 р.⁠(відкривається у новому вікні)
4
Баєвскі А., Чжоу Г., Мохамед А., Аулі М. wav2vec 2.0: платформа для отримання мовленнєвих репрезентацій на основі самонавчання. Препринт arXiv:2006.11477, 2020 р⁠(відкривається у новому вікні).
5
Баєвскі А., Гсу В.-Н., Конно А., Аулі М. Розпізнавання мовлення без розмітки даних. Advances in Neural Information Processing Systems, 34:27826–27839, 2021 р.
6
Чжан І., Парк Д. С., Ган В., Цінь Дж., Ґулаті А., Шор Дж., Янсен А., Сюй І., Гуан І., Ван С. та ін. BigSSL: дослідження меж великомасштабного навчання з частковою розміткою для автоматичного розпізнавання мовлення. Препринт arXiv:2109.13226, 2021 р⁠(відкривається у новому вікні).

Пов'язані статті

Переглянути всі

Hierarchical text-conditional image generation with CLIP latents

Публікація13 квіт. 2022 р.

Solving (some) formal math olympiad problems

Етап2 лют. 2022 р.

Solving math word problems

Публікація29 жовт. 2021 р.