21 сентября 2022 г.

Представляем вашему вниманию Whisper

Нейросеть с открытым исходным кодом, обученная нами и демонстрирующая близкую к человеческой точность и надежность распознавания речи на английском.

Прочитать статью Посмотреть код Посмотреть карточку модели

Загрузка…

Загрузка...

Whisper — это система автоматического распознавания речи (ASR), обученная на 680 000 часах многоязычных и многозадачных размеченных данных, собранных из веб-источников. Мы показываем, что использование столь крупного и разнообразного набора данных повышает устойчивость модели к акцентам, фоновому шуму и технической лексике. Кроме того, модель способна выполнять транскрипцию на разных языках и переводить речь с этих языков на английский. Мы открываем исходный код моделей и инференс-код, чтобы они могли служить основой для разработки приложений и дальнейших исследований в области надежного распознавания речи.

Архитектура Whisper представляет собой простой сквозной подход на базе Transformer-модели типа «энкодер–декодер». Вводное аудио разбивается на 30-секундные фрагменты, конвертируется в логарифмированную мел-спектрограмму и подается в энкодер. Декодер обучается генерировать текст, включая специальные токены, которые позволяют модели выполнять такие задачи, как определение языка, таймкоды на уровне фраз, многоязычную транскрипцию речи и перевод речи на английский.

Схема с детализацией процесса обучения моделей ASR

Другие существующие подходы обычно опираются на меньшие и более точно согласованные аудио-текстовые наборы данных¹ ^{2, 3} либо используют широкое, но неаннотированное предварительно аудио-обучение.^{4, 5, 6} Поскольку модель Whisper обучалась на большом и разнообразном наборе данных и не проходила дополнительное обучение под какой-то один конкретный набор, она не превосходит специализированные модели, оптимизированные для LibriSpeech, одного из самых конкурентных эталонных тестов в распознавании речи. Однако при оценке zero-shot (без обучения на целевой задаче) на многочисленных разных наборах данных мы видим, что Whisper гораздо более устойчива и допускает на 50 % меньше ошибок по сравнению с такими моделями.

Около трети набора аудио данных Whisper составляет речь не на английском. Модели попеременно дается задача либо транскрибировать речь на исходном языке, либо переводить на английский. Такой подход оказался особенно эффективным для обучения переводу речи в текст: в режиме zero-shot он превосходит лучшие на сегодня модели, обученные на тесте перевода на английский CoVoST2.

Загрузка...

Мы надеемся, что высокая точность и простота использования Whisper позволят разработчикам добавлять голосовые интерфейсы в гораздо более широкий круг приложений. Ознакомьтесь со статьей⁠(открывается в новом окне), карточкой модели⁠(открывается в новом окне) и кодом⁠(открывается в новом окне) , чтобы узнать подробности и попробовать Whisper в работе.

Ссылки

1
Чан У., Пак Д., Ли С., Чжан И., Ле К., Норузи М. SpeechStew: просто объедините все доступные данные для распознавания речи, чтобы обучить одну крупную нейронную сеть. Препринт arXiv:arXiv:2104.02133, 2021 г⁠(открывается в новом окне).
2
Гальвез Д., Диамос Г., Торрес Дж. М. С., Ачорн К., Гопи А., Кантер Д., Лам М., Мазумдер М., Редди В. Дж. People’s Speech: крупномасштабный и разнообразный набор англоязычных данных для коммерческого распознавания речи. Препринт arXiv:2111.09344, 2021 г⁠(открывается в новом окне).
3
Чэнь Г., Чай С., Ванг Г., Ду Дж., ЧжанВ.-К., Венг Ч., Су Д., Повей Д., Трмал Дж., Чжан Дж., и др. GigaSpeech: развивающийся многодоменный набор данных ASR объемом 10 000 часов транскрибированного аудио. Препринт arXiv:2106.06909, 2021 г⁠(открывается в новом окне).
4
Баевски А., Чжоу Х., Мохамед А., Аули М. wav2vec 2.0: платформа для самообучающегося извлечения репрезентаций речи.Препринт arXiv:2006.11477, 2020 г⁠(открывается в новом окне).
5
Баевски А., Хсу В.-Н., Конно А., Аули М. Распознавание речи без разметки данных. Advances in Neural Information Processing Systems, 34:27826–27839, 2021 г.
6
Чжан И., Парк Д. С., Хан В., Цинь Дж., Гулати А., Шор Дж., Янсен А., Сюй И., Хуан И., Ван С., и др. BigSSL: исследование границ крупномасштабного обучения с частичной разметкой данных для автоматического распознавания речи. Препринт arXiv:2109.13226, 2021 г⁠(открывается в новом окне).

Связанные статьи

Просмотреть все

Hierarchical text-conditional image generation with CLIP latents

Публикация13 апр. 2022 г.

Solving (some) formal math olympiad problems

Веха2 февр. 2022 г.

Solving math word problems

Публикация29 окт. 2021 г.