29 марта 2024 г.

Преодоление вызовов и использование возможностей искусственного голоса

Мы делимся выводами, сделанными по итогам небольшого предварительного обзора Voice Engine — модели для создания пользовательских голосов.

Загрузка…

OpenAI стремится к разработке безопасного ИИ, приносящего широкую пользу⁠. Сегодня мы делимся предварительными выводами и результатами небольшого предварительного обзора модели под названием Voice Engine, которая использует текстовый ввод и один 15-секундный образец аудио для генерации естественно звучащей речи, которая очень близко напоминает речь исходного говорящего. Примечательно, что небольшая модель с одним 15-секундным образцом может создавать эмоциональные и реалистичные голоса.

Мы разработали первую версию Voice Engine в конце 2022 года и использовали ее для создания предустановленных голосов, доступных в API преобразования текста в речь⁠(открывается в новом окне), а также ChatGPT Voice и Read Aloud⁠. В то же время мы придерживаемся осторожного и взвешенного подхода к более массовому релизу из-за потенциальной возможности злоупотребления искусственным голосом. Мы надеемся начать диалог об ответственном внедрении синтезированных голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов маломасштабных тестов мы примем более обоснованное решение о том, следует ли внедрять эту технологию в больших масштабах, и если да, то каким образом.

Ранние варианты применения Voice Engine

Чтобы лучше понять потенциальные варианты использования этой технологии, в конце прошлого года мы начали в частном порядке тестировать ее с небольшой группой надежных партнеров. Мы были впечатлены идеями этой группы. Эти небольшие по масштабу внедрения помогают формировать наш подход, меры защиты и понимание того, как Voice Engine может быть использован во благо в различных отраслях. Вот несколько ранних примеров:

Предоставление помощи при чтении нечитающим и детям с помощью естественно звучащих, эмоционально выразительных голосов, представляющих более широкий круг говорящих, чем это возможно с предустановленными голосами. Age of Learning⁠(открывается в новом окне), компания в сфере образовательных технологий, ориентированная на академические успехи детей, использует модель для создания заранее подготовленного контента для озвучивания. Они также используют Voice Engine и GPT‑4 для создания персонализированных ответов в реальном времени для взаимодействия со студентами. Благодаря этой технологии Age of Learning смогла создать больше контента для более широкой аудитории.

Перевод контента, например видео и подкастов, чтобы авторы и компании могли расширять свою аудиторию в разных странах — свободно, собственным голосом. Одним из первых, кто внедрил это, стала HeyGen⁠(открывается в новом окне), платформа визуального сторителлинга на базе ИИ, которая работает со своими корпоративными клиентами над созданием пользовательских, человекоподобных аватаров для самых разных материалов: от маркетинга продуктов до демонстраций для продаж. Они используют Voice Engine для перевода видео, поэтому могут переводить голос говорящего на несколько языков и охватывать глобальную аудиторию. При использовании для перевода Voice Engine сохраняет естественный акцент исходного говорящего: например, при генерации английской речи на основе аудиообразца франкоговорящего получится речь с французским акцентом.

Загрузка...

Охват глобальных сообществ, за счёт улучшения качества предоставления основных услуг в удалённых районах. Dimagi⁠(открывается в новом окне) создаёт инструменты в помощь работникам общественного здравоохранения, чтобы те могли оказывать различные важные услуги — например, предоставлять консультации для кормящих мам. Чтобы помочь этим работникам развивать свои навыки, Dimagi использует Voice Engine и GPT‑4, чтобы давать интерактивную обратную связь на основном языке каждого работника, включая суахили или более неформальные языки, такие как шэн — смешанный кодовый язык, популярный в Кении.

Загрузка...

Поддержка людей, которые не могут говорить: например, терапевтические приложения для людей с состояниями, влияющими на речь, и улучшения в образовании для тех, у кого есть потребности в обучении. Livox⁠(открывается в новом окне), приложение для альтернативной коммуникации на базе ИИ, обеспечивает работу устройств дополнительной и альтернативной коммуникации (AAC), которые позволяют людям с инвалидностью общаться. Используя Voice Engine, они могут предлагать людям, которые не могут говорить, уникальные и не роботизированные голоса на многих языках. Их пользователи могут выбрать голос, который лучше всего их представляет, а многоязычные пользователи — сохранять единый голос для каждого языка.

Загрузка...

Помощь пациентам в восстановлении голоса, в частности тем, кто страдает от внезапных или дегенеративных нарушений речи. Институт нейронаук Norman Prince при Lifespan⁠(открывается в новом окне), некоммерческой системе здравоохранения, которая является основным учебным центром медицинской школы Университета Брауна, изучает возможности применения ИИ в клинических условиях. Они проводят пилотную программу, предлагая Voice Engine людям с нарушениями речи в связи с онкологическими или неврологическими причинами. Поскольку Voice Engine требует очень короткого образца аудио, врачи Фатима Мирза (Fatima Mirza), Рохаид Али (Rohaid Ali) и Константина Свокос (Konstantina Svokos) смогли восстановить голос юной пациентки, которая утратила речь из-за сосудистой опухоли головного мозга, используя аудиодорожку из видео, записанного для школьного проекта.

Загрузка...

Безопасное создание Voice Engine

Мы признаём, что создание речи, похожей на голоса людей, несёт серьёзные риски, которые особенно актуальны в год выборов. Мы взаимодействуем с партнёрами из США и других стран — из государственных структур, медиа, сферы развлечений, образования, гражданского общества и других областей, чтобы учитывать их отзывы по мере разработки продукта. Партнеры, которые сегодня тестируют Voice Engine, согласились с нашими правилами использования⁠, которые запрещают выдавать себя за другое лицо или организацию без согласия или законного права. Кроме того, наши условия работы с этими партнерами требуют явного и осознанного согласия от исходного говорящего. Мы не разрешаем разработчикам создавать способы, позволяющие отдельным пользователям создавать собственные голоса. Партнеры также должны четко сообщать своей аудитории, что голоса, которые они слышат, созданы с помощью ИИ. Наконец, мы внедрили набор мер безопасности, включая водяные знаки для отслеживания происхождения любого аудио, сгенерированного Voice Engine, а также проактивный мониторинг его использования. Мы считаем, что любое масштабное внедрение технологии искусственного голоса должно сопровождаться механизмами аутентификации голоса, которые подтверждают, что исходный говорящий осознанно добавляет свой голос в сервис, а также списком запрещённых голосов, который выявляет и предотвращает создание голосов, слишком похожих на голоса известных личностей.

Планы на будущее

Voice Engine — это продолжение нашего стремления к тому, чтобы лучше понимать передовой рубеж технологий и открыто делиться тем, что становится возможным благодаря ИИ. В соответствии с нашим подходом к безопасности ИИ⁠ и нашими добровольными обязательствами⁠ мы решили на данном этапе предоставить предварительный доступ к этой технологии, но не выпускать ее в широкий доступ. Мы надеемся, что этот предварительный обзор Voice Engine не только подчеркнет его потенциал, но и мотивирует необходимость укреплять устойчивость общества к вызовам, которые несут все более убедительные генеративные модели. В частности, мы поощряем такие шаги, как:

Поэтапный отказ от голосовой аутентификации как меры безопасности для доступа к банковским счетам и другой конфиденциальной информации
Изучение политик по защите против использования голосов людей в ИИ
Просвещение общественности в вопросах понимания возможностей и ограничений технологий ИИ, включая вероятность появления вводящего в заблуждение контента, созданного ИИ
Ускорение разработки и внедрения методов отслеживания происхождения аудиовизуального контента, чтобы всегда было понятно, взаимодействуете ли вы с реальным человеком или с ИИ

Важно, чтобы люди по всему миру понимали, куда движется эта технология, независимо от того, будем ли мы в конечном счёте широко внедрять её сами или нет. Мы с нетерпением ожидаем продолжения обсуждений с законодателями, исследователями, разработчиками и представителями творческих профессий о вызовах и возможностях синтетических голосов.

Связанные статьи

Просмотреть все

Video generation models as world simulators

Публикация15 февр. 2024 г.

Building an early warning system for LLM-aided biological threat creation

Публикация31 янв. 2024 г.

Weak-to-strong generalization

Безопасность14 дек. 2023 г.