Преодоление вызовов и использование возможностей искусственного голоса
Мы делимся выводами, сделанными по итогам небольшого предварительного обзора Voice Engine — модели для создания пользовательских голосов.
OpenAI стремится к разработке безопасного ИИ, приносящего широкую пользу. Сегодня мы делимся предварительными выводами и результатами небольшого предварительного обзора модели под названием Voice Engine, которая использует текстовый ввод и один 15-секундный образец аудио для генерации естественно звучащей речи, которая очень близко напоминает речь исходного говорящего. Примечательно, что небольшая модель с одним 15-секундным образцом может создавать эмоциональные и реалистичные голоса.
Мы разработали первую версию Voice Engine в конце 2022 года и использовали ее для создания предустановленных голосов, доступных в API преобразования текста в речь(открывается в новом окне), а также ChatGPT Voice и Read Aloud. В то же время мы придерживаемся осторожного и взвешенного подхода к более массовому релизу из-за потенциальной возможности злоупотребления искусственным голосом. Мы надеемся начать диалог об ответственном внедрении синтезированных голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов маломасштабных тестов мы примем более обоснованное решение о том, следует ли внедрять эту технологию в больших масштабах, и если да, то каким образом.
Чтобы лучше понять потенциальные варианты использования этой технологии, в конце прошлого года мы начали в частном порядке тестировать ее с небольшой группой надежных партнеров. Мы были впечатлены идеями этой группы. Эти небольшие по масштабу внедрения помогают формировать наш подход, меры защиты и понимание того, как Voice Engine может быть использован во благо в различных отраслях. Вот несколько ранних примеров:
- Предоставление помощи при чтении нечитающим и детям с помощью естественно звучащих, эмоционально выразительных голосов, представляющих более широкий круг говорящих, чем это возможно с предустановленными голосами. Age of Learning(открывается в новом окне), компания в сфере образовательных технологий, ориентированная на академические успехи детей, использует модель для создания заранее подготовленного контента для озвучивания. Они также используют Voice Engine и GPT‑4 для создания персонализированных ответов в реальном времени для взаимодействия со студентами. Благодаря этой технологии Age of Learning смогла создать больше контента для более широкой аудитории.
- Перевод контента, например видео и подкастов, чтобы авторы и компании могли расширять свою аудиторию в разных странах — свободно, собственным голосом. Одним из первых, кто внедрил это, стала HeyGen(открывается в новом окне), платформа визуального сторителлинга на базе ИИ, которая работает со своими корпоративными клиентами над созданием пользовательских, человекоподобных аватаров для самых разных материалов: от маркетинга продуктов до демонстраций для продаж. Они используют Voice Engine для перевода видео, поэтому могут переводить голос говорящего на несколько языков и охватывать глобальную аудиторию. При использовании для перевода Voice Engine сохраняет естественный акцент исходного говорящего: например, при генерации английской речи на основе аудиообразца франкоговорящего получится речь с французским акцентом.
- Охват глобальных сообществ, за счёт улучшения качества предоставления основных услуг в удалённых районах. Dimagi(открывается в новом окне) создаёт инструменты в помощь работникам общественного здравоохранения, чтобы те могли оказывать различные важные услуги — например, предоставлять консультации для кормящих мам. Чтобы помочь этим работникам развивать свои навыки, Dimagi использует Voice Engine и GPT‑4, чтобы давать интерактивную обратную связь на основном языке каждого работника, включая суахили или более неформальные языки, такие как шэн — смешанный кодовый язык, популярный в Кении.
- Поддержка людей, которые не могут говорить: например, терапевтические приложения для людей с состояниями, влияющими на речь, и улучшения в образовании для тех, у кого есть потребности в обучении. Livox(открывается в новом окне), приложение для альтернативной коммуникации на базе ИИ, обеспечивает работу устройств дополнительной и альтернативной коммуникации (AAC), которые позволяют людям с инвалидностью общаться. Используя Voice Engine, они могут предлагать людям, которые не могут говорить, уникальные и не роботизированные голоса на многих языках. Их пользователи могут выбрать голос, который лучше всего их представляет, а многоязычные пользователи — сохранять единый голос для каждого языка.
- Помощь пациентам в восстановлении голоса, в частности тем, кто страдает от внезапных или дегенеративных нарушений речи. Институт нейронаук Norman Prince при Lifespan(открывается в новом окне), некоммерческой системе здравоохранения, которая является основным учебным центром медицинской школы Университета Брауна, изучает возможности применения ИИ в клинических условиях. Они проводят пилотную программу, предлагая Voice Engine людям с нарушениями речи в связи с онкологическими или неврологическими причинами. Поскольку Voice Engine требует очень короткого образца аудио, врачи Фатима Мирза (Fatima Mirza), Рохаид Али (Rohaid Ali) и Константина Свокос (Konstantina Svokos) смогли восстановить голос юной пациентки, которая утратила речь из-за сосудистой опухоли головного мозга, используя аудиодорожку из видео, записанного для школьного проекта.
Мы признаём, что создание речи, похожей на голоса людей, несёт серьёзные риски, которые особенно актуальны в год выборов. Мы взаимодействуем с партнёрами из США и других стран — из государственных структур, медиа, сферы развлечений, образования, гражданского общества и других областей, чтобы учитывать их отзывы по мере разработки продукта. Партнеры, которые сегодня тестируют Voice Engine, согласились с нашими правилами использования, которые запрещают выдавать себя за другое лицо или организацию без согласия или законного права. Кроме того, наши условия работы с этими партнерами требуют явного и осознанного согласия от исходного говорящего. Мы не разрешаем разработчикам создавать способы, позволяющие отдельным пользователям создавать собственные голоса. Партнеры также должны четко сообщать своей аудитории, что голоса, которые они слышат, созданы с помощью ИИ. Наконец, мы внедрили набор мер безопасности, включая водяные знаки для отслеживания происхождения любого аудио, сгенерированного Voice Engine, а также проактивный мониторинг его использования. Мы считаем, что любое масштабное внедрение технологии искусственного голоса должно сопровождаться механизмами аутентификации голоса, которые подтверждают, что исходный говорящий осознанно добавляет свой голос в сервис, а также списком запрещённых голосов, который выявляет и предотвращает создание голосов, слишком похожих на голоса известных личностей.
Voice Engine — это продолжение нашего стремления к тому, чтобы лучше понимать передовой рубеж технологий и открыто делиться тем, что становится возможным благодаря ИИ. В соответствии с нашим подходом к безопасности ИИ и нашими добровольными обязательствами мы решили на данном этапе предоставить предварительный доступ к этой технологии, но не выпускать ее в широкий доступ. Мы надеемся, что этот предварительный обзор Voice Engine не только подчеркнет его потенциал, но и мотивирует необходимость укреплять устойчивость общества к вызовам, которые несут все более убедительные генеративные модели. В частности, мы поощряем такие шаги, как:
- Поэтапный отказ от голосовой аутентификации как меры безопасности для доступа к банковским счетам и другой конфиденциальной информации
- Изучение политик по защите против использования голосов людей в ИИ
- Просвещение общественности в вопросах понимания возможностей и ограничений технологий ИИ, включая вероятность появления вводящего в заблуждение контента, созданного ИИ
- Ускорение разработки и внедрения методов отслеживания происхождения аудиовизуального контента, чтобы всегда было понятно, взаимодействуете ли вы с реальным человеком или с ИИ
Важно, чтобы люди по всему миру понимали, куда движется эта технология, независимо от того, будем ли мы в конечном счёте широко внедрять её сами или нет. Мы с нетерпением ожидаем продолжения обсуждений с законодателями, исследователями, разработчиками и представителями творческих профессий о вызовах и возможностях синтетических голосов.


