29 березня 2024 р.

Подолання викликів і використання можливостей штучного голосу

Ми ділимося висновками, зробленими за підсумками невеликого попереднього огляду Voice Engine — моделі для створення користувацьких голосів.

Завантаження…

OpenAI прагне розробляти безпечний ШІ, що приносить загальну користь⁠. Сьогодні ми ділимося попередніми висновками і результатами невеликого попереднього огляду моделі під назвою Voice Engine, яка використовує текстове введення і один 15-секундний зразок аудіо для генерації мови, що природно звучить, і дуже близько нагадує мову оригінального мовця. Варто зазначити, що невелика модель із одним 15-секундним зразком може створювати емоційні та реалістичні голоси.

Ми розробили першу версію Voice Engine наприкінці 2022 року і використали її для створення попередньо встановлених голосів, доступних в API перетворення тексту на мову⁠(відкривається у новому вікні), а також ChatGPT Voice та Read Aloud⁠. У той же час ми дотримуємося обережного та виваженого підходу до більш масового релізу через потенційну можливість зловживання штучним голосом. Ми сподіваємося розпочати діалог про відповідальне впровадження синтезованих голосів та про те, як суспільство може адаптуватися до цих нових можливостей. На основі цих розмов і результатів маломасштабних тестів ми ухвалимо більш обґрунтоване рішення про те, чи слід впроваджувати цю технологію у великих масштабах, і якщо так, то яким чином.

Ранні варіанти застосування Voice Engine

Щоб краще зрозуміти потенційні варіанти використання цієї технології, наприкінці минулого року ми почали приватно тестувати її з невеликою групою надійних партнерів. Ми були вражені ідеями цієї групи. Ці невеликі за масштабом впровадження допомагають формувати наш підхід, заходи захисту та розуміння того, як Voice Engine може бути використаний на благо у різних галузях. Ось кілька ранніх прикладів:

Надання допомоги з читанням нечитаючим і дітям за допомогою природних, емоційно виразних голосів, що представляють ширше коло мовців, ніж це можливо із попередньо встановленими голосами. Age of Learning⁠(відкривається у новому вікні), компанія у сфері освітніх технологій, орієнтована на академічні успіхи дітей, використовує модель для створення попередньо підготовленого контенту для озвучування. Вони також використовують Voice Engine та GPT‑4 для створення персональних відповідей у реальному часі для взаємодії зі студентами. Завдяки цій технології Age of Learning спромоглася створити більше контенту для більш широкої аудиторії.

Переклад контенту, як-от відео та подкастів, щоб автори та компанії могли розширювати свою аудиторію в різних країнах — вільно, власним голосом. Одним з перших, хто впровадив це, стала HeyGen⁠(відкривається у новому вікні), платформа візуального сторителлінга на базі ШІ, яка працює зі своїми корпоративними клієнтами над створенням користувацьких людиноподібних аватарів для різних матеріалів: від маркетингу продуктів до демонстрацій для продажу. Вони використовують Voice Engine для перекладу відео, тому можуть перекладати голос того, хто розмовляє, кількома мовами і охоплювати глобальну аудиторію. При використанні для перекладу Voice Engine зберігає природний акцент вихідного промовця: наприклад, при генерації англійської мови на основі аудіозразка франкомовної людини вийде мова з французьким акцентом.

Завантаження...

Охоплення глобальних спільнот, за рахунок покращення якості надання основних послуг у віддалених районах. Dimagi⁠(відкривається у новому вікні) створює інструменти на допомогу працівникам охорони здоров'я, щоб ті могли надавати різні важливі послуги — наприклад, консультувати молодих мам щодо питань, пов'язаних із лактацією. Аби допомогти цим працівникам розвивати свої навички, Dimagi використовує Voice Engine та GPT‑4, щоб давати інтерактивний зворотний зв'язок основною мовою кожного працівника, включаючи суахілі або більше неформальні мови, такі як шен — змішана кодова мова, популярна в Кенії.

Завантаження...

Підтримка людей, які не можуть говорити: наприклад, терапевтичні застосунки для людей зі станами, що впливають на мовлення, та покращення в освіті для тих, хто має потреби в навчанні. Livox⁠(відкривається у новому вікні), застосунок для альтернативної комунікації на базі ШІ, забезпечує роботу пристроїв додаткової та альтернативної комунікації (AAC), які дозволяють людям з інвалідністю спілкуватися. Використовуючи Voice Engine, вони можуть пропонувати людям, які не можуть говорити, унікальні та не роботизовані голоси багатьма мовами. Їхні користувачі можуть вибрати голос, який їх найкраще представляє, а багатомовні користувачі — зберігати єдиний голос для кожної мови.

Завантаження...

Допомога пацієнтам у відновленні голосу, зокрема тим, хто страждає на раптові або дегенеративні порушення мовлення. Інститут нейронаук Norman Prince при Lifespan⁠(відкривається у новому вікні), некомерційній системі охорони здоров'я, яка є основним навчальним центром медичної школи Університету Брауна, вивчає можливості застосування ШІ в клінічних умовах. Вони проводять пілотну програму, пропонуючи Voice Engine людям із порушеннями мови у зв'язку з онкологічними чи неврологічними причинами. Оскільки Voice Engine вимагає дуже короткого зразка аудіо, лікарі Фатіма Мірза (Fatima Mirza), Рохаїд Алі (Rohaid Ali) і Константина Свокос (Konstantina Svokos) змогли відновити голос юної пацієнтки, яка втратила мовлення через судинну пухлину головного мозку, використовуючи аудіодоріжку з відео, записаного для шкільного проєкту.

Завантаження...

Безпечне створення Voice Engine

Ми визнаємо, що генерація мовлення з імітуванням голосів людей несе серйозні ризики, які є особливо актуальними у рік виборів. Ми взаємодіємо з партнерами зі США та інших країн — із державних структур, медіа, сфери розваг, освіти, громадянського суспільства та інших галузей, щоб враховувати їхні відгуки в ході розробки продукту. Партнери, які сьогодні тестують Voice Engine, погодилися з нашими правилами використання⁠, які забороняють видавати себе за іншу особу чи організацію без згоди чи законного права. Крім того, наші умови роботи з цими партнерами вимагають явної та усвідомленої згоди від оригінального мовця. Ми не дозволяємо розробникам створювати способи, що дозволяють окремим користувачам створювати власні голоси. Партнери також повинні чітко повідомляти своїй аудиторії, що голоси, які вони чують, створені за допомогою ШІ. Нарешті, ми впровадили набір заходів безпеки, включаючи водяні знаки для відстеження походження будь-якого аудіо, згенерованого Voice Engine, а також проактивний моніторинг його використання. Ми вважаємо, що будь-яке масштабне впровадження технології штучного голосу має супроводжуватися механізмами автентифікації голосу, які дозволяють підтвердити, що мовець усвідомлено додає свій голос у сервіс, а також списком заборонених голосів, який виявляє і запобігає створенню голосів, надто схожих на голоси відомих особистостей.

Наші перспективи

Voice Engine — це продовження нашого прагнення до того, щоб краще розуміти передовий рубіж технологій і відкрито ділитися тим, що стає можливим завдяки ШІ. Відповідно до нашого підходу до безпеки ШІ⁠ та наших добровільних зобов'язань⁠ ми вирішили на даному етапі надати попередній доступ до цієї технології, але не випускати її в широкий доступ. Ми сподіваємося, що цей попередній огляд Voice Engine не тільки підкреслить його потенціал, але й мотивує необхідність зміцнювати стійкість суспільства до викликів, які несуть все більш переконливі генеративні моделі. Зокрема, ми заохочуємо такі кроки:

Поетапна відмова від голосової автентифікації як заходу безпеки для доступу до банківських рахунків та іншої конфіденційної інформації
Дослідження політик щодо захисту проти використання голосів людей в ШІ
Навчання громадськості в питаннях розуміння можливостей та обмежень технологій ШІ, включаючи ймовірність появи створеного ШІ контенту, що вводить в оману
Прискорення розробки та впровадження методів відстеження походження аудіовізуального контенту, аби завжди було зрозуміло, чи взаємодієте ви з реальною людиною чи з ШІ

Важливо, щоб люди по всьому світу розуміли, куди рухається ця технологія, незалежно від того, чи будемо ми зрештою широко впроваджувати її самі чи ні. Ми з нетерпінням очікуємо на продовження обговорень із законодавцями, дослідниками, розробниками та представниками творчих професій про виклики та можливості штучних голосів.

Пов'язані статті

Переглянути всі

Video generation models as world simulators

Публікація15 лют. 2024 р.

Building an early warning system for LLM-aided biological threat creation

Публікація31 січ. 2024 р.

Weak-to-strong generalization

Безпека14 груд. 2023 р.