29 март 2024 г.

Ориентиране в предизвикателствата и възможностите на синтетичните гласове

Споделяме научени уроци от предварителен преглед в малък мащаб на Voice Engine — модел за създаване на персонализирани гласове.

Зареждане…

OpenAI се ангажира с разработването на безопасен и широко полезен изкуствен интелект⁠. Днес споделяме предварителни анализи и резултати от малък предварителен преглед на модел, наречен Voice Engine, който използва текстово въвеждане и един 15-секунден аудио образец, за да генерира естествено звучаща реч, която много наподобява оригиналния говорител. Забележително е, че малък модел с една 15-секундна проба може да създава емоционални и реалистични гласове.

Първоначално разработихме Voice Engine в края на 2022 г. и го използвахме, за да захранваме предварително зададените гласове, налични в API за преобразуване на текст в реч⁠(отваря се в нов прозорец), както и ChatGPT Voice и функцията за четене на глас⁠. В същото време възприемаме предпазлив и информиран подход към по-широко пускане поради потенциала за злоупотреба със синтетичен глас. Надяваме се да започнем диалог относно отговорното внедряване на синтетични гласове и как обществото може да се адаптира към тези нови възможности. Въз основа на тези разговори и резултатите от тези малки по мащаб тестове ще вземем по-информирано решение дали и как да внедрим тази технология в голям мащаб.

Ранни приложения на Voice Engine

За да разберем по-добре потенциалните приложения на тази технология, в края на миналата година започнахме да я тестваме частно с малка група от доверени партньори. Бяхме впечатлени от приложенията, които тази група е разработила. Тези внедрявания в малък мащаб ни помагат да оформим нашия подход, мерките за безопасност и начина, по който мислим за това как Voice Engine може да се използва за добро в различни индустрии. Няколко ранни примера включват:

Предоставяне на помощ при четене на хора, които не могат да четат, и на деца чрез естествено звучащи, емоционални гласове, представящи по-широк набор от говорители, отколкото е възможно с предварително зададени гласове. Age of Learning⁠(отваря се в нов прозорец), компания за образователни технологии, посветена на академичния успех на децата, използва това за генериране на предварително написано съдържание за озвучаване. Те също използват Voice Engine и GPT‑4, за да създават персонализирани отговори в реално време за взаимодействие със студенти. С тази технология Age of Learning успя да създаде повече съдържание за по-широка аудитория.

Превеждане на съдържание, като видеа и подкасти, така че създателите и компаниите да могат да достигнат до повече хора по света, свободно и със собствените си гласове. Един от ранните внедрители на това е HeyGen⁠(отваря се в нов прозорец), платформа за визуално разказване на истории с ИИ, която работи със своите корпоративни клиенти, за да създава персонализирани, подобни на хора аватари за разнообразно съдържание — от продуктов маркетинг до търговски демонстрации. Те използват Voice Engine за превод на видео, така че могат да превеждат гласа на говорителя на множество езици и да достигнат до глобална аудитория. Когато се използва за превод, Voice Engine запазва родния акцент на оригиналния говорител: например генерирането на английски език с аудио образец от френски говорител би довело до реч с френски акцент.

Зареждане...

Достигане до глобални общности чрез подобряване на предоставянето на основни услуги в отдалечени райони. Dimagi⁠(отваря се в нов прозорец) създава инструменти за здравните работници в общността, за да предоставят различни основни услуги, като например консултации за кърмещи майки. За да помогне на тези работници да развият уменията си, Dimagi използва Voice Engine и GPT‑4, за да предоставя интерактивна обратна връзка на основния език на всеки работник, включително суахили или по-неформални езици като шенг, смесен кодов език, популярен в Кения.

Зареждане...

Подкрепа за хора, които не говорят, като например терапевтични приложения за лица със състояния, които засягат речта, и образователни подобрения за хора с обучителни потребности. Livox⁠(отваря се в нов прозорец), приложение за алтернативна комуникация с ИИ, захранва устройства за допълваща и алтернативна комуникация (AAC), които позволяват на хората с увреждания да общуват. Използвайки Voice Engine, те могат да предложат на невербални хора уникални и нероботизирани гласове на много езици. Техните потребители могат да изберат реч, която най-добре ги представя, а за многоезичните потребители – да поддържат последователен глас във всеки език, които говорят.

Зареждане...

Помагаме на пациентите да възстановят гласа си, за тези, които страдат от внезапни или дегенеративни говорни нарушения. Институтът по невронауки Norman Prince към Lifespan⁠(отваря се в нов прозорец), система за здраве с нестопанска цел, която служи като основен обучителен партньор на медицинското училище към Университета Браун, проучва приложенията на ИИ в клинични контексти. Те провеждат пилотна програма, предлагаща Voice Engine на лица с онкологични или неврологични етиологии за говорно увреждане. Тъй като Voice Engine изисква толкова кратка аудио извадка, лекарите Фатима Мирза, Рохаид Али и Константина Свокос успяха да възстановят гласа на млада пациентка, която е загубила плавната си реч поради съдов мозъчен тумор, използвайки аудио от видеозапис, направен за училищен проект.

Зареждане...

Безопасно изграждане на Voice Engine

Ние разбираме, че генерирането на реч, която наподобява гласовете на хората, крие сериозни рискове, които са особено актуални в година на избори. Работим с партньори от САЩ и международни партньори от цялата сфера на държавното управление, медиите, развлекателната индустрия, образованието, гражданското общество и други, за да гарантираме, че включваме тяхната обратна връзка, докато изграждаме. Партньорите, които тестват Voice Engine днес, са се съгласили с нашите политики за използване⁠, които забраняват представянето на друго лице или организация без съгласие или законово право. Освен това нашите условия с тези партньори изискват изрично и информирано съгласие от оригиналния говорител и не позволяваме на разработчиците да създават начини отделни потребители да създават свои собствени гласове. Партньорите трябва също така ясно да разкриват пред аудиторията си, че гласовете, които чуват, са генерирани от ИИ. И накрая, внедрихме набор от мерки за безопасност, включително воден знак за проследяване на произхода на всяко аудио, генерирано от Voice Engine, както и проактивно наблюдение на начина, по който се използва. Смятаме, че всяко широко внедряване на технология за синтетичен глас следва да бъде съпътствано от механизми за удостоверяване на гласа, които потвърждават, че първоначалният говорител съзнателно добавя гласа си към услугата, както и списък с забранени гласове, който открива и предотвратява създаването на гласове, които са твърде сходни с тези на известни личности.

Поглед напред

Voice Engine е продължение на нашия ангажимент да разбираме границите на технически познания и открито да споделяме какво става възможно с изкуствения интелект. В съответствие с нашия подход към безопасността на ИИ⁠ и нашите доброволни ангажименти⁠ избираме да предоставим предварителен преглед, но да не пускаме широко тази технология на този етап. Надяваме се, че този предварителен преглед на Voice Engine едновременно подчертава потенциала му и мотивира необходимостта от укрепване на обществената устойчивост срещу предизвикателствата, породени от все по-убедителните генеративни модели. По-конкретно, ние насърчаваме стъпки като:

Постепенно премахване на удостоверяването, базирано на глас, като мярка за сигурност за достъп до банкови сметки и друга чувствителна информация
Проучване на политики за защита на използването на гласовете на хората в ИИ
Обучение на обществеността за разбиране на възможностите и ограниченията на технологиите с ИИ, включително възможността за подвеждащо съдържание, генерирано от ИИ
Ускоряване на разработването и приемането на техники за проследяване на произхода на аудиовизуално съдържание, за да е винаги ясно дали взаимодействате с реален човек или с изкуствен интелект

Важно е хората по целия свят да разбират накъде се насочва тази технология, независимо дали в крайна сметка ще я внедрим широко самите ние или не. Очакваме с нетърпение да продължим да участваме в разговори относно предизвикателствата и възможностите на синтетичните гласове с политици, изследователи, разработчици и творци.

Свързани статии

Вижте всички

Video generation models as world simulators

Публикация15.02.2024 г.

Building an early warning system for LLM-aided biological threat creation

Публикация31.01.2024 г.

Weak-to-strong generalization

Безопасност14.12.2023 г.