29. март 2024.

Сналажење у изазовима и могућностима синтетичких гласова

Делимо лекције из малог прегледа Voice Engine-а, модела за креирање прилагођених гласова.

Учитавање…

OpenAI је посвећен развоју безбедног AI који доноси широку корист⁠. Данас делимо прелиминарне увиде и резултате из малог прегледа модела под називом Voice Engine, који користи текстуални унос и један аудио узорак од 15 секунди да генерише природан говор који веома подсећа на оригиналног говорника. Значајно је да мали модел са једним узорком од 15 секунди може да креира емотивне и реалистичне гласове.

Voice Engine смо први пут развили крајем 2022. године и користили га за унапред подешене гласове доступне у API-ју за претварање текста у говор⁠(отвара се у новом прозору), као и у ChatGPT Voice и Read Aloud⁠. Истовремено, заузимамо опрезан и информисан приступ ширем објављивању због могућности злоупотребе синтетичког гласа. Надамо се да ћемо покренути дијалог о одговорном увођењу синтетичких гласова и о томе како друштво може да се прилагоди овим новим могућностима. На основу ових разговора и резултата ових малих тестирања, донећемо информисанију одлуку о томе да ли и како да ову технологију применимо у ширем обиму.

Ране примене Voice Engine-а

Да бисмо боље разумели потенцијалне примене ове технологије, крајем прошле године почели смо приватно да је тестирамо са малом групом поузданих партнера. Импресионирани смо применама које је ова група развила. Ове мале примене помажу нам да обликујемо наш приступ, заштитне мере и размишљање о томе како би Voice Engine могао да се користи за добро у различитим индустријама. Неколико раних примера укључује:

Пружање помоћи при читању нечитачима и деци кроз природне, емотивне гласове који представљају шири спектар говорника него што је могуће са унапред подешеним гласовима. Age of Learning⁠(отвара се у новом прозору), компанија за образовну технологију посвећена академском успеху деце, користи ово за генерисање унапред написаног наративног садржаја. Такође користе Voice Engine и GPT‑4 за креирање персонализованих одговора у реалном времену за интеракцију са ученицима. Захваљујући овој технологији, Age of Learning је успео да креира више садржаја за ширу публику.

Превођење садржаја, као што су видео снимци и подкасти, како би креатори и компаније могли да досегну више људи широм света, течно и сопственим гласовима. Један од раних корисника овога је HeyGen⁠(отвара се у новом прозору), AI платформа за визуелно приповедање која сарађује са својим пословним клијентима на креирању прилагођених аватара налик људима за различите врсте садржаја, од маркетинга производа до продајних демо приказа. Они користе Voice Engine за видео превођење, тако да могу да преведу глас говорника на више језика и допру до глобалне публике. Када се користи за превођење, Voice Engine чува изворни акценат оригиналног говорника: на пример, генерисање енглеског уз аудио узорак француског говорника произвело би говор са француским акцентом.

Учитавање...

Допирање до глобалних заједница, унапређивањем пружања основних услуга у удаљеним срединама. Dimagi⁠(отвара се у новом прозору) прави алате за здравствене раднике у заједници како би пружали различите основне услуге, као што је саветовање мајки које доје. Да би помогao овим радницима да развију своје вештине, Dimagi користи Voice Engine и GPT‑4 да пружи интерактивне повратне информације на примарном језику сваког радника, укључујући свахили или неформалније језике као што је Sheng, мешовити језик популаран у Кенији.

Учитавање...

Подршка особама које не говоре, као што су терапијске примене за особе са стањима која утичу на говор и образовна унапређења за оне са потребама у учењу. Livox⁠(отвара се у новом прозору), AI апликација за алтернативну комуникацију, покреће уређаје за аугментативну и алтернативну комуникацију (AAC) који омогућавају особама са инвалидитетом да комуницирају. Коришћењем Voice Engine-а, могу да понуде особама које не говоре јединствене и неприродно нероботске гласове на многим језицима. Њихови корисници могу да изаберу говор који их најбоље представља, а вишејезични корисници да задрже доследан глас на сваком говорном језику.

Учитавање...

Помоћ пацијентима да поврате свој глас, за оне који пате од изненадних или дегенеративних стања која утичу на говор. Norman Prince Neurosciences Institute у оквиру Lifespan⁠(отвара се у новом прозору)-а, непрофитног здравственог система који је главни наставни партнер медицинског факултета Универзитета Brown, истражује примену AI-ја у клиничком контексту. Пилотирали су програм који нуди Voice Engine особама са онколошким или неуролошким узроцима поремећаја говора. Пошто Voice Engine захтева тако кратак аудио узорак, доктори Fatima Mirza, Rohaid Ali и Konstantina Svokos успели су да поврате глас младој пацијенткињи која је изгубила течан говор због васкуларног тумора мозга, користећи звук из видеа снимљеног за школски пројекат.

Учитавање...

Безбедна изградња Voice Engine-а

Свесни смо да генерисање говора који подсећа на људске гласове носи озбиљне ризике, који су посебно у фокусу у изборној години. Сарађујемо са партнерима из САД и иностранства из власти, медија, забавне индустрије, образовања, цивилног друштва и шире како бисмо били сигурни да њихове повратне информације укључујемо током развоја. Партнери који данас тестирају Voice Engine пристали су на наше политике коришћења⁠, које забрањују лажно представљање друге особе или организације без пристанка или законског права. Поред тога, наши услови са овим партнерима захтевају изричит и информисан пристанак оригиналног говорника и не дозвољавамо програмерима да направе начине да појединачни корисници креирају сопствене гласове. Партнери такође морају јасно да обавесте своју публику да су гласови које чују генерисани AI-јем. На крају, применили смо скуп безбедносних мера, укључујући водени жиг за праћење порекла сваког аудио записа који генерише Voice Engine, као и проактивно праћење начина на који се користи. Верујемо да свако широко увођење технологије синтетичког гласа треба да прати искуство аутентификације гласа које потврђује да оригинални говорник свесно додаје свој глас услузи, као и листа забрањених гласова која открива и спречава креирање гласова који су превише слични истакнутим личностима.

Поглед унапред

Voice Engine је наставак наше посвећености разумевању техничке границе и отвореном дељењу онога што постаје могуће уз AI. У складу са нашим приступом безбедности AI⁠ и нашим добровољним обавезама⁠, тренутно смо одлучили да ову технологију прикажемо у прегледу, али да је не објавимо широко. Надамо се да овај преглед Voice Engine-а истиче и његов потенцијал и потребу да се ојача отпорност друштва на изазове које доносе све уверљивији генеративни модели. Конкретно, подстичемо кораке као што су:

Постепено укидање аутентификације засноване на гласу као безбедносне мере за приступ банковним рачунима и другим осетљивим информацијама
Разматрање политика за заштиту употребе гласова појединаца у AI
Едукација јавности ради разумевања могућности и ограничења AI технологија, укључујући могућност обмањујућег AI садржаја
Убрзавање развоја и усвајања техника за праћење порекла аудиовизуелног садржаја, како би увек било јасно када сте у интеракцији са стварном особом, а када са AI-јем

Важно је да људи широм света разумеју куда ова технологија иде, без обзира на то да ли ћемо је на крају широко применити или не. Радујемо се наставку разговора о изазовима и могућностима синтетичких гласова са креаторима политика, истраживачима, програмерима и креативцима.

Повезани чланци

Прикажи све

Video generation models as world simulators

Публикација15. феб 2024.

Building an early warning system for LLM-aided biological threat creation

Публикација31. јан 2024.

Weak-to-strong generalization

Безбедност14. дец 2023.