29. marec 2024

Krmarjenje skozi izzive in priložnosti sintetičnih glasov

Delimo lekcije iz majhnega predogleda Voice Engine, modela za ustvarjanje glasov po meri.

Nalaganje …

OpenAI se zavezuje k razvoju varne in široko koristne umetne inteligence⁠. Danes delimo predhodne vpoglede in rezultate iz majhnega predogleda modela z imenom Voice Engine, ki uporablja besedilni vnos in en sam 15-sekundni zvočni vzorec za ustvarjanje naravno zvenečega govora, ki je zelo podoben izvirnemu govorcu. Omeniti velja, da lahko majhen model z enim 15-sekundnim vzorcem ustvari čustvene in realistične glasove.

Voice Engine smo prvič razvili konec leta 2022 in ga uporabili za poganjanje prednastavljenih glasov, ki so na voljo v API-ju za pretvorbo besedila v govor⁠(odpre se v novem oknu), pa tudi v Glasovni ChatGPT in funkciji Preberi na glas⁠. Hkrati pa zaradi možnosti zlorabe sintetičnega glasu k širši izdaji pristopamo previdno in premišljeno. Upamo, da bomo začeli dialog o odgovornem uvajanju sintetičnih glasov in o tem, kako se lahko družba prilagodi tem novim zmožnostim. Na podlagi teh pogovorov in rezultatov teh testov v majhnem obsegu bomo sprejeli bolj informirano odločitev o tem, ali in kako uvesti to tehnologijo v velikem obsegu.

Zgodnje uporabe Voice Engine

Da bi bolje razumeli morebitne uporabe te tehnologije, smo konec lanskega leta začeli zasebno testiranje z majhno skupino zaupanja vrednih partnerjev. Navdušeni smo nad aplikacijami, ki jih je ta skupina razvila. Te uvedbe v manjšem obsegu pomagajo oblikovati naš pristop, zaščitne ukrepe in razmišljanje o tem, kako bi se Voice Engine lahko uporabljal v dobro v različnih panogah. Nekaj zgodnjih primerov vključuje:

Zagotavljanje pomoči pri branju nebralcem in otrokom z naravno zvenečimi, čustveno obarvanimi glasovi, ki predstavljajo širši nabor govorcev, kot je mogoče s prednastavljenimi glasovi. Age of Learning⁠(odpre se v novem oknu), podjetje za izobraževalno tehnologijo, ki je predano akademskemu uspehu otrok, to uporablja za ustvarjanje vnaprej pripravljenih vsebin glasovne naracije. Uporabljajo tudi Voice Engine in GPT‑4 za ustvarjanje odzivov v realnem času, prilagojenih posamezniku, za interakcijo z učenci. S to tehnologijo je Age of Learning lahko ustvaril več vsebin za širše občinstvo.

Prevajanje vsebine, kot so videoposnetki in podkasti, da lahko ustvarjalci in podjetja dosežejo več ljudi po vsem svetu, tekoče in s svojim lastnim glasom. Eden od zgodnjih uporabnikov tega je HeyGen⁠(odpre se v novem oknu), platforma za vizualno pripovedovanje zgodb z umetno inteligenco, ki s svojimi poslovnimi strankami sodeluje pri ustvarjanju prilagojenih, človeku podobnih avatarjev za različne vrste vsebin, od trženja izdelkov do prodajnih predstavitev. Za prevajanje videoposnetkov uporabljajo Voice Engine, zato lahko glas govorca prevedejo v več jezikov in dosežejo globalno občinstvo. Ko se uporablja za prevajanje, Voice Engine ohrani izvorni naglas prvotnega govorca: na primer, če bi generirali angleščino z zvočnim vzorcem francoskega govorca, bi nastal govor s francoskim naglasom.

Nalaganje ...

Doseganje globalnih skupnosti, z izboljšanjem zagotavljanja ključnih storitev v oddaljenih okoljih. Dimagi⁠(odpre se v novem oknu) razvija orodja za delavce skupnosti na področju zdravja, da lahko zagotavljajo različne bistvene storitve, kot je svetovanje doječim materam. Da bi tem delavcem pomagali razvijati svoje veščine, Dimagi uporablja Voice Engine in GPT‑4 za zagotavljanje interaktivnih povratnih informacij v primarnem jeziku vsakega delavca, vključno s Swahili ali bolj neformalnimi jeziki, kot je Sheng, mešani kodni jezik, priljubljen v Keniji.

Nalaganje ...

Podpora posameznikom z motnjami govora vključuje terapevtske aplikacije za posameznike s stanji, ki vplivajo na govor, in izobraževalne izboljšave za tiste z učnimi potrebami. Livox⁠(odpre se v novem oknu), aplikacija za alternativno komunikacijo z umetno inteligenco, poganja naprave za nadomestno in alternativno komunikacijo (AAC), ki ljudem z invalidnostmi omogočajo komunikacijo. Z uporabo Voice Engine lahko ponudijo ljudem, ki ne govorijo, edinstvene in ne-robotske glasove v več jezikih. Njihovi uporabniki lahko izberejo govor, ki jih najbolje predstavlja, večjezični uporabniki pa lahko ohranijo dosleden glas v vsakem jeziku, ki ga govorijo.

Nalaganje ...

Pomagamo pacientom, da se jim povrne glas, za osebe, ki trpijo zaradi nenadnih ali degenerativnih govornih motenj. Inštitut za nevroznanost Norman Prince pri Lifespan⁠(odpre se v novem oknu), neprofitnem zdravstvenem sistemu, ki je glavni pedagoški partner medicinske fakultete Univerze Brown, raziskuje uporabo umetne inteligence v kliničnih okoljih. Izvajali so pilotni program, ki posameznikom z onkološkimi ali nevrološkimi etiologijami za govorno okvaro ponuja Voice Engine. Ker Voice Engine zahteva tako kratek zvočni vzorec, so zdravniki Fatima Mirza, Rohaid Ali in Konstantina Svokos lahko obnovili glas mlade pacientke, ki je zaradi žilnega možganskega tumorja izgubila tekoč govor, pri čemer so uporabili zvok iz videoposnetka, posnetega za šolski projekt.

Nalaganje ...

Varno razvijanje Voice Engine

Zavedamo se, da ustvarjanje govora, ki je podoben glasovom ljudi, prinaša resna tveganja, ki so še posebej v ospredju v volilnem letu. Sodelujemo z ameriškimi in mednarodnimi partnerji iz vladnih institucij, medijev, zabavne industrije, izobraževanja, civilne družbe in širše, da zagotovimo, da pri razvoju upoštevamo njihove povratne informacije. Partnerji, ki danes testirajo Voice Engine, so se strinjali z našimi politikami uporabe⁠, ki prepovedujejo izdajanje za drugo osebo ali organizacijo brez soglasja ali zakonite pravice. Poleg tega naši pogoji s temi partnerji zahtevajo izrecno in informirano privolitev izvirnega govorca, razvijalcem pa ne dovoljujemo, da bi ustvarjali načine, s katerimi bi posamezni uporabniki lahko ustvarili lastne glasove. Partnerji morajo svojemu občinstvu tudi jasno razkriti, da so glasovi, ki jih slišijo, ustvarjeni z umetno inteligenco. Nazadnje smo uvedli nabor varnostnih ukrepov, vključno z vodnim žigom za sledenje izvoru katerega koli zvoka, ki ga ustvari Voice Engine, ter proaktivnim spremljanjem, kako se uporablja. Menimo, da bi moralo vsako široko uvajanje tehnologije sintetičnega glasu spremljati izkušnje glasovne avtentikacije, ki preverjajo, da izvirni govorec zavestno dodaja svoj glas storitvi, ter seznam prepovedanih glasov, ki zazna in prepreči ustvarjanje glasov, ki so preveč podobni vidnim javnim osebnostim.

Pogled v prihodnost

Voice Engine je nadaljevanje naše zaveze za razumevanje napredne tehnologije, ker želimo pokazati, kaj vse je mogoče z umetno inteligenco. V skladu z našim pristopom do varnosti umetne inteligence⁠ in našimi prostovoljnimi zavezami⁠ smo se odločili, da to tehnologijo predstavimo v predogledu za ožjo publiko. Upamo, da ta predogled Voice Engine poudarja njegov potencial in spodbuja potrebo po krepitvi družbene odpornosti proti izzivom, ki jih prinašajo vse bolj prepričljivi generativni modeli. Konkretno spodbujamo korake, kot so:

Postopno opuščanje glasovnega preverjanja pristnosti kot varnostnega ukrepa za dostop do bančnih računov in drugih občutljivih podatkov
Raziskovanje politik za zaščito uporabe glasov posameznikov v umetni inteligenci
Izobraževanje javnosti o razumevanju zmožnosti in omejitev tehnologij umetne inteligence, vključno z možnostjo zavajajoče vsebine, ustvarjene z umetno inteligenco
Pospeševanje razvoja in uvajanja tehnik za sledenje izvoru avdiovizualnih vsebin, da bo vedno jasno, ali komunicirate z resnično osebo ali z umetno inteligenco

Pomembno je, da ljudje po vsem svetu razumejo, v katero smer se ta tehnologija razvija, ne glede na to, ali jo bomo na koncu sami širše uvedli ali ne. Veselimo se nadaljnjega sodelovanja v razpravah o izzivih in možnostih sintetičnih glasov z oblikovalci politik, raziskovalci, razvijalci in ustvarjalci.

Sorodni članki

Prikaži vse

Video generation models as world simulators

Objava15. feb. 2024

Building an early warning system for LLM-aided biological threat creation

Objava31. jan. 2024

Weak-to-strong generalization

Varnost14. dec. 2023