2024. gada 29. marts

Sintētisko balsu izaicinājumu un iespēju pārvaldīšana

Mēs dalāmies ar mācībām, kas gūtas neliela mēroga Voice Engine priekšskatījumā — modelī, kas paredzēts pielāgotu balsu izveidei.

Notiek ielāde…

OpenAI ir apņēmies attīstīt drošu un plaši noderīgu MI⁠. Šodien mēs dalāmies ar sākotnējiem ieskatiem un rezultātiem no neliela mēroga priekšskatījuma par modeli ar nosaukumu Voice Engine, kas izmanto teksta ievadi un vienu 15 sekunžu audio paraugu, lai ģenerētu dabiska skanējuma runu, kas cieši līdzinās sākotnējam runātājam. Jāatzīmē, ka neliels modelis ar vienu 15 sekunžu paraugu var izveidot emocionālas un reālistiskas balsis.

Mēs pirmo reizi izstrādājām Voice Engine 2022. gada beigās un esam to izmantojuši, lai nodrošinātu iepriekš iestatītās balsis, kas pieejamas teksta–runas API⁠(atveras jaunā logā), kā arī ChatGPT Balss un Lasīt skaļi⁠. Tajā pašā laikā mēs izmantojam piesardzīgu un informētu pieeju plašākai izlaišanai, ņemot vērā sintētiskās balss ļaunprātīgas izmantošanas iespējamību. Mēs ceram sākt dialogu par sintētisko balsu atbildīgu ieviešanu un to, kā sabiedrība var pielāgoties šīm jaunajām iespējām. Balstoties uz šīm sarunām un šo neliela mēroga testu rezultātiem, mēs pieņemsim informētāku lēmumu par to, vai un kā ieviest šo tehnoloģiju plašā mērogā.

Voice Engine agrīnie pielietojumi

Lai labāk izprastu šīs tehnoloģijas iespējamos lietojumus, pagājušā gada beigās mēs sākām to privāti testēt ar nelielu uzticamu partneru grupu. Šīs grupas izstrādātās lietotnes mums tiešām šķiet iespaidīgas. To ieviešot nelielā mērogā, tas mums palīdz veidot pieeju, drošības pasākumus un apsvērt, kā Voice Engine varētu tikt izmantots labiem mērķiem dažādās nozarēs. Daži agrīni piemēri:

Lasīšanas palīdzība nelasītājiem un bērniem, izmantojot dabiska skanējuma balsis ar izteiksmi, pārstāvot plašāku runātāju klāstu, nekā tas ir iespējams ar iepriekš iestatītām balsīm. Age of Learning⁠(atveras jaunā logā), izglītības tehnoloģiju uzņēmums, kas ir veltīts bērnu mācību panākumiem, ir izmantojis šo, lai ģenerētu iepriekš sagatavotu balss ieraksta saturu. Tas izmanto arī Voice Engine un GPT‑4, lai izveidotu reāllaika personalizētas atbildes mijiedarbībai ar studentiem. Ar šo tehnoloģiju Age of Learning ir spējis radīt vairāk satura plašākai auditorijai.

Satura tulkošana, piemēram, video un apraides, lai veidotāji un uzņēmumi varētu sasniegt vairāk cilvēku visā pasaulē — brīvi un viņu pašu balsīs. Viens no agrīnajiem ieviesējiem šajā jomā ir HeyGen⁠(atveras jaunā logā) - MI vizuālās stāstniecības platforma, kas sadarbojas ar saviem uzņēmumu klientiem, lai izveidotu pielāgotus, cilvēkam līdzīgus avatārus dažādam saturam - no produktu mārketinga līdz pārdošanas demonstrējumiem. Viņi izmanto Voice Engine video tulkošanai, lai varētu tulkot runātāja balsi vairākās valodās un sasniegt globālu auditoriju. Izmantojot tulkošanai, Voice Engine saglabā sākotnējā runātāja dzimto akcentu: piemēram, ģenerējot angļu valodu ar audio paraugu no franču runātāja, tiktu radīta runa ar franču akcentu.

Notiek ielāde...

Pasaules kopienu uzrunāšana, uzlabojot būtisku pakalpojumu sniegšanu attālos apstākļos. Dimagi⁠(atveras jaunā logā) izstrādā rīkus kopienas veselības darbiniekiem, lai sniegtu dažādus būtiskus pakalpojumus, piemēram, konsultācijas mātēm, kas baro bērnu ar krūti. Lai palīdzētu šiem darbiniekiem attīstīt savas prasmes, Dimagi izmanto Voice Engine un GPT‑4, sniedzot interaktīvu atgriezenisko saiti katra darbinieka primārajā valodā, tostarp svahili, vai neformālākās valodās, piemēram, šengā — kodu jauktā valodā, kas ir populāra Kenijā.

Notiek ielāde...

Atbalsts cilvēkiem, kuri ir neverbāli, piemēram, terapeitiskie lietojumi personām ar veselības stāvokļiem, kas ietekmē runu, un izglītības uzlabojumi tiem, kuriem ir mācīšanās vajadzības. Livox⁠(atveras jaunā logā), MI alternatīvās komunikācijas lietotne, nodrošina papildinošās un alternatīvās komunikācijas (AAC) ierīces, kas atvieglo saziņu cilvēkiem ar invaliditāti. Izmantojot Voice Engine, viņi var piedāvāt neverbāliem cilvēkiem unikālas un ne robotiskas balsis daudzās valodās. Lietotāji var izvēlēties runu, kas viņus vislabāk pārstāv, un daudzvalodu lietotājiem — saglabāt konsekventu balsi katrā runātajā valodā.

Notiek ielāde...

Palīdzam pacientiem atgūt balsi, tiem, kuri cieš no pēkšņiem vai deģeneratīviem runas traucējumiem. Normana Prinsa Neirozinātņu institūts Lifespan⁠(atveras jaunā logā) ietvaros, bezpeļņas veselības aprūpes sistēma, kas ir Brauna Universitātes medicīnas skolas galvenais mācību partneris, pēta MI izmantošanas iespējas klīniskā kontekstā. Tas īsteno pilotprogrammu, piedāvājot Voice Engine personām ar onkoloģiskas vai neiroloģiskas etioloģijas izraisītiem runas traucējumiem. Tā kā Voice Engine nepieciešams īss audio paraugs, ārsti Fatima Mirza, Rohaids Ali (Rohaid Ali) un Konstantina Svokosa (Konstantina Svokos) spēja atjaunot jaunas pacientes balsi, kura asinsvadu smadzeņu audzēja dēļ bija zaudējusi raitu runu, izmantojot audio no video, kas tika ierakstīts skolas projekta vajadzībām.

Notiek ielāde...

Droša Voice Engine izveide

Mēs atzīstam, ka runas ģenerēšana, kas līdzinās cilvēku balsīm, rada nopietnus riskus, kas ir īpaši aktuāli vēlēšanu gadā. Mēs sadarbojamies ar ASV un starptautiskajiem partneriem no valdības, mediju, izklaides, izglītības, pilsoniskās sabiedrības un citām jomām, lai izveides procesā iekļautu viņu atsauksmes. Partneri, kas šodien testē Voice Engine, ir piekrituši mūsu lietošanas politikai⁠, kas aizliedz uzdoties par citu personu vai organizāciju bez piekrišanas vai likumīgām tiesībām. Turklāt mūsu noteikumi ar šiem partneriem prasa skaidru un informētu sākotnējā runātāja piekrišanu, un mēs neļaujam izstrādātājiem izveidot iespējas, ar kuru palīdzību atsevišķi lietotāji varētu izveidot savas balsis. Partneriem arī skaidri jāatklāj savai auditorijai, ka balsis, ko viņi dzird, ir MI ģenerētas. Visbeidzot, mēs esam ieviesuši drošības pasākumu kopumu, tostarp ūdenszīmju ievietošanu, lai izsekotu jebkura Voice Engine ģenerēta audio izcelsmi, kā arī proaktīvu uzraudzību par tā izmantošanu. Mēs uzskatām, ka jebkurai plašai sintētiskās balss tehnoloģijas ieviešanai būtu jābūt papildinātai ar balss autentifikācijas pieredzēm, kas pārbauda, vai sākotnējais runātājs apzināti pievieno savu balsi pakalpojumam, un ar aizliegto balsu sarakstu, kas atpazīst un novērš tādu balsu izveidi, kas ir pārāk līdzīgas ievērojamām personām.

Skatoties uz priekšu

Voice Engine ir mūsu apņemšanās turpinājums izprast tehniskās robežšķirtnes un atklāti dalīties ar to, kas kļūst iespējams ar MI. Saskaņā ar mūsu pieeju MI drošībai⁠ un mūsu brīvprātīgajām saistībām⁠ mēs šobrīd izvēlamies šo tehnoloģiju piedāvāt priekšskatījumā, bet to plaši neizlaist. Mēs ceram, ka šis Voice Engine priekšskatījums gan uzsver tā potenciālu, gan arī motivē nepieciešamību stiprināt sabiedrības noturību pret izaicinājumiem, ko rada arvien pārliecinošāki ģeneratīvie modeļi. Konkrēti, mēs aicinām veikt šādus soļus:

Pakāpeniska atteikšanās no balss autentifikācijas kā drošības pasākuma piekļuvei bankas kontiem un citai sensitīvai informācijai
Izpētām politikas, lai aizsargātu personu balsu izmantošanu mākslīgajā intelektā
Sabiedrības izglītošana par MI tehnoloģiju iespējām un ierobežojumiem, tostarp par maldinoša MI satura iespējamību
Paātrinot metožu izstrādi un ieviešanu audiovizuālā satura izcelsmes izsekošanai, lai vienmēr būtu skaidrs, vai mijiedarbojaties ar īstu personu vai mākslīgo intelektu.

Ir svarīgi, lai cilvēki visā pasaulē saprastu, kādā virzienā attīstās šī tehnoloģija, neatkarīgi no tā, vai mēs to galu galā plaši ieviesīsim vai nē. Mēs ceram turpināt sarunas ar politikas veidotājiem, pētniekiem, izstrādātājiem un radošajiem cilvēkiem par sintētisko balsu izaicinājumiem un iespējām.

Saistītie raksti

Skatīt visu

Video generation models as world simulators

Publikācija2024. g. 15. febr.

Building an early warning system for LLM-aided biological threat creation

Publikācija2024. g. 31. janv.

Weak-to-strong generalization

Drošība2023. g. 14. dec.