29. ožujka 2024.

Suočavanje s izazovima i mogućnostima sintetičkih glasova

Dijelimo lekcije iz malog pregleda modela Voice Engine, modela za stvaranje prilagođenih glasova.

Učitavanje…

OpenAI zalaže se za razvoj sigurne i široko korisne umjetne inteligencije⁠. Danas dijelimo preliminarne uvide i rezultate iz malog pregleda modela nazvanog Voice Engine, koji upotrebljava tekstualni unos i jedan audiouzorak od 15 sekundi za generiranje prirodnog govora koji nalikuje govoru izvornog govornika. Važno je napomenuti da mali model s jednim uzorkom od 15 sekundi može stvoriti emotivne i realistične glasove.

Model Voice Engine prvi smo put razvili krajem 2022. te smo ga koristili za pokretanje unaprijed zadanih glasova dostupnih u API-ju za pretvaranje teksta u govor⁠(otvara se u novom prozoru) kao i u načinu rada ChatGPT Voice i značajci Read Aloud⁠. Istodobno zauzimamo oprezan i informiran pristup širem uvođenju zbog mogućnosti zlouporabe sintetičkog glasa. Nadamo se da ćemo započeti dijalog o odgovornom uvođenju sintetičkih glasova i o tome kako se društvo može prilagoditi tim novim mogućnostima. Na temelju tih razgovora i rezultata tih malih testova donijet ćemo informiraniju odluku o tome treba li i kako implementirati ovu tehnologiju u velikom opsegu.

Rane primjene modela Voice Engine

Kako bismo bolje razumjeli potencijalne primjene ove tehnologije, krajem prošle godine započeli smo privatno testiranje s malom skupinom pouzdanih partnera. Impresionirani smo aplikacijama koje je ova skupina razvila. Ove implementacije u malom opsegu pomažu u oblikovanju našeg pristupa, zaštitnih mjera i razmišljanja o tome kako bi se Voice Engine mogao upotrebljavati za dobro u raznim djelatnostima. Nekoliko ranih primjera obuhvaća:

Pružanje pomoći pri čitanju nečitačima i djeci putem prirodno zvučećih, emotivnih glasova koji predstavljaju širi raspon govornika nego što je moguće s unaprijed zadanim glasovima. Age of Learning⁠(otvara se u novom prozoru), tvrtka za obrazovnu tehnologiju posvećena akademskom uspjehu djece, koristi ovo za generiranje unaprijed napisanog glasovnog sadržaja za sinkronizaciju. Oni Voice Engine i GPT‑4 upotrebljavaju i za stvaranje personaliziranih odgovora u stvarnom vremenu za interakciju sa studentima. Zahvaljujući ovoj tehnologiji Age of Learning uspio je stvoriti više sadržaja za širu publiku.

Prevođenje sadržaja, poput videozapisa i podcasta, kako bi kreatori i poduzeća mogli doprijeti do više ljudi diljem svijeta, tečno i vlastitim glasovima. Jedan od ranih usvojitelja ovoga je HeyGen⁠(otvara se u novom prozoru), platforma za vizualno pripovijedanje temeljena na umjetnoj inteligenciji koja sa svojim poslovnim korisnicima surađuje na izradi prilagođenih avatara sličnih ljudima za razne vrste sadržaja, od marketinga proizvoda do prodajnih demonstracija. Oni Voice Engine upotrebljavaju za prijevod videozapisa, tako da mogu prevesti glas govornika na više jezika i doprijeti do globalne publike. Kada se upotrebljava za prevođenje, Voice Engine zadržava izvorni naglasak izvornog govornika: primjerice, generiranje engleskog jezika sa zvučnim uzorkom francuskog govornika proizvelo bi govor s francuskim naglaskom.

Učitavanje...

Dosezanje globalnih zajednica poboljšanjem pružanja ključnih usluga u udaljenim područjima. Dimagi⁠(otvara se u novom prozoru) razvija alate za zdravstvene radnike u zajednici kako bi pružali razne ključne usluge, poput savjetovanja za majke koje doje. Kako bi pomogao ovim radnicima da razviju svoje vještine, Dimagi upotrebljava Voice Engine i GPT‑4 za pružanje interaktivnih povratnih informacija na primarnom jeziku svakog radnika, uključujući svahili ili neformalnije jezike poput shenga, miješanog jezika popularnog u Keniji.

Učitavanje...

Podrška osobama koje ne govore, kao što su terapijske primjene za pojedince sa stanjima koja utječu na govor i obrazovna unapređenja za one s potrebama za učenjem. Livox⁠(otvara se u novom prozoru), aplikacija za alternativnu komunikaciju temeljena na umjetnoj inteligenciji, pokreće uređaje za augmentativnu i alternativnu komunikaciju (AAC) koji osobama s invaliditetom omogućuju komunikaciju. Pomoću modela Voice Engine, ljudima koji ne govore oni mogu ponuditi jedinstvene i nerobotske glasove na mnogim jezicima. Njihovi korisnici mogu odabrati govor koji ih najbolje predstavlja, a za višejezične korisnike održavati dosljedan glas u svakom govornom jeziku.

Učitavanje...

Pomaganje pacijentima da povrate svoj glas, onima koji pate od iznenadnih ili degenerativnih govornih stanja. Institut za neuroznanosti Norman Prince pri Lifespan⁠(otvara se u novom prozoru), neprofitnom zdravstvenom sustavu koji služi kao primarna nastavna partnerska ustanova medicinskog fakulteta Sveučilišta Brown, istražuje primjene umjetne inteligencije u kliničkim kontekstima. Provodili su pilot program koji nudi Voice Engine pojedincima s onkološkim ili neurološkim etiologijama oštećenja govora. Budući da Voice Engine zahtijeva jako kratak audiouzorak, koristeći se zvukom iz videozapisa snimanog za školski projekt, liječnici Fatima Mirza, Rohaid Ali i Konstantina Svokos uspjeli su obnoviti glas mlade pacijentice koja je izgubila tečan govor zbog vaskularnog tumora mozga.

Učitavanje...

Siguran razvoj modela Voice Engine

Prepoznajemo da generiranje govora koji nalikuje glasovima ljudi nosi ozbiljne rizike, koji su posebno u fokusu u izbornoj godini. Surađujemo s partnerima iz SAD-a i međunarodnim partnerima iz vlade, medija, zabave, obrazovanja, civilnog društva i šire kako bismo osigurali da prilikom razvoja uključujemo njihove povratne informacije. Partneri koji danas testiraju Voice Engine pristali su na naša pravila o upotrebi⁠, koja zabranjuju lažno predstavljanje kao druga osoba ili organizacija bez pristanka ili zakonskog prava. Osim toga, naši uvjeti s tim partnerima zahtijevaju izričit i informiran pristanak izvornog govornika i ne dopuštamo programerima da stvaraju načine na koje pojedinačni korisnici mogu stvarati vlastite glasove. Partneri također moraju svojoj publici jasno otkriti da su glasovi koje čuju generirani umjetnom inteligencijom. Naposljetku, implementirali smo skup sigurnosnih mjera, uključujući vodeni žig za praćenje podrijetla bilo kojeg audiozapisa generiranog putem modela Voice Engine, kao i proaktivno praćenje načina njegove upotrebe. Vjerujemo da bi svako široko uvođenje tehnologije sintetičkog glasa trebalo biti popraćeno provjerama autentičnosti glasom koje potvrđuju da izvorni govornik svjesno dodaje svoj glas usluzi te popisom zabranjenih glasova koji otkriva i sprječava stvaranje glasova koji su previše slični glasovima istaknutih osoba.

Gledajući naprijed

Voice Engine nastavak je našeg zalaganja za razumijevanje tehničkih granica i za otvoreno dijeljenju onoga što postaje moguće s umjetnom inteligencijom. U skladu s našim pristupom sigurnosti umjetne inteligencije⁠ i našim dobrovoljnim obvezama⁠, odlučili smo u ovom trenutku omogućiti pregled, ali ne i široko objaviti ovu tehnologiju. Nadamo se da ovaj pregled modela Voice Engine naglašava njegov potencijal i također potiče potrebu za jačanjem društvene otpornosti na izazove koje donose sve uvjerljiviji generativni modeli. Konkretno, potičemo korake kao što su:

Postupno ukidanje provjere autentičnosti temeljene na glasu kao sigurnosne mjere za pristup bankovnim računima i drugim osjetljivim informacijama
Istraživanje pravila za zaštitu upotrebe glasova pojedinaca u umjetnoj inteligenciji
Edukacija javnosti o razumijevanju potencijala i ograničenja tehnologija umjetne inteligencije, uključujući mogućnost obmanjujućeg sadržaja umjetne inteligencije
Ubrzavanje razvoja i usvajanja tehnika za praćenje podrijetla audiovizualnog sadržaja, kako bi uvijek bilo jasno komunicirate li sa stvarnom osobom ili umjetnom inteligencijom

Važno je da ljudi diljem svijeta razumiju u kojem smjeru ide ova tehnologija, bez obzira na to hoćemo li je na kraju sami široko primijeniti ili ne. Radujemo se nastavku sudjelovanja u razgovorima o izazovima i prilikama sintetičkih glasova s kreatorima politika, istraživačima, programerima i kreativcima.

Povezani članci

Prikaži sve

Video generation models as world simulators

Publikacija15. velj 2024.

Building an early warning system for LLM-aided biological threat creation

Publikacija31. sij 2024.

Weak-to-strong generalization

Sigurnost14. pro 2023.