29. mart 2024.

Kako se nositi s izazovima i prilikama sintetičkih glasova

Dijelimo lekcije iz pregleda Voice Enginea u malom obimu, modela za stvaranje prilagođenih glasova.

Učitavanje…

OpenAI se obavezuje na razvoj sigurne i široko korisne UI⁠. Danas dijelimo preliminarne uvide i rezultate iz malog pregleda modela pod nazivom Voice Engine, koji koristi tekstualni unos i jedan 15-sekundni audio uzorak za generiranje govora prirodnog zvuka koji blisko podsjeća na originalnog govornika. Vrijedi napomenuti da mali model sa jednim 15-sekundnim uzorkom može kreirati emotivne i realistične glasove.

Voice Engine smo prvi put razvili krajem 2022. godine i koristili smo ga za pokretanje unaprijed postavljenih glasova dostupnih u API-ju za pretvaranje teksta u govor⁠(otvara se u novom prozoru), kao i u ChatGPT Voice i Read Aloud⁠. Istovremeno, zauzimamo oprezan i informisan pristup širem objavljivanju zbog potencijala za zloupotrebu sintetičkog glasa. Nadamo se da ćemo započeti dijalog o odgovornom uvođenju sintetičkih glasova i o tome kako se društvo može prilagoditi ovim novim mogućnostima. Na osnovu ovih razgovora i rezultata ovih testova malog obima, donijet ćemo informiraniju odluku o tome da li i kako implementirati ovu tehnologiju u velikom obimu.

Rane primjene Voice Enginea

Kako bismo bolje razumjeli potencijalne upotrebe ove tehnologije, krajem prošle godine počeli smo je privatno testirati sa malom grupom pouzdanih partnera. Impresionirani smo aplikacijama koje je ova grupa razvila. Ove implementacije u malom obimu pomažu nam da oblikujemo naš pristup, zaštitne mjere i razmišljanje o tome kako bi se Voice Engine mogao koristiti za dobro u različitim industrijama. Nekoliko ranih primjera uključuje:

Pružanje pomoći pri čitanju nečitačima i djeci putem emotivnih glasova prirodnog zvuka koji predstavljaju širi raspon govornika nego što je moguće s unaprijed postavljenim glasovima. Age of Learning⁠(otvara se u novom prozoru), kompanija za obrazovnu tehnologiju posvećena akademskom uspjehu djece, koristi ovo za generisanje unaprijed napisanog voice-over sadržaja. Također koriste Voice Engine i GPT‑4 za kreiranje personaliziranih odgovora u stvarnom vremenu kako bi komunicirali sa studentima. Uz ovu tehnologiju, Age of Learning je uspio stvoriti više sadržaja za širu publiku.

Prevođenje sadržaja, poput videozapisa i podcasta, kako bi kreatori i preduzeća mogli doprijeti do više ljudi širom svijeta, tečno i vlastitim glasovima. Jedan rani usvojitelj ovoga je HeyGen⁠(otvara se u novom prozoru), platforma za vizuelno pripovijedanje zasnovana na UI koja radi sa svojim korisnicima iz preduzeća na kreiranju prilagođenih, ljudima sličnih avatara za različite vrste sadržaja, od marketinga proizvoda do prodajnih demonstracija. Koriste Voice Engine za prijevod videa, tako da mogu prevesti glas govornika na više jezika i doprijeti do globalne publike. Kada se koristi za prevođenje, Voice Engine zadržava izvorni akcenat originalnog govornika: na primjer, generisanje engleskog jezika s audio uzorkom francuskog govornika proizvelo bi govor sa francuskim akcentom.

Učitavanje...

Dopiranje do globalnih zajednica, poboljšanjem pružanja osnovnih usluga u udaljenim okruženjima. Dimagi⁠(otvara se u novom prozoru) gradi alate za radnike zajednice za zdravlje kako bi pružali razne osnovne usluge, kao što je savjetovanje za majke koje doje. Kako bi pomogao ovim radnicima da razviju svoje vještine, Dimagi koristi Voice Engine i GPT‑4 za pružanje interaktivnih povratnih informacija na primarnom jeziku svakog radnika, uključujući svahili ili neformalnije jezike poput shenga, jezika sa miješanim kodom popularnog u Keniji.

Učitavanje...

Podrška osobama koje ne govore, kao što su terapijske aplikacije za osobe sa stanjima koja utiču na govor i obrazovna poboljšanja za one sa potrebama u učenju. Livox⁠(otvara se u novom prozoru), UI aplikacija za alternativnu komunikaciju, pokreće uređaje za augmentativnu i alternativnu komunikaciju (AAC) koji omogućavaju osobama s invaliditetom da komuniciraju. Korištenjem Voice Enginea, mogu ponuditi osobama koje ne govore jedinstvene i ne-robotske glasove na mnogim jezicima. Njihovi korisnici mogu odabrati govor koji ih najbolje predstavlja, a višejezični korisnici mogu održavati dosljedan glas kroz svaki jezik koji govore.

Učitavanje...

Pomažemo pacijentima da povrate svoj glas, za one koji pate od iznenadnih ili degenerativnih govornih stanja. Institut za neuroznanosti Norman Prince pri Lifespan⁠(otvara se u novom prozoru), neprofitnom sistemu zdravlja koji služi kao primarni nastavnički partner medicinskog fakulteta Univerziteta Brown, istražuje primjene UI u kliničkim kontekstima. Provodili su pilot program koji nudi Voice Engine osobama s onkološkim ili neurološkim etiologijama oštećenja govora. Budući da Voice Engine zahtijeva tako kratak audio uzorak, doktori Fatima Mirza, Rohaid Ali i Konstantina Svokos uspjeli su obnoviti glas mlade pacijentice koja je izgubila tečan govor zbog vaskularnog tumora na mozgu, koristeći audio iz videa snimljenog za školski projekat.

Učitavanje...

Izgradnja Voice Engine na siguran način

Prepoznajemo da generisanje govora koji liči na glasove ljudi nosi ozbiljne rizike koji su posebno u fokusu tokom izborne godine. Angažujemo se sa partnerima iz SAD-a i međunarodnim partnerima iz vlade, medija, zabave, obrazovanja, civilnog društva i šire kako bismo osigurali da uključujemo njihove povratne informacije dok gradimo. Partneri koji danas testiraju Voice Engine pristali su na naša pravila upotrebe⁠, koja zabranjuju predstavljanje kao druga osoba ili organizacija bez pristanka ili zakonskog prava. Osim toga, naši uslovi s ovim partnerima zahtijevaju izričit i informiran pristanak originalnog govornika i ne dozvoljavamo programerima da kreiraju načine da pojedinačni korisnici kreiraju vlastite glasove. Partneri također moraju jasno otkriti svojoj publici da su glasovi koje čuju generirani umjetnom inteligencijom. Konačno, implementirali smo niz sigurnosnih mjera, uključujući vodeni žig za praćenje porijekla bilo kojeg zvuka generiranog putem Voice Enginea, kao i proaktivno praćenje njegove upotrebe. Vjerujemo da svako široko uvođenje tehnologije sintetičkog glasa treba biti praćeno iskustvima autentifikacije glasa koja potvrđuju da originalni govornik svjesno dodaje svoj glas usluzi, kao i listom zabranjenih glasova koja otkriva i sprječava kreiranje glasova koji su previše slični istaknutim ličnostima.

Pogled unaprijed

Voice Engine je nastavak naše posvećenosti da razumijemo granični tehnički front i otvoreno dijelimo ono što postaje moguće uz UI. U skladu sa našim pristupom sigurnosti umjetne inteligencije⁠ i našim dobrovoljnim obavezama⁠, odlučujemo da u ovom trenutku omogućimo pregled, ali ne i široko objavimo ovu tehnologiju. Nadamo se da ovaj pregled Voice Enginea i naglašava njegov potencijal i motiviše potrebu da se ojača društvena otpornost na izazove koje donose sve uvjerljiviji generativni modeli. Konkretno, potičemo korake kao što su:

Postepeno ukidanje autentifikacije na osnovu glasa kao sigurnosne mjere za pristup bankovnim računima i drugim osjetljivim informacijama
Istraživanje politika za zaštitu korištenja glasova pojedinaca u umjetnoj inteligenciji
Edukacija javnosti o razumijevanju mogućnosti i ograničenja UI tehnologija, uključujući mogućnost obmanjujućeg UI sadržaja
Ubrzavanje razvoja i usvajanja tehnika za praćenje porijekla audiovizuelnog sadržaja, kako bi uvijek bilo jasno komunicirate li sa stvarnom osobom ili umjetnom inteligencijom

Važno je da ljudi širom svijeta razumiju kuda ova tehnologija ide, bez obzira na to hoćemo li je na kraju široko implementirati sami ili ne. Radujemo se nastavku sudjelovanja u razgovorima o izazovima i prilikama sintetičkih glasova sa kreatorima politika, istraživačima, programerima i kreativcima.

Povezani članci

Prikažite sve

Video generation models as world simulators

Publikacija15. feb 2024.

Building an early warning system for LLM-aided biological threat creation

Publikacija31. jan 2024.

Weak-to-strong generalization

Sigurnost14. dec 2023.