7. јун 2024.

Detaljnije o tome kako Voice Engine funkcioniše i našem istraživanju bezbednosti

Istraživanje tehnologije iza našeg modela za pretvaranje teksta u govor.

Apstraktna slika sa mešavinom pastelnih boja, uključujući roze, narandžastu, ljubičastu i zelenu, koja podseća na živopisan pejzaž.

Учитавање…

Pružamo više uvida u to kako Voice Engine funkcioniše i u naše istraživanje bezbednosti kako bismo sve informisali o našem napretku. Voice Engine je model sposoban za kreiranje prilagođenih glasova.

Važno je da ljudi širom sveta razumeju kuda ova tehnologija ide, bez obzira na to da li ćemo je na kraju sami široko primeniti ili ne. Zato želimo da objasnimo kako model funkcioniše, kako ga koristimo za istraživanje i obrazovanje i kako sprovodimo naše bezbednosne mere oko njega. Voice Engine još nije široko dostupan.

Kako Voice Engine funkcioniše

Glasovnu mogućnost pokreće model za pretvaranje teksta u govor (TTS), sposoban da generiše zvuk nalik ljudskom samo iz teksta i 15 sekundi uzorka govora.

TTS sistem se razvija tako što se modelu pomaže da razume nijanse govora iz uparenih audio zapisa i transkripata. Model uči da predvidi najverovatnije zvuke koje će govornik proizvesti za dati tekstualni transkript, uzimajući u obzir različite glasove, akcente i stilove govora. Nakon toga, model može da generiše ne samo izgovorene verzije teksta, već i govorne iskaze koji odražavaju kako bi ih različite vrste govornika izgovorile.

Odatle, za generisanje zvuka pomoću TTS modela potreban je samo uzorak govornika od 15 sekundi i odgovarajući tekst. Model se ne doteruje za bilo kog konkretnog govornika, ne postoji prilagođavanje modela. Umesto toga, koristi proces difuzije, počevši od nasumičnog šuma i postepeno ga uklanjajući kako bi se što vernije poklopilo sa tim kako bi govornik iz audio uzorka od 15 sekundi izgovorio tekst.

Model razvijamo već više od godinu dana

Voice Engine smo prvi put razvili krajem 2022. godine. Rano u procesu, da bismo procenili mogućnosti i ograničenja našeg Voice Engine modela, interno smo ga testirali koristeći mešavinu javnih i privatnih uzoraka glasa. Ovaj interni prototip bio je ključan za naše istraživanje usklađivanja i bezbednosti, oblikovao je naše zaštitne mere i predstavlja nastavak naše posvećenosti razumevanju tehničke granice.

Važno je da su ti izlazi bili rezervisani za interna testiranja, a ne za obučavanje modela koji pokreću naše proizvode.

Kao deo našeg okvira iterativnog uvođenja, ovaj rani prototip je takođe imao vrednu ulogu u pomaganju kreatorima politika da razumeju mogućnosti modela sintetičkog glasa. Na primer, počev od prošlog leta, globalnim kreatorima politika na najvišim nivoima pokazivali smo potencijal ove tehnologije i razgovarali sa njima o povezanim rizicima.

U septembru 2023.⁠, koristili smo Voice Engine za pokretanje funkcije režim glasa u ChatGPT‑u. Pošto su ove mogućnosti donosile i nove rizike, lansirali smo je samo za ovaj konkretan slučaj upotrebe. Režim glasa je kreiran isključivo od stvarnih glasova, pažljivo odabranih⁠ kroz detaljan proces koji je počeo u maju 2023. i uključivao profesionalne glasovne glumce, agencije za talente, direktore kastinga i savetnike iz industrije.

U novembru 2023.⁠, objavili smo jednostavan TTS API⁠(отвара се у новом прозору) koji takođe pokreće Voice Engine. Odlučili smo se za još jedno ograničeno objavljivanje u okviru kog smo sarađivali sa profesionalnim glasovnim glumcima kako bismo napravili audio uzorke od 15 sekundi za svaki od šest unapred podešenih glasova u API-ju. Programeri, na primer, mogu da ih ugrade u svoje veb-sajtove kako bi naglas čitali blog objave.

U martu ove godine⁠, prikazali smo mogućnost Voice Engine-a da kreira prilagođene glasove sa malim brojem pouzdanih partnera. Ova inicijativa imala je za cilj da podigne svest o mogućnostima sintetičkih glasova i podrži sledeće ciljeve:

Postepeno ukidanje autentifikacije zasnovane na glasu kao bezbednosne mere za pristup bankovnim računima i drugim osetljivim informacijama
Istraživanje politika za zaštitu upotrebe glasova pojedinaca u AI-ju
Edukaciju javnosti o razumevanju mogućnosti i ograničenja AI tehnologija, uključujući mogućnost obmanjujućeg AI sadržaja
Ubrzavanje razvoja i usvajanja tehnika za praćenje porekla audiovizuelnog sadržaja, kako bi uvek bilo jasno kada komunicirate sa stvarnom osobom, a kada sa AI-jem

Ova mala uvođenja takođe nam pomažu da oblikujemo naš pristup, zaštitne mere i razmišljanje o tome kako bi Voice Engine mogao da se koristi za dobro u različitim industrijama.

Bezbedna izgradnja Voice Engine-a je glavni prioritet

Nastavljamo da sarađujemo sa partnerima iz SAD i međunarodnim partnerima iz vlade, medija, zabave, obrazovanja, civilnog društva i šire, kako bismo bili sigurni da uključujemo njihove povratne informacije dok gradimo.

Partneri koji testiraju Voice Engine pristali su na politike korišćenja koje zabranjuju imitiranje bez pristanka i zahtevaju izričito odobrenje originalnog govornika, kao i da se slušaocima jasno saopšti kada je glas generisan AI-jem. Pored toga, bezbednosne mere poput vodenih žigova i proaktivnog nadzora⁠ postoje kako bi se pratila i nadzirala upotreba ove tehnologije.

Bezbednost sintetičkog glasa u budućnosti

Omnimodeli kao što je GPT‑4o, sa izvornim audio mogućnostima, omogućavaju nove interakcije koje prethodni modeli poput Voice Engine-a nisu mogli. Takođe prepoznajemo da audio modalitet GPT‑4o uvodi nekoliko novih rizika, posebno u generisanju glasa. Aktivno sprovodimo red teaming za GPT‑4o kako bismo identifikovali i rešili i poznate i nepredviđene rizike u različitim oblastima kao što su socijalna psihologija, pristrasnost i pravičnost, i dezinformacije. Ugrađujemo više slojeva mera ublažavanja, kao što su usavršavanje ponašanja modela, prilagođavanje postojećih sistema zasnovanih na tekstu arhitekturi GPT‑4o i razvoj novih klasifikatora.

U skladu sa našim opreznim pristupom objavljivanju Voice Engine-a, ograničićemo audio izlaze GPT‑4o na izbor unapred podešenih glasova za opštu dostupnost. Ovi glasovi potiču od profesionalnih glasovnih glumaca koji su izabrani kroz pažljivo osmišljen proces kastinga. Podelićemo dodatne informacije o rizicima i merama ublažavanja povezanim sa audiom u predstojećoj GPT‑4o sistemskoj kartici.

Autor

OpenAI