Å navigere i utfordringene og mulighetene med syntetiske stemmer
Vi deler lærdom fra en forhåndsvisning i liten skala av Voice Engine, en modell for å lage tilpassede stemmer.
OpenAI er forpliktet til å utvikle trygg og bredt nyttig KI. I dag deler vi foreløpige innsikter og resultater fra en småskala forhåndsvisning av en modell kalt Voice Engine, som bruker tekstinndata og en enkelt 15-sekunders lydprøve til å generere naturlig klingende tale som ligner tett på den opprinnelige taleren. Det er bemerkelsesverdig at en liten modell med en enkelt 15-sekunders prøve kan skape følelsesladde og realistiske stemmer.
Vi utviklet først Voice Engine sent i 2022, og har brukt den til å drive de forhåndsinnstilte stemmene som er tilgjengelige i tekst-til-tale-API-en(åpnes i et nytt vindu) samt ChatGPT Voice og Les høyt. Samtidig har vi en varsom og informert tilnærming til en bredere lansering på grunn av potensialet for misbruk av syntetiske stemmer. Vi håper å starte en dialog om ansvarlig utrulling av syntetiske stemmer, og hvordan samfunnet kan tilpasse seg disse nye mulighetene. Basert på disse samtalene og resultatene av disse småskalatestene vil vi ta en mer informert beslutning om hvorvidt og hvordan vi skal implementere denne teknologien i stor skala.
For å bedre forstå de potensielle bruksområdene for denne teknologien, begynte vi i fjor mot slutten av året å teste den privat med en liten gruppe betrodde partnere. Vi har vært imponert over applikasjonene denne gruppen har utviklet. Disse utrullingene i liten skala bidrar til å informere tilnærmingen vår, sikkerhetstiltakene våre og tankegangen vår om hvordan Voice Engine kan brukes til det gode på tvers av ulike bransjer. Her er noen tidlige eksempler:
- Tilbyr lesehjelp til ikke-lesere og barn gjennom naturlig klingende, følelsesladde stemmer som representerer et bredere spekter av talere enn det som er mulig med forhåndsinnstilte stemmer. Age of Learning(åpnes i et nytt vindu), et utdanningsteknologiselskap som er dedikert til barns akademiske suksess, har brukt dette til å generere forhåndsskrevet voice-over-innhold. De bruker også Voice Engine og GPT‑4 til å lage personlige svar i sanntid for å samhandle med elever. Med denne teknologien har Age of Learning kunnet skape mer innhold for et bredere publikum.
- Oversette innhold, som videoer og podkaster, slik at skapere og virksomheter kan nå flere mennesker over hele verden, flytende og med sine egne stemmer. En tidlig bruker av dette er HeyGen(åpnes i et nytt vindu), en KI-plattform for visuell historiefortelling som samarbeider med bedriftskundene sine for å lage tilpassede, menneskelignende avatarer for en rekke typer innhold, fra produktmarkedsføring til salgsdemoer. De bruker Voice Engine til videooversettelse, slik at de kan oversette en talers stemme til flere språk og nå et globalt publikum. Når den brukes til oversettelse, bevarer Voice Engine den opprinnelige aksenten til den opprinnelige taleren: for eksempel vil generering av engelsk med en lydprøve fra en fransk taler produsere tale med en fransk aksent.
- Når ut til globale lokalsamfunn, ved å forbedre leveringen av essensielle tjenester i avsidesliggende områder. Dimagi(åpnes i et nytt vindu) bygger verktøy for helsearbeidere i lokalsamfunnet, slik at de kan tilby en rekke essensielle tjenester, som for eksempel veiledning for ammende mødre. For å hjelpe disse arbeiderne med å utvikle ferdighetene sine bruker Dimagi Voice Engine og GPT‑4 til å gi interaktiv tilbakemelding på hver arbeiders primærspråk, inkludert swahili eller mer uformelle språk som sheng, et kodeblandet språk som er populært i Kenya.
- Støtte til personer som ikke er verbale, for eksempel terapeutiske applikasjoner for personer med tilstander som påvirker tale, og pedagogiske forbedringer for dem med læringsbehov. Livox(åpnes i et nytt vindu), en KI-basert app for alternativ kommunikasjon, driver enheter for alternativ og supplerende kommunikasjon (ASK) som gjør det mulig for personer med funksjonsnedsettelser å kommunisere. Ved å bruke Voice Engine kan de tilby ikke-verbale personer unike og ikke-robotiske stemmer på tvers av mange språk. Brukerne deres kan velge tale som best representerer dem, og for flerspråklige brukere, opprettholde en konsekvent stemme på tvers av hvert talespråk.
- Hjelper pasienter med å få tilbake stemmen, for dem som lider av plutselige eller degenerative taletilstander. Norman Prince Neurosciences Institute ved Lifespan(åpnes i et nytt vindu), et ideelt Helsesystem som fungerer som den primære undervisningstilknyttede institusjonen for Brown Universitys medisinske fakultet, utforsker bruksområder for KI i kliniske sammenhenger. De har testet ut et program som tilbyr Voice Engine til personer med onkologiske eller nevrologiske årsaker til talevansker. Siden Voice Engine krever en så kort lydprøve, kunne legene Fatima Mirza, Rohaid Ali og Konstantina Svokos gjenopprette stemmen til en ung pasient som mistet sin flytende tale på grunn av en vaskulær hjernesvulst, ved å bruke lyd fra en video som ble tatt opp til et skoleprosjekt.
Vi erkjenner at generering av tale som ligner på folks stemmer, innebærer alvorlige risikoer, noe som er spesielt aktuelt i et valgår. Vi samarbeider med amerikanske og internasjonale partnere på tvers av myndigheter, media, underholdning, utdanning, sivilsamfunn og mer for å sikre at vi tar med tilbakemeldingene deres mens vi bygger. Partnerne som tester Voice Engine i dag, har samtykket til retningslinjene våre for bruk, som forbyr å utgi seg for å være en annen person eller organisasjon uten samtykke eller juridisk rett. I tillegg krever vilkårene våre med disse partnerne uttrykkelig og informert samtykke fra den opprinnelige taleren, og vi tillater ikke at utviklere bygger måter for individuelle brukere å lage sine egne stemmer. Partnere må også tydelig informere publikum om at stemmene de hører, er KI-genererte. Til slutt har vi implementert et sett med sikkerhetstiltak, inkludert vannmerking for å spore opprinnelsen til all lyd som genereres av Voice Engine, samt proaktiv overvåking av hvordan den brukes. Vi mener at enhver bred utrulling av syntetisk stemmeteknologi bør ledsages av stemmeautentiseringsopplevelser som verifiserer at den opprinnelige taleren bevisst legger til stemmen sin i tjenesten, og en no-go-stemmeliste som oppdager og forhindrer opprettelsen av stemmer som er for like fremtredende personer.
Voice Engine er en videreføring av vår forpliktelse til å forstå den banebrytende tekniske fronten og åpent dele hva som blir mulig med KI. I tråd med vår tilnærming til KI-sikkerhet og våre frivillige forpliktelser velger vi å forhåndsvise, men ikke gi denne teknologien en bred lansering på nåværende tidspunkt. Vi håper denne forhåndsvisningen av Voice Engine både understreker potensialet og også motiverer behovet for å styrke samfunnets motstandskraft mot utfordringene som stadig mer overbevisende generative modeller medfører. Spesifikt oppfordrer vi til tiltak som:
- Faser ut stemmebasert autentisering som et sikkerhetstiltak for tilgang til bankkontoer og andre sensitive opplysninger
- Utforsker retningslinjer for å beskytte bruken av enkeltpersoners stemmer i KI
- Å lære folk å forstå mulighetene og begrensningene ved KI-teknologier, inkludert muligheten for villedende KI-innhold
- Akselerere utviklingen og adopsjonen av teknikker for å spore opprinnelsen til audiovisuelt innhold, slik at det alltid er tydelig når du samhandler med en ekte person eller med KI
Det er viktig at folk over hele verden forstår hvor denne teknologien er på vei, enten vi til syvende og sist tar den i bruk i stor skala selv eller ikke. Vi ser frem til å fortsette å delta i samtaler om utfordringene og mulighetene ved syntetiske stemmer med beslutningstakere, forskere, utviklere og kreative.


