Navigering i udfordringerne og mulighederne ved syntetiske stemmer
Vi deler erfaringer fra en lille forhåndsvisning af Voice Engine, som er en model til at oprette brugerdefinerede stemmer.
OpenAI arbejder for at udvikle sikker og bredt gavnlig AI. I dag deler vi foreløbige indsigter og resultater fra en lille forhåndsvisning af en model kaldet Voice Engine, som bruger tekstinput og en enkelt lydprøve på 15 sekunder til at generere naturtro tale, der minder meget om den oprindelige taler. Det er bemærkelsesværdigt, at en lille model med en enkelt 15-sekunders prøve kan skabe følelsesladede og realistiske stemmer.
Vi udviklede først Voice Engine i slutningen af 2022 og har brugt den til at drive de forudindstillede stemmer, der er tilgængelige i tekst-til-tale-API'en(åbner i et nyt vindue) samt ChatGPT stemme og Læs højt. Samtidig tager vi en forsigtig og velinformeret tilgang til en bredere udrulning på grund af potentialet for misbrug af syntetiske stemmer. Vi håber at indlede en dialog om ansvarlig implementering af syntetiske stemmer, og hvordan samfundet kan tilpasse sig disse nye muligheder. Baseret på disse samtaler og resultaterne af disse forsøg i lille skala vil vi træffe en mere velinformeret beslutning om, hvorvidt og hvordan vi skal implementere denne teknologi i stor skala.
For bedre at forstå de potentielle anvendelser af denne teknologi begyndte vi sidst på året at teste den privat med en lille gruppe af betroede partnere. Vi er imponerede over de applikationer, denne gruppe har udviklet. Disse implementeringer i lille skala hjælper med at informere vores tilgang, sikkerhedsforanstaltninger og overvejelser om, hvordan Voice Engine kan bruges til gavn på tværs af forskellige brancher. Et par tidlige eksempler omfatter:
- At give læsehjælp til ikke-læsere og børn gennem naturligt lydende, følelsesladede stemmer, der repræsenterer et bredere udvalg af talere, end hvad der er muligt med forudindstillede stemmer. Age of Learning(åbner i et nyt vindue), som er en uddannelsesteknologivirksomhed, der er dedikeret til børns faglige udvikling, har brugt dette til at generere forudskrevet voice-over-indhold. De bruger også Voice Engine og GPT‑4 til at skabe personlige svar i realtid for at interagere med elever. Med denne teknologi har Age of Learning været i stand til at skabe mere indhold til en bredere målgruppe.
- Oversættelse af indhold, som f.eks. videoer og podcasts, så skabere og virksomheder kan nå ud til flere mennesker verden over, flydende og i deres egne stemmer. En af de tidlige frontløbere er HeyGen(åbner i et nyt vindue), som er en AI-platform til visuel historiefortælling, der samarbejder med deres virksomhedskunder om at skabe tilpassede, menneskelignende avatarer til en række forskellige typer indhold, fra produktmarkedsføring til salgsdemoer. De bruger Voice Engine til videooversættelse, så de kan oversætte en talers stemme til flere sprog og nå et globalt publikum. Når Voice Engine bruges til oversættelse, bevarer den den oprindelige talers naturlige accent: Hvis man f.eks. genererer engelsk med en lydprøve fra en fransk taler, vil det producere tale med en fransk accent.
- Nå ud til globale samfund ved at forbedre levering af essentielle tjenester i fjerntliggende miljøer. Dimagi(åbner i et nyt vindue) bygger værktøjer til sundhedsarbejdere i lokalsamfundet, så de kan levere en række essentielle tjenester, såsom rådgivning til ammende mødre. For at hjælpe disse medarbejdere med at udvikle deres færdigheder bruger Dimagi Voice Engine og GPT‑4 til at give interaktiv feedback på hver medarbejders primære sprog, herunder swahili eller mere uformelle sprog som Sheng, et kodeblandet sprog, der er populært i Kenya.
- Støtter personer, der ikke er verbale, såsom terapeutiske applikationer til personer med tilstande, der påvirker tale, og uddannelsesmæssige forbedringer for dem med indlæringsbehov. Livox(åbner i et nyt vindue), en AI-baseret app til alternativ kommunikation, driver Augmentative & Alternative Communication (AAC)-enheder, der gør det muligt for mennesker med handicap at kommunikere. Ved hjælp af Voice Engine kan de tilbyde ikke-verbale personer unikke og ikke-robotagtige stemmer på tværs af mange sprog. Deres brugere kan vælge den stemme, der bedst repræsenterer dem, og for flersprogede brugere opretholde en konsistent stemme på tværs af hvert talt sprog.
- Hjælper patienter med at genvinde deres stemme, hvis de lider af pludselige eller degenerative taleforstyrrelser. Norman Prince Neurosciences Institute ved Lifespan(åbner i et nyt vindue), et non-profit-sundhedssystem, der fungerer som den primære undervisningstilknyttede partner for Brown Universitys lægeskole, undersøger anvendelser af AI i kliniske sammenhænge. De har afprøvet et program, der tilbyder Voice Engine til personer med onkologiske eller neurologiske årsager til talevanskeligheder. Da Voice Engine kræver en så kort lydprøve, var lægerne Fatima Mirza, Rohaid Ali og Konstantina Svokos i stand til at genskabe stemmen hos en ung patient, der mistede sin flydende tale på grund af en vaskulær hjernetumor, ved at bruge lyd fra en video optaget til et skoleprojekt.
Vi anerkender, at generering af tale, der ligner menneskers stemmer, indebærer alvorlige risici, som især er i fokus i et valgår. Vi er i dialog med amerikanske og internationale partnere på tværs af regering, medier, underholdning, uddannelse, offentlige sektorer og andre områder for at sikre, at vi inddrager deres feedback, mens vi bygger. Partnerne, der tester Voice Engine i dag, har accepteret vores brugspolitikker, som forbyder at udgive sig for at være en anden person eller organisation uden samtykke eller juridisk ret. Derudover kræver vores vilkår med disse partnere udtrykkeligt og informeret samtykke fra den oprindelige taler, og vi tillader ikke, at udviklere bygger måder, hvorpå individuelle brugere kan skabe deres egne stemmer. Partnere skal også tydeligt oplyse deres brugere om, at de stemmer, de hører, er AI-genererede. Endelig har vi implementeret en række sikkerhedsforanstaltninger, herunder vandmærkning for at spore oprindelsen af al lyd, der genereres af Voice Engine, samt proaktiv monitorering af, hvordan den bliver brugt. Vi mener, at enhver bred implementering af syntetisk stemmeteknologi bør ledsages af stemmegodkendelsesoplevelser, der verificerer, at den oprindelige taler bevidst tilføjer sin stemme til tjenesten, og en ikke godkendt stemmeliste, der registrerer og forhindrer oprettelsen af stemmer, der ligner prominente personers for meget.
Voice Engine er en fortsættelse af vores bestræbelse på at forstå den banebrydende tekniske front og åbent dele, hvad der bliver muligt med AI. På linje med vores tilgang til AI-sikkerhed og vores frivillige forpligtelser vælger vi på nuværende tidspunkt at forhåndsvise, men ikke at udbrede denne teknologi bredt. Vi håber, at denne forhåndsvisning af Voice Engine både understreger dens potentiale og samtidig motiverer behovet for at styrke samfundets modstandsdygtighed over for de udfordringer, som stadig mere overbevisende generative modeller medfører. Vi opfordrer specifikt til trin som:
- Udfasning af stemmebaseret godkendelse som en sikkerhedsforanstaltning til adgang til bankkonti og andre følsomme oplysninger
- Undersøgelse af politikker til beskyttelse af brugen af enkeltpersoners stemmer i AI
- Uddannelse af offentligheden i forståelse af mulighederne og begrænsningerne ved AI-teknologier, herunder muligheden for vildledende AI-indhold
- Fremskyndelse af udviklingen og anvendelsen af teknikker til at spore oprindelsen af audiovisuelt indhold, så det altid er tydeligt, om du interagerer med en rigtig person eller med en AI
Det er vigtigt, at folk verden over forstår, hvor denne teknologi er på vej hen, uanset om vi i sidste ende selv implementerer den bredt eller ej. Vi ser frem til at fortsætte samtalerne om udfordringerne og mulighederne ved syntetiske stemmer med beslutningstagere, forskere, udviklere og kreative.


