29 mars 2024

Navigering av utmaningarna och möjligheterna med syntetiska röster

Vi delar med oss av lärdomar från en förhandsvisning i liten skala av Voice Engine, en modell för att skapa anpassade röster.

Laddar …

OpenAI har åtagit sig att utveckla säker och gynnsam AI som gynnar alla⁠. I dag delar vi preliminära insikter och resultat från en småskalig förhandsvisning av modellen Voice Engine som använder inmatad text och ett ljudprov på 15 sekunder för att generera naturligt låtande tal som är mycket lik originaltalaren. Det är anmärkningsvärt att en liten modell med ett ljudprov på endast 15 sekunder kan skapa känslosamma och realistiska röster.

Vi utvecklade Voice Engine i slutet av 2022 och har använt det för att driva de förinställda rösterna som är tillgängliga i text-till-tal-API:en⁠(öppnas i ett nytt fönster) samt ChatGPT Voice och Read Aloud⁠. Vi tillämpar samtidigt en försiktig och välgrundad strategi för en bredare lansering på grund av risken för missbruk av syntetiska röster. Vi hoppas kunna inleda en dialog om ansvarsfull implementering av syntetiska röster och hur samhället kan anpassa sig till dessa nya förmågor. Baserat på dessa samtal och resultaten av dessa småskaliga tester kommer vi att ta ett mer välgrundat beslut om huruvida och hur vi ska implementera den här tekniken i stor skala.

Tidiga tillämpningar av Voice Engine

För att öka vår förståelse av de potentiella användningsområdena för den här tekniken började vi i slutet av förra året testa den privat med en liten grupp betrodda partners. Vi är imponerade av de applikationer som gruppen utvecklat. Dessa småskaliga implementeringar hjälper till att informera vår strategi, våra skyddsmekanismer och vårt tänkande kring hur Voice Engine kan användas för gott inom olika branscher. Några tidiga exempel inkluderar:

Tillhandahålla läshjälp till personer som inte kan läsa och barn genom naturligt klingande, känslomässiga röster som representerar ett större spektrum av talare än vad som är möjligt med förinställda röster. Age of Learning⁠(öppnas i ett nytt fönster), ett företag inom utbildningsteknik som arbetar för barns akademiska framgång har använt detta för att generera förskrivet berättarröster till innehåll. De använder även Voice Engine och GPT‑4 för att skapa personliga svar i realtid för interaktion med elever. Med denna teknik har Age of Learning kunnat skapa mer innehåll för en större publik.

Översättning av innehåll såsom videor och poddar så att kreatörer och företag kan nå ut till fler människor runt om i världen med sina egna röster. En tidig användare av detta är HeyGen⁠(öppnas i ett nytt fönster), en AI-plattform för visuellt berättande som arbetar med sina företagskunder för att skapa anpassade, människoliknande avatarer för en mängd olika typer av innehåll, alltifrån produktmarknadsföring till säljdemos. De använder Voice Engine för översättning av talares röster i videor så att de kan nå ut till en global publik. När Voice Engine används för översättning bevarar den originaltalarens ursprungliga accent: generering av engelska med ett röstprov från en fransk talare skulle till exempel producera tal med en fransk accent.

Laddar …

Nå ut till globala samhällen genom att förbättra leveransen av viktiga tjänster i avlägsna områden. Dimagi⁠(öppnas i ett nytt fönster) utvecklar verktyg för hälso- och sjukvårdspersonal i samhället för att tillhandahålla en mängd olika viktiga tjänster såsom rådgivning för ammande mödrar. För att hjälpa dessa arbetare att utveckla sina färdigheter används Dimagi Voice Engine och GPT‑4 för att ge interaktiv feedback på varje arbetares huvudspråk, inklusive swahili eller informella språk såsom sheng, ett kodblandat språk som är populärt i Kenya.

Laddar …

Stödja personer som är icke-verbala, såsom terapeutiska tillämpningar för individer med problem som påverkar talet och utbildningsförbättringar för dem med inlärningsbehov. Livox⁠(öppnas i ett nytt fönster) (AI-baserad alternativ kommunikationsapp) driver enheter för alternativ och kompletterande kommunikation (AAC) som gör det möjligt för personer med funktionsnedsättningar att kommunicera. Genom att använda Voice Engine kan de erbjuda personer som inte kan tala unika och icke-robotiska röster på många språk. Deras användare kan välja det tal som bäst representerar dem och bibehålla en enhetlig röst i flera språk för flerspråkiga användare.

Laddar …

Hjälper patienter att återfå sin röst, för dem som lider av plötsliga eller degenerativa talproblem. Norman Prince Neurosciences Institute vid Lifespan⁠(öppnas i ett nytt fönster), ett ideellt hälsosystem som fungerar som den primära undervisningsorganisationen för det medicinska fakultetet på Brown University, utforskar användningen av AI i kliniska sammanhang. De har genomfört ett pilotprogram som erbjuder Voice Engine till personer talnedsättningar på grund av onkologiska eller neurologiska orsaker. Tack vare att Voice Engine endast behöver ett kort ljudprov kunde läkarna Fatima Mirza, Rohaid Ali och Konstantina Svokos återställa rösten hos en ung patient som förlorade sitt flytande tal på grund av en vaskulär hjärntumör med hjälp av ljud från en video som spelats in för ett skolprojekt.

Laddar …

Bygga Voice Engine på ett säkert sätt

Vi inser att generera tal som liknar människors röster medför allvarliga risker vilket är särskilt aktuellt under valår. Vi samarbetar med amerikanska och internationella partner från myndigheter, media, underhållning, utbildning, civilsamhället med mer för att säkerställa att vi tar del av deras feedback i skapandet. Partnerna som testar Voice Engine i dag har godkänt våra användarvillkor⁠ som förbjuder att utge sig för att vara en annan individ eller organisation utan samtycke eller laglig rätt. Dessutom kräver våra villkor med dessa partners uttryckligt och informerat samtycke från originaltalaren och vi tillåter inte att utvecklare skapar sätt för enskilda användare att skapa sina egna röster. Partner måste även tydligt informera sin publik om att rösterna de hör är AI-genererade. Slutligen har vi implementerat en uppsättning säkerhetsåtgärder (inklusive vattenmärkning) för att spåra ursprunget hos ljud som genereras av Voice Engine, samt proaktiv övervakning av hur det används. Vi anser att all större implementering av syntetisk röstteknik bör åtföljas av röstautentisering som verifierar att originaltalaren medvetet lägger till sin röst i tjänsten och en röstlista som upptäcker och förhindrar skapandet av röster som är alltför lika framstående personer.

En blick in i framtiden

Voice Engine är en fortsättning på vårt engagemang i att förstå banbrytande teknik och öppet dela med oss av vad som blir möjligt med AI. I linje med vår strategi för AI-säkerhet⁠ och våra frivilliga åtaganden⁠ väljer vi att förhandsvisa men inte släppa denna teknik i stor skala. Vi hoppas att denna förhandsvisning av Voice Engine både understryker dess potential och motiverar behovet av att stärka samhällets motståndskraft mot de utmaningar som alltmer övertygande generativa modeller medför. Vi uppmuntrar mer specifikt till följande åtgärder:

Fasa ut röstbaserad autentisering som en säkerhetsåtgärd för åtkomst till bankkonton och annan känslig information
Utforska riktlinjer för att skydda användningen av individers röster i AI
Utbilda allmänheten i att förstå AI-teknikers möjligheter och begränsningar, inklusive risken för vilseledande AI-innehåll
Påskynda utvecklingen och införandet av tekniker för att spåra ursprunget till audiovisuellt innehåll så att det alltid är tydligt när man interagerar med en verklig person eller AI

Det är viktigt att människor över hela världen förstår vart tekniken är på väg oavsett om vi väljer att implementera den i stor skala eller inte. Vi ser fram emot att fortsätta delta i diskussioner om de utmaningar och möjligheter som syntetiska röster medför tillsammans med beslutsfattare, forskare, utvecklare och kreatörer.

Relaterade artiklar

Visa alla

Video generation models as world simulators

Publikation15 feb. 2024

Building an early warning system for LLM-aided biological threat creation

Publikation31 jan. 2024

Weak-to-strong generalization

Säkerhet14 dec. 2023