29 maart 2024

De uitdagingen en kansen van synthetische stemmen

We delen hierbij de inzichten die we hebben opgedaan tijdens een kleinschalige preview van Voice Engine, een model voor het creëren van stemmen op maat.

Bezig met laden...

OpenAI zet zich in voor de ontwikkeling van veilige en breed inzetbare AI⁠. Vandaag delen we voorlopige inzichten en resultaten uit een kleinschalige preview van Voice Engine. Dit model werkt op basis van tekstinvoer en een enkel audiofragment van 15 seconden om natuurlijk klinkende spraak te genereren die sterk lijkt op de originele spreker. Het is opmerkelijk dat een klein model met slechts 15 seconden aan audiomateriaal zulke expressieve en realistische stemmen kan creëren.

We ontwikkelden Voice Engine oorspronkelijk eind 2022. De technologie wordt al gebruikt voor de standaardstemmen in onze tekst-naar-spraak-API⁠(opent in een nieuw venster), ChatGPT Voice en Read Aloud⁠. Tegelijkertijd benaderen we een bredere uitrol voorzichtig en weloverwogen, vanwege het risico op misbruik van synthetische stemmen. We hopen een dialoog te starten over de verantwoorde inzet van synthetische stemmen en hoe de samenleving zich kan aanpassen aan deze nieuwe mogelijkheden. Op basis van deze gesprekken en de resultaten van de kleinschalige tests zullen we een gefundeerde beslissing nemen over of en hoe we deze technologie op grote schaal beschikbaar maken.

Vroege toepassingen van Voice Engine

Om beter inzicht te krijgen in de mogelijkheden van deze technologie, zijn we eind vorig jaar begonnen met testen in besloten kring met een kleine groep vertrouwde partners. We zijn onder de indruk van de toepassingen die deze groep heeft ontwikkeld. Deze kleinschalige pilots helpen ons bij het vormgeven van onze aanpak, de veiligheidsmaatregelen en onze visie op hoe Voice Engine in verschillende sectoren voor goede doeleinden kan worden ingezet. Hieronder volgen enkele vroege voorbeelden:

Leesondersteuning bieden voor kinderen en mensen die (nog) niet kunnen lezen met natuurlijk klinkende, expressieve stemmen die een breder scala aan sprekers vertegenwoordigen dan mogelijk is met standaardstemmen. Age of Learning⁠(opent in een nieuw venster), een onderwijstechnologiebedrijf gericht op het academisch succes van kinderen, gebruikt de technologie om gescripte voice-over-content te genereren. Ze gebruiken Voice Engine en GPT‑4 ook om real-time, gepersonaliseerde reacties te geven in interacties met studenten. Dankzij deze technologie kan Age of Learning meer content creëren voor een groter publiek.

Content vertalen, zoals video's en podcasts, zodat makers en bedrijven wereldwijd mensen kunnen bereiken in hun eigen stem. Een vroege gebruiker hiervan is HeyGen⁠(opent in een nieuw venster), een AI-platform voor visuele storytelling. Zij helpen zakelijke klanten bij het maken van levensechte avatars voor uiteenlopende doelen, van marketing tot salesdemo's. HeyGen gebruikt Voice Engine voor videovertaling, waarbij de stem van een spreker wordt omgezet naar meerdere talen. Uniek hierbij is dat het oorspronkelijke accent behouden blijft: als je bijvoorbeeld een Engels fragment genereert op basis van een Franse spreker, zal de Engelse spraak een Frans accent hebben.

Bezig met laden...

Wereldwijde gemeenschappen bereiken om essentiële dienstverlening in afgelegen gebieden te verbeteren. Dimagi⁠(opent in een nieuw venster) ontwikkelt tools voor lokale gezondheidswerkers, bijvoorbeeld voor de begeleiding van moeders die borstvoeding geven. Om deze werkers te helpen hun vaardigheden te ontwikkelen, gebruikt Dimagi Voice Engine en GPT‑4 voor interactieve feedback. Dit gebeurt in de primaire taal van de werker, waaronder Swahili of meer informele mengtalen zoals Sheng (populair in Kenia).

Bezig met laden...

We ondersteunen mensen die niet kunnen spreken, bijvoorbeeld via therapeutische toepassingen voor mensen met spraakstoornissen en educatieve hulpmiddelen. Livox⁠(opent in een nieuw venster), een AI-app voor alternatieve communicatie, stuurt AAC-apparaten (Augmentative & Alternative Communication) aan die mensen met een beperking in staat stellen te communiceren. Door gebruik te maken van Voice Engine kunnen zij mensen met een spraakbeperking unieke, natuurlijk klinkende stemmen bieden in vele talen. Gebruikers kunnen een stem kiezen die hen het beste vertegenwoordigt. Meertalige gebruikers behouden bovendien een consistente stem in elke taal die ze spreken.

Bezig met laden...

Patiënten hun stem teruggeven voor mensen die lijden aan plotselinge of degeneratieve spraakaandoeningen. Het Norman Prince Neurosciences Institute van Lifespan⁠(opent in een nieuw venster) (een non-profit zorgnetwerk en de belangrijkste onderwijspartner van Brown University) onderzoekt het gebruik van AI in klinische omgevingen. Ze hebben een pilotprogramma uitgevoerd waarbij Voice Engine wordt aangeboden aan patiënten die door oncologische of neurologische oorzaken spraakproblemen hebben. Omdat Voice Engine slechts een zeer kort audiofragment nodig heeft, wisten artsen Fatima Mirza, Rohaid Ali en Konstantina Svokos de stem te herstellen van een jonge patiënte. Zij had haar spraakvermogen verloren door een vasculaire hersentumor. Met behulp van audio uit een video die ze ooit voor een schoolproject had opgenomen, kon haar stem worden gereconstrueerd.

Bezig met laden...

Veilige ontwikkeling van Voice Engine

We erkennen dat het genereren van spraak die op echte stemmen lijkt ernstige risico's met zich meebrengt: iets waar we, zeker in een verkiezingsjaar, extra alert op zijn. We werken samen met Amerikaanse en internationale partners uit de overheid, media, entertainment, onderwijs en het maatschappelijk middenveld om hun feedback mee te nemen in onze ontwikkeling. De partners die Voice Engine momenteel testen, hebben ingestemd met ons gebruiksbeleid⁠. Dit verbiedt het imiteren van personen of organisaties zonder toestemming of wettelijk recht. Daarnaast vereisen onze voorwaarden expliciete en geïnformeerde toestemming van de originele spreker. Ook staan we ontwikkelaars niet toe functies te bouwen waarmee individuele gebruikers hun eigen stemmen kunnen klonen. Partners moeten bovendien duidelijk aan hun publiek kenbaar maken dat de stemmen die zij horen, door AI zijn gegenereerd. Tot slot hebben we een reeks veiligheidsmaatregelen geïmplementeerd. Dit omvat onder andere 'watermerken' om de herkomst van elk door Voice Engine gegenereerd audiofragment te kunnen traceren, evenals proactief toezicht op het gebruik van de tool. Wij zijn van mening dat elke brede uitrol van synthetische stemtechnologie gepaard moet gaan met strikte verificatie. Denk hierbij aan stemauthenticatie om te bevestigen dat de originele spreker bewust toestemming geeft voor het gebruik van zijn of haar stem. Daarnaast pleiten we voor een blokkeerlijst die voorkomt dat er stemmen worden aangemaakt die te veel lijken op die van bekende figuren.

Vooruitzicht

Voice Engine bouwt voort op ons streven om de grenzen van technologie te verkennen en openlijk te delen wat er mogelijk wordt met AI. In overeenstemming met onze benadering van AI-veiligheid⁠ en onze vrijwillige toezeggingen⁠, kiezen we ervoor om deze technologie voorlopig alleen als preview beschikbaar te stellen en nog niet breed uit te rollen. We hopen dat deze preview van Voice Engine niet alleen de potentie ervan laat zien, maar ook onderstreept hoe noodzakelijk het is om onze maatschappelijke weerbaarheid te vergroten tegen de uitdagingen van steeds overtuigender wordende generatieve modellen. Concreet moedigen we de volgende stappen aan:

Het uitfaseren van stemauthenticatie als beveiligingsmaatregel voor toegang tot bankrekeningen en andere gevoelige informatie
Het verkennen van beleid om het gebruik van iemands stem in AI te beschermen
Het voorlichten van het publiek over de mogelijkheden en beperkingen van AI-technologieën, inclusief de risico’s van misleidende AI-content
Het versnellen van de ontwikkeling en adoptie van technieken om de herkomst van audiovisuele content te traceren, zodat altijd duidelijk is of je met een echt mens of met AI communiceert

Het is belangrijk dat mensen wereldwijd begrijpen waar deze technologie naartoe gaat, ongeacht of wij deze uiteindelijk zelf breed uitrollen of niet. We kijken ernaar uit om het gesprek over de uitdagingen en kansen van synthetische stemmen voort te zetten met beleidsmakers, onderzoekers, ontwikkelaars en creatieve professionals.

Gerelateerde artikelen

Alles weergeven

Video generation models as world simulators

Publicatie15 feb 2024

Building an early warning system for LLM-aided biological threat creation

Publicatie31 jan 2024

Weak-to-strong generalization

Veiligheid14 dec 2023