29. maaliskuuta 2024

Synteettisten äänien haasteiden ja mahdollisuuksien käsittely

Jaamme oppeja Voice Enginen pienimuotoisesta esikatselusta. Voice Engine on malli mukautettujen äänien luomiseen.

Ladataan...

OpenAI on sitoutunut kehittämään turvallista ja laajasti hyödyllistä tekoälyä⁠. Tänään jaamme alustavia havaintoja ja tuloksia pienimuotoisesta esikatselusta mallista nimeltä Voice Engine. Se käyttää tekstisyöttöä ja yhtä 15 sekunnin ääninäytettä luonnolliselta kuulostavan puheen luomiseen, joka muistuttaa läheisesti alkuperäistä puhujaa. On huomionarvoista, että pieni malli voi luoda tunteikkaita ja todentuntuisia ääniä yhdellä 15 sekunnin näytteellä.

Kehitimme Voice Enginen alun perin loppuvuodesta 2022, ja olemme käyttäneet sitä esiasetettujen äänien tuottamiseen, jotka ovat saatavilla tekstistä puheeksi -API:ssa⁠(avautuu uudessa ikkunassa) sekä ChatGPT Voice- ja Read Aloud -toiminnoissa⁠. Samalla suhtaudumme varovaisesti ja harkitusti laajempaan julkaisuun synteettisten äänien mahdollisen väärinkäytön vuoksi. Toivomme voivamme käynnistää keskustelun synteettisten äänien vastuullisesta käyttöönotosta ja siitä, miten yhteiskunta voi sopeutua näihin uusiin ominaisuuksiin. Näiden keskustelujen ja näiden pienimuotoisten testien tulosten perusteella teemme tietoisemman päätöksen siitä, otammeko tämän teknologian käyttöön laajamittaisesti ja jos otamme, miten.

Voice Enginen varhaiset sovellukset

Jotta ymmärtäisimme paremmin tämän teknologian mahdollisia käyttötapoja, aloitimme viime vuoden loppupuolella sen yksityisen testaamisen pienen luotettavien kumppaneiden ryhmän kanssa. Tämän ryhmän kehittämät sovellukset ovat tehneet meihin vaikutuksen. Nämä pienimuotoiset käyttöönotot auttavat meitä ohjaamaan lähestymistapaamme, suojatoimiamme ja ajatteluamme siitä, miten Voice Engineä voitaisiin käyttää hyödyksi eri toimialoilla. Muutamia varhaisia esimerkkejä ovat:

Lukuavun tarjoaminen lukutaidottomille ja lapsille luonnolliselta kuulostavien, tunteikkaiden äänien avulla, jotka edustavat laajempaa puhujajoukkoa kuin esiasetetuilla äänillä on mahdollista. Age of Learning⁠(avautuu uudessa ikkunassa), lasten akateemiseen menestykseen omistautunut koulutusteknologiayritys, on käyttänyt tätä ennalta käsikirjoitetun taustakerrontasisällön tuottamiseen. Se käyttää myös Voice Engineä ja GPT‑4:ää reaaliaikaisten, personoitujen vastaustenluomiseen ollakseen vuorovaikutuksessa oppilaiden kanssa. Tämän teknologian avulla Age of Learning on pystynyt luomaan enemmän sisältöä laajemmalle yleisölle.

Sisällön, kuten videoiden ja podcastien kääntäminen, jotta sisällöntuottajat ja yritykset voivat tavoittaa enemmän ihmisiä ympäri maailmaa sujuvasti ja omalla äänellään. Yksi tämän varhaisista käyttöönottajista on HeyGen⁠(avautuu uudessa ikkunassa), tekoälypohjainen visuaalisen tarinankerronnan alusta, joka tekee yhteistyötä yritysasiakkaidensa kanssa luodakseen mukautettuja, ihmismäisiä avatareja monenlaiseen sisältöön, tuotemarkkinoinnista myyntidemoihin. Se käyttää Voice Engineä videokäännöksiin, jotta se voi kääntää puhujan äänen useille kielille ja tavoittaa maailmanlaajuisen yleisön. Kun Voice Engineä käytetään kääntämiseen, se säilyttää alkuperäisen puhujan äidinkielisen aksentin: esimerkiksi englannin tuottaminen ranskankielisen puhujan ääninäytteestä tuottaa puhetta ranskalaisella aksentilla.

Ladataan...

Globaalien yhteisöjen tavoittaminen parantamalla olennaisten palvelujen toimittamista syrjäisissä ympäristöissä. Dimagi⁠(avautuu uudessa ikkunassa) rakentaa työkaluja yhteisön terveydenhuollon työntekijöille, jotta he voivat tarjota erilaisia välttämättömiä palveluja, kuten neuvontaa imettäville äideille. Auttaakseen näitä työntekijöitä kehittämään taitojaan Dimagi käyttää Voice Engineä ja GPT‑4:ää antaakseen vuorovaikutteista palautetta kunkin työntekijän ensisijaisella kielellä, mukaan lukien swahili tai epäviralliset kielet, kuten Sheng, Keniassa suosittu koodisekoitteinen kieli.

Ladataan...

Nonverbaalisten ihmisten tukeminen, kuten terapeuttiset sovellukset puheeseen vaikuttavista sairauksista kärsiville henkilöille ja koulutuksen parantaminen erityistarpeita oppimiseen omaaville. Livox⁠(avautuu uudessa ikkunassa), tekoälypohjainen vaihtoehtoisen viestinnän sovellus, toimii Augmentative & Alternative Communication (AAC) -laitteiden taustalla ja mahdollistaa vammaisten henkilöiden viestinnän. Voice Engineä käyttämällä ne voivat tarjota nonverbaaleille ihmisille ainutlaatuisia ja ei-robottimaisia ääniä monilla kielillä. Käyttäjät voivat valita puheen, joka edustaa heitä parhaiten, ja monikieliset käyttäjät voivat säilyttää johdonmukaisen äänen kussakin puhutussa kielessä.

Ladataan...

Autamme potilaita palauttamaan äänensä. Niille, jotka kärsivät äkillisistä tai rappeuttavista puhehäiriöistä. Lifespanin⁠(avautuu uudessa ikkunassa) Norman Prince Neurosciences Institute, voittoa tavoittelematon terveydenhuoltojärjestelmä, joka toimii Brownin yliopiston lääketieteellisen tiedekunnan ensisijaisena opetuskumppanina, tutkii tekoälyn käyttötapoja kliinisissä yhteyksissä. Tutkijat ovat pilotoineet ohjelmaa, jossa Voice Enginea tarjotaan henkilöille, joilla on onkologisista tai neurologisista syistä johtuva puhehäiriö. Koska Voice Engine vaatii niin lyhyen ääninäytteen, lääkärit Fatima Mirza, Rohaid Ali ja Konstantina Svokos pystyivät palauttamaan äänen nuorelle potilaalle, joka oli menettänyt sujuvan puheensa verisuoniperäisen aivokasvaimen vuoksi. He käyttivät ääntä kouluprojektia varten tallennetusta videosta.

Ladataan...

Voice Enginen turvallinen rakentaminen

Ymmärrämme, että ihmisten ääniä muistuttavan puheen tuottamiseen liittyy vakavia riskejä, jotka korostuvat erityisesti vaalivuonna. Teemme yhteistyötä yhdysvaltalaisten ja kansainvälisten kumppaneiden kanssa hallinnon, median, viihteen, koulutuksen, kansalaisyhteiskunnan ja muilta aloilta, ja varmistamme, että otamme heidän palautteensa huomioon kehitystyössämme. Voice Engineä tänään testaavat kumppanit ovat hyväksyneet käyttöä koskevat käytäntömme⁠, jotka kieltävät toisen henkilön tai organisaation jäljittelyn ilman suostumusta tai laillista oikeutta. Lisäksi ehtomme näiden kumppaneiden kanssa edellyttävät alkuperäisen puhujan nimenomaista ja tietoon perustuvaa suostumusta. Emme myöskään salli kehittäjien luoda tapoja, joilla yksittäiset käyttäjät voivat luoda omia ääniään. Kumppaneiden on myös kerrottava yleisölleen selvästi, että heidän kuulemansa äänet ovat tekoälyn luomia. Lopuksi olemme ottaneet käyttöön joukon turvatoimia, kuten vesileimauksen, jolla voidaan jäljittää Voice Enginen tuottaman äänen alkuperä, sekä ennakoivan seurannan sen käytöstä. Uskomme, että synteettisen ääniteknologian laajamittaisen käyttöönoton tulisi sisältää äänen todennuskokemuksia, jotka varmistavat, että alkuperäinen puhuja lisää äänensä palveluun tietoisesti, sekä kiellettyjen äänten luettelon, joka havaitsee ja estää liian läheisesti tunnettujen henkilöiden ääniä muistuttavien äänien luomisen.

Katse tulevaisuuteen

Voice Engine on jatkoa sitoumuksellemme ymmärtää teknistä edistystä ja jakaa avoimesti sitä, mikä tekoälyn avulla on tulossa mahdolliseksi. Tekoälyn turvallisuuteen liittyvän lähestymistapamme⁠ ja vapaaehtoisten sitoumustemme⁠ mukaisesti päätämme esikatsella tätä teknologiaa, mutta emme tässä vaiheessa julkaista sitä laajasti. Toivomme, että tämä Voice Enginen esikatselu korostaa sen potentiaalia ja motivoi tarvetta vahvistaa yhteiskunnan resilienssiä yhä vakuuttavampien generatiivisten mallien tuomia haasteita vastaan. Kannustamme erityisesti toimenpiteisiin, kuten:

Äänipohjaisen tunnistautumisen käytöstä poistaminen turvatoimenpiteenä pankkitilien ja muiden arkaluonteisten tietojen käyttämiseen
Tutustua yksilöiden äänten käyttöä tekoälyssä suojaaviin käytäntöihin
Yleisön kouluttaminen ymmärtämään tekoälyteknologioiden kyvykkyyksiä ja rajoituksia, mukaan lukien harhaanjohtavaan tekoälysisällön mahdollisuus
Audiovisuaalisen sisällön alkuperän seurantatekniikoiden kehittäminen ja käyttöönoton nopeuttaminen, jotta on aina selvää, oletko tekemisissä oikean ihmisen vai tekoälyn kanssa

On tärkeää, että ihmiset eri puolilla maailmaa ymmärtävät, mihin suuntaan tämä teknologia on menossa, riippumatta siitä, otammeko sen lopulta itse laajasti käyttöön vai emme. Odotamme innolla, että voimme jatkaa keskusteluja synteettisten äänien haasteista ja mahdollisuuksista poliittisten päättäjien, tutkijoiden, kehittäjien ja luovien ammattilaisten kanssa.

Aiheeseen liittyvät artikkelit

Näytä kaikki

Video generation models as world simulators

Julkaisu15.2.2024

Building an early warning system for LLM-aided biological threat creation

Julkaisu31.1.2024

Weak-to-strong generalization

Turvallisuus14.12.2023