29. mars 2024

Að takast á við áskoranir og tækifæri gerviradda

Við erum að deila lærdómi okkar með smá forsmekk af Voice Engine, líkani til að búa til sérsniðnar raddir.

Hleður inn...

OpenAI leggur sig fram um að þróa örugga og víðtækt gagnlega gervigreind⁠. Í dag deilum við bráðabirgðaniðurstöðum og innsýn úr smáum forsmekk af líkani sem kallast Voice Engine, sem notar textainntak og eitt 15 sekúndna hljóðsýni til að búa til náttúrulega hljómandi tal sem líkist upprunalega ræðumanni mjög náið. Það er athyglisvert að lítið líkan með einu 15 sekúndna sýnishorni getur búið til tilfinningaríkar og raunhæfar raddir.

Við þróuðum Voice Engine fyrst seint á árinu 2022 og höfum notað það til að knýja forstilltu raddirnar sem eru í boði í texta-í-tal API⁠(opnast í nýjum glugga) sem og ChatGPT Voice og Read Aloud⁠. Á sama tíma erum við að fara varlega og byggja á upplýstri nálgun við víðtækari útgáfu vegna mögulegrar misnotkunar á tilbúinni rödd. Við vonumst til að hefja samræður um ábyrga innleiðingu tilbúinna radda og hvernig samfélagið getur aðlagast þessum nýju möguleikum. Byggt á þessum samtölum og niðurstöðum þessara smærri prófana munum við taka upplýstari ákvörðun um hvort og hvernig eigi að innleiða þessa tækni í stórum stíl.

Fyrstu notkunartilvik Voice Engine

Til að skilja betur mögulega notkun þessarar tækni hófum við seint á síðasta ári að prófa hana sérstaklega með litlum hópi traustra samstarfsaðila. Við höfum verið hrifin af þeim notkunartilvikum sem þessi hópur hefur þróað. Þessar smærri innleiðingar hjálpa til við að móta nálgun okkar, öryggisráðstafanir og hugsun um hvernig Voice Engine gæti verið notað til góðra verka í ýmsum atvinnugreinum. Nokkur fyrstu dæmi eru meðal annars:

Að veita lestraraðstoð fyrir þá sem ekki kunna að lesa og börn með náttúrulega hljómandi, tilfinningaríkum röddum sem endurspegla fjölbreyttari hóp ræðumanna en mögulegt er með forstilltum röddum. Age of Learning⁠(opnast í nýjum glugga), fræðslutæknifyrirtæki sem helgar sig námsárangri barna, hefur notað þetta til að búa til fyrirfram skrifað talsetningarefni. Þau nota einnig Voice Engine og GPT‑4 til að búa til persónusniðin svör í rauntíma til að eiga samskipti við nemendur. Með þessari tækni hefur Age of Learning getað búið til meira efni fyrir breiðari markhóp.

Að þýða efni, eins og myndbönd og hlaðvörp, svo efnishöfundar og fyrirtæki geti náð til fleiri fólks um allan heim, reiprennandi og með eigin röddum. Einn frumkvöðull í þessu er HeyGen⁠(opnast í nýjum glugga), gervigreindarverkvangur fyrir sjónræna frásögn sem vinnur með fyrirtækjaviðskiptavinum sínum að því að búa til sérsniðna, mannlega avatar fyrir fjölbreytt efni, allt frá vörumarkaðssetningu til sölukynninga. Þau nota Voice Engine fyrir myndbandsþýðingu, svo þau geta þýtt rödd ræðumanns yfir á mörg tungumál og náð til alþjóðlegs áhorfendahóps. Þegar Voice Engine er notað til þýðinga varðveitir það upprunalegan hreim þess sem talar: til dæmis myndi það að búa til ensku með raddsýni frá frönskum ræðumanni framleiða tal með frönskum hreim.

Hleður inn...

Að ná til samfélaga um allan heim, með því að bæta afhendingu nauðsynlegrar þjónustu á afskekktum svæðum. Dimagi⁠(opnast í nýjum glugga) er að þróa verkfæri fyrir heilbrigðisstarfsfólk í samfélaginu til að veita margvíslega nauðsynlega þjónustu, svo sem ráðgjöf fyrir mæður sem hafa barn á brjósti. Til að hjálpa þessum starfsmönnum að þróa færni sína notar Dimagi Voice Engine og GPT‑4 til að veita gagnvirka endurgjöf á aðaltungumáli hvers starfsmanns, þar á meðal svahílí eða óformlegra tungumáli eins og sheng, blandað kóðamál sem er vinsælt í Kenýa.

Hleður inn...

Að styðja fólk sem er ómálga, til dæmis með meðferðarforritum fyrir einstaklinga með ástand sem hefur áhrif á tal og endurbótum í menntun fyrir þá sem hafa námsþarfir. Livox⁠(opnast í nýjum glugga), gervigreindarvalkostur samskiptaforrits, knýr hjálpartæki fyrir aukin og valkvæð samskipti sem gera fólki með fötlun kleift að eiga samskipti. Með því að nota Voice Engine geta þau boðið fólki sem er ómálga einstakar og óvélrænar raddir á mörgum tungumálum. Notendur þeirra geta valið tal sem endurspeglar þá best og, fyrir fjöltyngda notendur, viðhaldið samræmdri rödd í hverju töluðu tungumáli.

Hleður inn...

Að hjálpa sjúklingum að endurheimta rödd sína, fyrir þá sem þjást af skyndilegum eða hrörnunartengdum talröskunum. Norman Prince Neurosciences Institute hjá Lifespan⁠(opnast í nýjum glugga), heilbrigðisþjónusta sem ekki er rekið í hagnaðarskyni og er aðal kennslutengiliður læknadeildar Brown University, er að kanna notkun gervigreindar í klínísku samhengi. Þau hafa verið að prófa tilraunaverkefni sem býður einstaklingum með krabbameins- eða taugafræðilegar orsakir talhömlunar upp á Voice Engine. Þar sem Voice Engine krefst svo stutts hljóðsýnis gátu læknarnir Fatima Mirza, Rohaid Ali og Konstantina Svokos endurheimt rödd ungrar sjúklings sem missti reiprennandi tal vegna æðatengds heilaæxlis, með því að nota hljóð úr myndbandi sem var tekið upp fyrir skólaverkefni.

Hleður inn...

Að byggja Voice Engine á öruggan hátt

Við viðurkennum að það að búa til tal sem líkist röddum fólks felur í sér alvarlega áhættu, sem er sérstaklega ofarlega í huga á kosningaári. Við erum í samstarfi við bandaríska og alþjóðlega samstarfsaðila víðs vegar úr stjórnsýslu, fjölmiðlum, afþreyingu, menntun, borgaralegu samfélagi og víðar til að tryggja að við tökum við ábendingum þeirra eftir því sem við byggjum. Samstarfsaðilarnir sem prófa Voice Engine í dag hafa samþykkt notkunarstefnur⁠ okkar, sem banna að þykjast vera annar einstaklingur eða stofnun án samþykkis eða lagalegs réttar. Að auki krefjast skilmálar okkar við þessa samstarfsaðila skýrs og upplýsts samþykkis frá upprunalega ræðumanni og við leyfum ekki forriturum að byggja leiðir fyrir einstaka notendur til að búa til sínar eigin raddir. Samstarfsaðilar verða einnig að upplýsa áhorfendur sína skýrt um að raddirnar sem þeir heyra séu búnar til með gervigreind. Að lokum höfum við innleitt ýmsar öryggisráðstafanir, þar á meðal vatnsmerkingu til að rekja uppruna hvers kyns hljóðs sem Voice Engine býr til sem og fyrirbyggjandi vöktun á því hvernig það er notað. Við teljum að allri víðtækri innleiðingu á gerviraddtækni ætti að fylgja raddauðkenningarupplifun sem sannreynir að upprunalegi ræðumaðurinn sé meðvitað að bæta rödd sinni við þjónustuna og bannlista yfir raddir sem greinir og kemur í veg fyrir að raddir sem eru of líkar áberandi einstaklingum verði búnar til.

Horft fram á veginn

Voice Engine er framhald af skuldbindingu okkar um að skilja framarlega tækniframþróun og deila opinskátt því sem er að verða mögulegt með gervigreind. Í samræmi við nálgun okkar varðandi öryggi gervigreindar⁠ og sjálfviljugar skuldbindingar okkar⁠ veljum við að sýna þessa tækni í forsýningu en gefa hana ekki út í víðtækri dreifingu að svo stöddu. Við vonum að þessi forsýning á Voice Engine undirstriki bæði möguleika þess og hvetji jafnframt til þess að efla seiglu samfélagsins gegn þeim áskorunum sem sífellt sannfærandi mynduð líkön hafa í för með sér. Nánar tiltekið hvetjum við til skrefa eins og:

Að hætta smám saman að nota raddbyggða sannvottun sem öryggisráðstöfun fyrir aðgang að bankareikningum og öðrum viðkvæmum upplýsingum
Að kanna stefnur til að vernda notkun á röddum einstaklinga í gervigreind
Að fræða almenning um getu og takmarkanir gervigreindartækni, þar á meðal möguleikann á villandi efni frá gervigreind
Að flýta fyrir þróun og innleiðingu á aðferðum til að rekja uppruna hljóð- og myndefnis, svo það sé alltaf skýrt þegar þú ert í samskiptum við raunverulega manneskju eða við gervigreind

Það er mikilvægt að fólk um allan heim skilji hvert þessi tækni stefnir, hvort sem við endanlega innleiðum hana víða sjálf eða ekki. Við hlökkum til að halda áfram að eiga í samtölum við stefnumótendur, rannsakendur, þróunaraðila og skapandi einstaklinga um þær áskoranir og tækifæri sem tilbúnar raddir fela í sér.

Tengdar greinar

Skoða allt

Video generation models as world simulators

Útgáfa15. feb. 2024

Building an early warning system for LLM-aided biological threat creation

Útgáfa31. jan. 2024

Weak-to-strong generalization

Öryggi14. des. 2023