29. märts 2024

Sünteetiliste häältega seotud väljakutsete ja võimaluste navigeerimine

Jagame õppetunde Voice Engine'i väikesemahulisest eelvaatest, see on mudel kohandatud häälte loomiseks.

Laadimine…

OpenAI on pühendunud ohutu ja laialdaselt kasuliku tehisintellekti arendamisele⁠. Täna jagame esialgseid tähelepanekuid ja tulemusi Voice Engine'i nimelise mudeli väikesemahulisest eelvaatest, mis kasutab tekstisisendit ja ühte 15-sekundilist helinäidist, et luua loomuliku kõlaga kõnet, mis sarnaneb väga algse kõnelejaga. On märkimisväärne, et väike mudel suudab ühe 15-sekundilise näidise abil luua emotsionaalseid ja realistlikke hääli.

Me arendasime Voice Engine’i välja 2022. aasta lõpus ja oleme seda kasutanud eelseadistatud häälte toetamiseks, mis on saadaval tekstist kõneks API-s⁠(avaneb uues aknas), samuti ChatGPT Voice’is ja funktsioonis Read Aloud⁠. Samal ajal rakendame sünteetilise hääle väärkasutamise võimalikkuse tõttu laiema kasutuselevõtu suhtes ettevaatlikku ja teadlikku lähenemist. Me loodame alustada dialoogi sünteetiliste häälte vastutustundliku kasutuselevõtu üle ja selle üle, kuidas ühiskond saab nende uute võimekustega kohaneda. Nende vestluste ja väikesemahuliste testide tulemuste põhjal otsustame teadlikumalt, kas ja kuidas seda tehnoloogiat suuremas mahus kasutusele võtta.

Voice Engine'i varajased rakendused

Selle tehnoloogia võimalike kasutusviiside paremaks mõistmiseks alustasime eelmise aasta lõpus selle eraviisilist testimist väikese rühma usaldusväärsete partneritega. Selle grupi loodud rakendused on meile muljet avaldanud. Need väikesemahulised juurutused aitavad kujundada meie lähenemist, kaitsemeetmeid ja mõtteviisi selle kohta, kuidas Voice Engine’i saaks erinevats tööstusharudes headel eesmärkidel kasutada. Mõned varajased näited hõlmavad:

Lugemisabi pakkumine mittelugejatele ja lastele loomuliku kõlaga, emotsionaalsete häälte kaudu, mis esindavad laiemat kõnelejate valikut kui eelseadistatud häältega võimalik. Age of Learning⁠(avaneb uues aknas), laste akadeemilisele edule pühendunud haridustehnoloogia ettevõte, on kasutanud seda eelskriptitud pealelugemise sisu loomiseks. Nad kasutavad ka Voice Engine'it ja GPT‑4, et luua reaalajas isikupärastatud vastuseid, et õpilastega suhelda. Selle tehnoloogia abil on Age of Learning saanud luua rohkem sisu laiema publiku jaoks.

Sisu tõlkimine, nagu videod ja taskuhäälingud, et loojad ja ettevõtted saaksid jõuda rohkemate inimesteni üle maailma, sujuvalt ja omaenda häälega. Üks varajasi kasutajaid on HeyGen⁠(avaneb uues aknas), tehisintellektil põhinev visuaalse loo jutustamise platvorm, mis töötab oma klientidega selleks, et luua kohandatud, inimlaadseid avatare erineva sisu jaoks, alates tooteturundusest kuni müügidemodeni. Nad kasutavad video tõlkimiseks Voice Engine'it, et tõlkida kõneleja hääl mitmesse keelde ja jõuda ülemaailmse publikuni. Kui kasutada Voice Engine'it tõlkimiseks, säilitab see algse kõneleja emakeelse aktsendi: näiteks inglise keele genereerimine prantsuskeelse kõneleja häälenäidise põhjal annab tulemuseks prantsuse aktsendiga kõne.

Laadimine...

Jõuame ülemaailmsete kogukondadeni, parandades oluliste teenuste osutamist kaugemates piirkondades. Dimagi⁠(avaneb uues aknas) loob tööriistu kogukonna tervisetöötajatele, et nad saaksid pakkuda mitmesuguseid olulisi teenuseid, näiteks nõustamist rinnaga toitvatele emadele. Et aidata neil töötajatel oma oskusi arendada, kasutab Dimagi Voice Engine'it ja GPT‑4, et anda interaktiivset tagasisidet iga töötaja esmases keeles, sealhulgas suahiili keeles või mitteametlikes keeltes, nagu Sheng, mis on Keenias populaarne koodisegune keel.

Laadimine...

Toetame mitteverbaalseid inimesi, näiteks loome terapeutilisi rakendusi inimestele, kellel on kõnet mõjutavad seisundid, ning hariduslikke täiustusi nende jaoks, kellel on õpivajadused. Livox⁠(avaneb uues aknas), tehisintellektil põhinev alternatiivse suhtluse rakendus, toetab augmentatiivse ja alternatiivse kommunikatsiooni (AAC) seadmeid, mis võimaldavad puuetega inimestel suhelda. Voice Engine’i kasutades saavad nad pakkuda mitteverbaalsetele inimestele paljudes keeltes ainulaadseid ja mitterobotlikke hääli. Nende kasutajad saavad valida kõne, mis neid kõige paremini esindab, ja mitmekeelsete kasutajate puhul säilitada järjepideva hääle igas kõnekeeles.

Laadimine...

Aitame patsientidel oma hääle tagasi saada, kui nad kannatavad äkiliste või degeneratiivsete kõnehäirete all. Norman Prince’i Neuroteaduste Instituut Lifespan⁠(avaneb uues aknas)i juures on mittetulunduslik tervisesüsteem, mis on Browni Ülikooli meditsiinikooli peamine õppepartner ja uurib tehisintellekti kasutusvõimalusi kliinilistes kontekstides. Nad on katsetanud pilootprogrammi raames programmi, mis pakub Voice Engine’it isikutele, kellel on kõnehäire onkoloogilise või neuroloogilise etioloogia tõttu. Kuna Voice Engine vajab nii lühikest helinäidist, suutsid arstid Fatima Mirza, Rohaid Ali ja Konstantina Svokos taastada noore patsiendi hääle, kes kaotas veresoonelise ajukasvaja tõttu sujuva kõne - selleks kasutasime heli videost, mis oli salvestatud kooliprojekti jaoks.

Laadimine...

Voice Engine'i ohutu loomine

Me saame aru, et inimeste hääli meenutava kõne loomine on tõsiste riskidega, eriti valimisaastal. Me teeme koostööd USA ja rahvusvaheliste partneritega valitsusest, meediast, meelelahutusest, haridusest, kodanikuühiskonnast ja mujalt, et saada nende tagasisidet selle okhta, kuidas me seda lahendust loome. Partnerid, kes täna Voice Engine’i testivad, on nõustunud meie kasutuspõhimõtetega⁠, mis keelavad ilma nõusolekuta või seadusliku õiguseta teisena esinemise, olgu selleks teine isik või organisatsioon. Lisaks nõuavad meie nende partneritega kokkulepitud tingimused algselt kõnelejalt selgesõnalist ja teadlikku nõusolekut ning me ei luba arendajatel luua viise, kuidas üksikkasutajad saaksid luua omaenda hääli. Partnerid peavad oma publikule selgelt avalikustama, et hääled, mida nad kuulevad, on tehisintellekti loodud. Viimaks, oleme rakendanud hulga turvameetmeid, sealhulgas vesimärgistamise, et jälitada Voice Engine’i loodud heli päritolu, ning jälgime aktiivselt, kuidas seda kasutatakse. Me usume, et sünteetilise hääletehnoloogia laialdase kasutuselevõtuga peaks kaasnema hääle autentimise kogemused, mis kinnitavad, et algne kõneleja lisab teadlikult oma hääle teenusesse, ja loend keelatud häältest, mis takistab tuntud isikutele liiga sarnaste häälte loomist.

Tulevikku vaadates

Voice Engine on jätk meie pühendumusele mõista tipptasemel tehnilist arengut ja jagada avatult seda, mis tehisintellektiga võimalikuks on saamas. Kooskõlas meie tehisintellekti ohutuse lähenemisega⁠ ja meie vabatahtlike kohustustega⁠ otsustame praegu seda tehnoloogiat eelvaates näidata, kuid praegu mitte laialdaselt kättesaadavaks teha. Loodame, et see Voice Engine’i eelvaade nii rõhutab selle potentsiaali kui ka annab motivatsiooni tugevdada ühiskonna vastupanuvõimet üha veenvamate generatiivsete mudelitega kaasnevate väljakutsete vastu. Täpsemalt julgustame astuma konkreetseid samme, näiteks:

Häälepõhise autentimise järkjärguline kasutuselt kõrvaldamine turvameetmena pangakontodele ja muule tundlikule teabele juurdepääsu saamiseks
Tutvu poliitikatega, mis kaitsevad inimeste häälte tehisintellektis kasutamist
Avalikkuse harimine tehisintellekti tehnoloogiate võimekuste ja piirangute mõistmisel, sealhulgas seoses eksitava tehisintellekti sisu võimalikkusega
Audiovisuaalse sisu päritolu jälgimise tehnikate arendamise ja kasutuselevõtu kiirendamine, et oleks alati selge, kas suhtled päris inimesega või tehisintellektiga

On oluline, et inimesed üle kogu maailma mõistaksid, mis selle tehnoloogia suund on, olenemata sellest, kas me lõpuks juurutame seda ise laialdaselt või mitte. Ootame põnevusega, et saaksime jätkata osalemist vestlustes poliitikakujundajate, teadlaste, arendajate ja loomeinimestega, mis puudutavad sünteetiliste häältega kaasnevaid väljakutseid ja võimalusi.

Seotud artiklid

Vaata kõiki

Video generation models as world simulators

Väljaanne15. veebr 2024

Building an early warning system for LLM-aided biological threat creation

Väljaanne31. jaan 2024

Weak-to-strong generalization

Ohutus14. dets 2023