2024 m. kovo 29 d.

Dirbtinių balsų iššūkių ir galimybių valdymas

Dalijamės įžvalgomis, gautomis iš nedidelio masto „Voice Engine“ peržiūros – modelio, skirto kurti individualius balsus.

Įkeliama...

„OpenAI“ yra įsipareigojusi kurti saugų ir visapusiškai naudingą dirbtinį intelektą⁠. Šiandien dalijamės preliminariomis įžvalgomis ir rezultatais iš nedidelės apimties modelio, vadinamo „Voice Engine“, peržiūros, kuri naudoja teksto įvestį ir vieną 15 sekundžių garso pavyzdį, kad sugeneruotų natūraliai skambančią kalbą, glaudžiai panašią į originalų kalbėtoją. Pažymėtina, kad mažas modelis, turintis vieną 15 sekundžių pavyzdį, gali sukurti emocingus ir tikroviškus balsus.

Pirmą kartą „Voice Engine“ sukūrėme 2022 m. pabaigoje ir naudojome jį iš anksto nustatytiems balsams, esantiems teksto įgarsinimo API,⁠(atsidaro naujame lange) taip pat „ChatGPT Voice“ ir „Read Aloud“⁠. Tuo pat metu, dėl galimo piktnaudžiavimo dirbtiniu balsu, laikomės atsargaus ir informuoto požiūrio į platesnį išleidimą. Tikimės pradėti dialogą apie atsakingą dirbtinių balsų diegimą ir apie tai, kaip visuomenė gali prisitaikyti prie šių naujų galimybių. Remdamiesi šiais pokalbiais ir šių nedidelio masto testų rezultatais, priimsime labiau pagrįstą sprendimą, ar ir kaip diegti šią technologiją dideliu mastu.

Ankstyvieji „Voice Engine“ pritaikymai

Siekdami geriau suprasti galimus šios technologijos panaudojimo būdus, praėjusių metų pabaigoje pradėjome ją privačiai testuoti su nedidele patikimų partnerių grupe. Mus sužavėjo šios grupės sukurtos programos. Šie nedidelio masto diegimai padeda formuoti mūsų požiūrį, apsaugos priemones ir mąstymą apie tai, kaip „Voice Engine“ galėtų būti panaudotas geriems tikslams įvairiose pramonės šakose. Keletas ankstyvųjų pavyzdžių:

Skaitymo pagalbos teikimas neskaitantiems ir vaikams pasitelkiant natūraliai skambančius, emocingus balsus, atstovaujančius platesniam kalbėtojų spektrui, nei įmanoma naudojant iš anksto nustatytus balsus. „Age of Learning“⁠(atsidaro naujame lange), švietimo technologijų įmonė, skirta vaikų akademinei sėkmei, naudoja tai iš anksto parašytam įgarsintam turiniui kurti. Jie taip pat naudoja „Voice Engine“ ir GPT‑4, kad sukurtų realiuoju laiku suasmenintus atsakymus bendraudami su mokiniais. Naudodama šią technologiją, „Age of Learning“ galėjo sukurti daugiau turinio platesnei auditorijai.

Verčiant turinį, pavyzdžiui, vaizdo įrašus ir tinklalaides, kad kūrėjai ir įmonės galėtų pasiekti daugiau žmonių visame pasaulyje sklandžiai ir savo balsais. Viena iš pirmųjų šios technologijos naudotojų yra „HeyGen“⁠(atsidaro naujame lange) – dirbtinio intelekto vizualinio pasakojimo platforma, kuri bendradarbiauja su savo verslo klientais kurdama individualius, į žmones panašius avatarus įvairiam turiniui – nuo produktų rinkodaros iki pardavimo demonstracijų. Jie naudoja „Voice Engine“ vaizdo vertimui, todėl gali išversti kalbėtojo balsą į kelias kalbas ir pasiekti pasaulinę auditoriją. Naudojant vertimui, „Voice Engine“ išsaugo gimtąjį originalaus kalbėtojo akcentą: pavyzdžiui, generuojant anglų kalbą su prancūzų kalbėtojo garso pavyzdžiu, būtų sukurta kalba su prancūzišku akcentu.

Įkeliama...

Pasiekiant pasaulio bendruomenes, gerinant esminių paslaugų teikimą atokiose vietovėse. „Dimagi“⁠(atsidaro naujame lange) kuria įrankius bendruomenės sveikatos priežiūros darbuotojams, kad jie galėtų teikti įvairias esmines paslaugas, pavyzdžiui, konsultacijas krūtimi maitinančioms motinoms. Siekdama padėti šiems darbuotojams ugdyti savo įgūdžius, „Dimagi“ naudoja „Voice Engine“ ir GPT‑4, kad teiktų interaktyvų grįžtamąjį ryšį kiekvieno darbuotojo pagrindine kalba, įskaitant svahilių, arba labiau neformaliomis kalbomis, pavyzdžiui, šeng – kodų maišymo kalba, populiaria Kenijoje.

Įkeliama...

Parama kalbos negalią turintiems žmonėms, pavyzdžiui, terapinės programos asmenims, turintiems būklių, kurios veikia kalbą, ir švietimo patobulinimai tiems, kurie turi mokymosi poreikių. Livox⁠(atsidaro naujame lange), dirbtinio intelekto alternatyvios komunikacijos programėlė, palaiko augmentatyviosios ir alternatyviosios komunikacijos (AAC) įrenginius, kurie leidžia žmonėms su negalia bendrauti. Naudodami „Voice Engine“, jie gali pasiūlyti kalbos negalią turintiems žmonėms unikalius ir ne robotinius balsus daugeliu kalbų. Jų naudotojai gali pasirinkti kalbą, kuri geriausiai juos atspindi, o daugiakalbiams naudotojams – išlaikyti nuoseklų balsą kiekvienoje vartojamoje kalboje.

Įkeliama...

Padedame pacientams atgauti balsą, tiems, kurie kenčia nuo staigių ar degeneracinių kalbos sutrikimų. Normano Princo neuromokslų institutas „Lifespan“⁠(atsidaro naujame lange) ligoninėje, ne pelno siekiančioje sveikatos priežiūros sistemoje, kuri yra pagrindinė Brauno universiteto medicinos mokyklos mokymo įstaiga, tyrinėja dirbtinio intelekto panaudojimą klinikiniuose kontekstuose. Jie vykdė bandomąją programą, pagal kurią „Voice Engine“ siūloma asmenims, kurių kalbos sutrikimą lemia onkologinės ar neurologinės etiologijos. Kadangi „Voice Engine“ reikia tokio trumpo garso pavyzdžio, gydytojai Fatima Mirza, Rohaid Ali ir Konstantina Svokos galėjo atkurti jaunos pacientės, kuri dėl kraujagyslinio smegenų naviko prarado sklandžią kalbą, balsą, naudodami garsą iš vaizdo įrašo, įrašyto mokyklos projektui.

Įkeliama...

Saugus „Voice Engine“ kūrimas

Suprantame, kad kalbos, primenančios žmonių balsus, generavimas kelia rimtų rizikų, kurios ypač aktualios rinkimų metais. Bendradarbiaujame su JAV ir tarptautiniais partneriais iš įvairių sričių – valdžios, žiniasklaidos, pramogų, švietimo, pilietinės visuomenės ir kitų – siekdami užtikrinti, kad kurdami įtraukiame jų atsiliepimus. Partneriai, kurie šiandien testuoja „Voice Engine“, sutiko su mūsų naudojimo politika⁠, kuri draudžia apsimesti kitu asmeniu ar organizacija be sutikimo arba teisėto pagrindo. Be to, mūsų sąlygos su šiais partneriais reikalauja aiškaus ir informuoto originalaus kalbėtojo sutikimo, o kūrėjams neleidžiame kurti būdų, kaip atskiri naudotojai galėtų susikurti savo balsus. Partneriai taip pat turi aiškiai atskleisti savo auditorijai, kad balsai, kuriuos jie girdi, yra sugeneruoti DI. Galiausiai įdiegėme saugos priemonių rinkinį, įskaitant vandens ženklinimą, kad būtų galima atsekti bet kokio „Voice Engine“ sugeneruoto garso kilmę, taip pat aktyvią stebėseną, kaip jis naudojamas. Manome, kad bet koks plataus masto dirbtinio balso technologijos diegimas turėtų būti lydimas balso autentifikavimo patirčių, kurios patvirtina, kad originalus kalbėtojas sąmoningai prideda savo balsą prie paslaugos, ir neleistinų balsų sąrašo, kuris aptinka ir užkerta kelią balsų, pernelyg panašių į žymius asmenis, kūrimui.

Ateities perspektyvos

„Voice Engine“ yra mūsų įsipareigojimo suprasti technines ribas ir atvirai dalytis tuo, kas tampa įmanoma naudojant dirbtinį intelektą, tęsinys. Laikydamiesi mūsų požiūrio į DI saugą⁠ ir mūsų savanoriškų įsipareigojimų⁠, šiuo metu nusprendėme šią technologiją pateikti peržiūrai, bet jos plačiai neišleisti. Tikimės, kad ši „Voice Engine“ peržiūra ir pabrėžia jo potencialą, ir taip pat parodo poreikį stiprinti visuomenės atsparumą iššūkiams, kuriuos kelia vis įtikinamesni generatyviniai modeliai. Visų pirma, skatiname tokius veiksmus:

Palaipsniui atsisakoma balsu pagrįsto autentifikavimo kaip saugumo priemonės, skirtos prieigai prie banko sąskaitų ir kitos jautrios informacijos
Analizuojamos politikos, skirtos apsaugoti asmenų balsų naudojimą DI
Visuomenės švietimas, siekiant padėti suprasti dirbtinio intelekto (DI) technologijų galimybes ir apribojimus, įskaitant apgaulingo DI turinio galimybę
Spartinamas audiovizualinio turinio kilmės sekimo metodų kūrimas ir diegimas, kad visada būtų aišku, ar bendraujate su tikru žmogumi, ar su DI

Svarbu, kad žmonės visame pasaulyje suprastų, kur link juda ši technologija, nesvarbu, ar galiausiai ją plačiai diegsime patys, ar ne. Nekantraujame toliau tęsti pokalbius su politikos formuotojais, tyrėjais, kūrėjais ir kūrybininkais apie dirbtinių balsų keliamus iššūkius ir galimybes.

Susiję straipsniai

Peržiūrėti viską

Video generation models as world simulators

Publikacija2024-02-15

Building an early warning system for LLM-aided biological threat creation

Publikacija2024-01-31

Weak-to-strong generalization

Sauga2023-12-14