Marso 29, 2024

Pag-navigate sa mga Hamon at Oportunidad ng mga Sintetikong Boses

Ibinabahagi namin ang mga natutunan mula sa maliitang preview ng Voice Engine, isang modelo para sa paggawa ng mga custom na boses.

Naglo-load…

Ang OpenAI ay nakatuon sa pagbuo ng ligtas at malawakang kapaki-pakinabang na AI⁠. Ngayon, ibinabahagi namin ang mga paunang insight at resulta mula sa maliitang preview ng modelo na tinatawag na Voice Engine, na gumagamit ng text input at 15-second na audio sample para bumuo ng natural na tunog na pagsasalita na malapit na kahawig ng orihinal na nagsasalita. Kapansin-pansin na ang maliit na modelo na may iisang 15-segundong sample ay puwedeng gumawa ng madamdamin at makatotohanang mga boses.

Una naming binuo ang Voice Engine noong huling bahagi ng 2022, at ginamit namin ito para paganahin ang mga naka-preset na boses na available sa text-to-speech API⁠(magbubukas sa bagong window) pati na rin sa ChatGPT Voice at Read Aloud⁠. Kasabay nito, maingat at may kaalamang isinasagawa namin sa mas malawak na paglulunsad dahil sa potensyal na maling paggamit ng sintetikong boses. Umaasa kaming makapagsimula ng diyalogo tungkol sa responsableng paggamit ng mga sintetikong tinig, at kung paano makakaangkop ang lipunan sa mga bagong kakayahang ito. Batay sa mga pag-uusap na ito at sa mga resulta ng mga maliliit na pagsubok na ito, gagawa kami ng mas matalinong desisyon tungkol sa kung dapat at paano i-deploy ang teknolohiyang ito sa malawakang saklaw.

Mga unang aplikasyon ng Voice Engine

Para mas maunawaan ang mga posibleng paggamit ng teknolohiyang ito, noong huling bahagi ng nakaraang taon nagsimula kaming pribadong subukan ito kasama ang maliit na grupo ng mga pinagkakatiwalaang partner. Humanga kami sa mga application na binuo ng grupong ito. Ang mga small-scale na pag-deploy na ito ay nakakatulong na hubugin ang aming pamamaraan, mga pananggalang, at pag-iisip tungkol sa kung paano magagamit nang maayos ang Voice Engine sa iba't ibang industriya. Ilan sa mga naunang halimbawa ay ang mga sumusunod:

Pagbibigay ng tulong sa pagbabasa sa mga hindi mahilig magbasa at mga bata sa pamamagitan ng natural na tunog at emosyonal na mga boses na kumakatawan sa mas malawak na hanay ng mga nagsasalita kaysa sa posible sa mga paunang natukoy na boses. Age of Learning⁠(magbubukas sa bagong window), isang kumpanya ng teknolohiya sa edukasyon na nakatuon sa tagumpay sa akademya ng mga bata ang gumagamit iito para makabuo ng paunang-iskrip na nilalaman ng voice-over. Gumagamit din sila ng Voice Engine at GPT‑4 para gumawa ng mga real-time, naka-personalize na tugon para makipag-ugnayan sa mga estudyante. Sa teknolohiyang ito, nagawa ng Age of Learning na lumikha ng mas maraming content para sa mas malawak na audience.

Pagsasalin ng content, tulad ng mga video at podcast, para maabot ng mga creator at negosyo ang mas maraming tao sa buong mundo nang mahusay at gamit ang sarili nilang mga boses. Isa sa mga maagang gumamit nito ay ang HeyGen⁠(magbubukas sa bagong window), isang AI visual storytelling platform na nakikipagtulungan sa kanilang mga enterprise customer para gumawa ng mga custom, mala-tao na avatar para sa iba't ibang nilalaman, mula sa product marketing hanggang sa mga sales demo. Gumagamit sila ng Voice Engine para sa pagsasalin ng video, kaya puwede nilang isalin ang boses ng tagapagsalita sa maraming wika at maabot ang pandaigdigang tagapakinig. Kapag ginamit para sa pagsasalin, pinapanatili ng Voice Engine ang katutubong punto ng orihinal na tagapagsalita: halimbawa, ang pagbuo ng English gamit ang sample ng audio mula sa French na tagapagsalita ay magreresulta sa pagsasalita na may puntong French.

Naglo-load...

Pag-abot sa mga pandaigdigang komunidad, sa pamamagitan ng pagpapahusay sa paghahatid ng mahahalagang serbisyo sa mga malalayong lugar. Dimagi⁠(magbubukas sa bagong window) ay bumubuo ng mga kagamitan para sa mga manggagawa sa kalusugan ng komunidad para makapagbigay ng iba't ibang mahahalagang serbisyo, tulad ng pagpapayo para sa mga ina na nagpapasuso. Para matulungan ang mga manggagawang ito na paunlarin ang kanilang mga kasanayan, ginagamit ng Dimagi ang Voice Engine at GPT‑4 para magbigay ng interactive na feedback sa pangunahing wika ng bawat manggagawa, kabilang ang Swahili o mas impormal na mga wika tulad ng Sheng, isang code-mixed na wika na popular sa Kenya.

Naglo-load...

Suportahan ang mga taong hindi nakakapagsalita, gaya ng mga therapeutic na aplikasyon para sa mga indibidwal na may mga kundisyong nakakaapekto sa pagsasalita at mga pagpapahusay sa edukasyon para sa mga may pangangailangan sa pagkatuto. Livox⁠(magbubukas sa bagong window), isang AI na alternatibong app para sa komunikasyon, ang nagpapatakbo sa mga device ng Augmentative & Alternative Communication (AAC) na nagbibigay-daan sa mga taong may kapansanan na makipagkomunikasyon. Sa paggamit ng Voice Engine, nagagawa nilang mag-alok sa mga taong hindi nakakapagsalita ng mga natatangi at hindi robotikong boses sa maraming wika. Puwedeng piliin ng kanilang mga user ang pagsasalita na pinakamahusay na kumakatawan sa kanila, at para sa mga multilingual na user, mapanatili ang consistent na boses sa bawat sinasalitang wika.

Naglo-load...

Pagtulong sa mga pasyente na maibalik ang kanilang boses, para sa mga dumaranas ng biglaan o degeneratibong kondisyon sa pagsasalita. Ang Norman Prince Neurosciences Institute sa Lifespan⁠(magbubukas sa bagong window), ang non-profit na sistemang pangkalusugan na nagsisilbing pangunahing kaakibat sa pagtuturo ng paaralang medikal ng Brown University, ay nagsasaliksik ng mga gamit ng AI sa mga klinikal na konteksto. Nagpapatakbo sila ng pilot program na nag-aalok ng Voice Engine sa mga indibidwal na may mga oncologic o neurologic na etiolohiya para sa kapansanan sa pagsasalita. Dahil nangangailangan ang Voice Engine ng napakaikling audio sample, nagawang ibalik ng mga doktor na sina Fatima Mirza, Rohaid Ali at Konstantina Svokos ang boses ng batang pasyente na nawalan ng matatas na pananalita dahil sa vascular brain tumor, gamit ang audio mula sa video na na-record para sa proyekto sa paaralan.

Naglo-load...

Pagbuo ng Voice Engine nang ligtas

Kinikilala namin na ang paggawa ng mga pananalitang kahawig ng boses ng mga tao ay may malulubhang panganib, na siyang pangunahing dapat isaalang-alang lalo na sa taon ng halalan. Nakikipag-ugnayan kami sa mga partner sa U.S. at internasyonal mula sa iba’t ibang sektor—gobyerno, media, libangan, edukasyon, civil society, at iba pa—para matiyak na isinasama namin ang kanilang feedback habang bumubuo kami. Sumang-ayon sa aming mga patakaran sa paggamit⁠ ang mga partner na sumusubok sa Voice Engine ngayon, na nagbabawal sa pagpapanggap bilang ibang indibidwal o organisasyon nang walang pahintulot o legal na karapatan. Bukod pa rito, ang aming mga tuntunin sa mga partner ito ay nangangailangan ng tahasan at may kaalamang pahintulot mula sa orihinal na tagapagsalita at hindi namin pinapayagan ang mga developer na bumuo ng mga paraan para sa mga indibidwal na user na lumikha ng kanilang sariling mga tinig. Dapat ding malinaw na ibunyag ng mga partner sa kanilang audience na ang mga boses na naririnig nila ay binuo ng AI. Panghuli, nagpatupad kami ng mga hakbang sa kaligtasan, kabilang ang watermarking para matunton ang pinagmulan ng anumang audio na nalilikha ng Voice Engine, pati na rin ang proaktibong pagsubaybay kung paano ito ginagamit. Naniniwala kami na ang anumang malawakang paggamit ng teknolohiya ng sintetikong boses ay dapat samahan ng mga karanasan sa voice authentication na nagpapatunay na kusang-loob na idinadagdag ng orihinal na tagapagsalita ang kanyang boses sa serbisyo, at ng isang no-go voice list na nakakatukoy at nakapipigil sa paggawa ng mga boses na masyadong kahawig ng mga kilalang personalidad.

Pagtingin sa hinaharap

Ang Voice Engine ay pagpapatuloy ng aming pangako na maunawaan ang teknikal na frontier at hayagang ibahagi kung ano ang nagiging posible sa AI. Alinsunod sa aming paraan sa kaligtasan ng AI⁠ at sa aming mga boluntaryong pangako⁠, pinipili naming i-preview pero hindi pa ilalabas nang malawakan ang teknolohiyang ito sa ngayon. Umaasa kami na ang preview na ito ng Voice Engine ay nagbibigay-diin sa potensyal nito at nag-uudyok din sa pangangailangang palakasin ang katatagan ng lipunan laban sa mga hamong dulot ng mas nakakakumbinsing mga generative na modelo. Partikular, hinihikayat namin ang mga hakbang tulad ng:

Unti-unting inaalis ang voice-based authentication bilang hakbang sa seguridad para sa pag-access ng mga bank account at iba pang sensitibong impormasyon
Tinutuklas ang mga patakaran para protektahan ang paggamit ng mga boses ng mga indibidwal sa AI
Pagtuturo sa publiko para maunawaan ang mga kakayahan at limitasyon ng mga teknolohiyang AI, kabilang ang posibilidad ng mapanlinlang na nilalaman ng AI
Pinapabilis ang pag-develop at pag-adopt ng mga teknolohiya para sa pagsubaybay sa pinagmulan ng audiovisual na nilalaman, para laging malinaw kung nakikipag-ugnayan ka sa isang totoong tao o sa isang AI

Mahalagang maunawaan ng mga tao sa buong mundo kung saan patungo ang teknolohiyang ito, i-deploy man namin ito nang malawakan sa huli o hindi. Inaasahan namin ang patuloy na pakikilahok sa mga talakayan tungkol sa mga hamon at oportunidad ng mga sintetikong boses kasama ang mga tagapagbatas, mananaliksik, developer at mga malikhaing indibidwal.

Mga kaugnay na artikulo

Tingnan lahat

Video generation models as world simulators

PaglalathalaPeb 15, 2024

Building an early warning system for LLM-aided biological threat creation

PaglalathalaEne 31, 2024

Weak-to-strong generalization

KaligtasanDis 14, 2023