29 Maret 2024

Ngliwati Tantangan lan Kesempatan Swara Sintetis

Kita nuduhake piwulang saka pratayang skala cilik Voice Engine, sawijining model kanggo nggawe swara kustom.

Lagi dimuat…

OpenAI nduweni komitmen kanggo ngembangake AI sing aman lan migunani kanthi amba⁠. Dina iki kita nuduhake wawasan lan asil awal saka pratayang skala cilik saka sawijining model sing diarani Voice Engine, sing nggunakake input teks lan siji conto audio 15 detik kanggo ngasilake wicara sing muni alami lan mirip banget karo penutur asline. Sing penting, model cilik kanthi siji conto 15 detik bisa nggawe swara sing ekspresif lan realistis.

Kita pisanan ngembangake Voice Engine ing pungkasan 2022, lan wis nggunakaké kanggo nggerakké swara prasetel sing kasedhiya ing API text-to-speech⁠(mbukak ing jendhela anyar) uga ChatGPT Voice and Read Aloud⁠. Ing wektu sing padha, kita njupuk pendekatan sing ati-ati lan adhedhasar informasi kanggo rilis sing luwih amba amarga ana potensi penyalahgunaan swara sintetis. Kita ngarep bisa miwiti dialog babagan penerapan swara sintetis sing tanggung jawab, lan carane masyarakat bisa adaptasi karo kemampuan anyar iki. Adhedhasar obrolan iki lan asil saka tes skala cilik iki, kita bakal nggawe keputusan sing luwih adhedhasar informasi babagan apa lan kepiye cara masang teknologi iki kanthi skala gedhe.

Aplikasi awal Voice Engine

Kanggo luwih mangerteni potensi panggunaan teknologi iki, ing pungkasan taun wingi kita miwiti nguji kanthi pribadi karo klompok cilik mitra sing dipercaya. Kita kesengsem karo aplikasi sing wis dikembangake klompok iki. Penerapan skala cilik iki mbantu mbentuk pendekatan, perlindungan, lan pemikiran kita babagan carane Voice Engine bisa digunakake kanggo kabecikan ing macem-macem industri. Sawetara conto awal kalebu:

Nyedhiyakake pitulungan maca kanggo wong sing durung bisa maca lan bocah-bocah liwat swara sing muni alami lan ekspresif sing makili rentang penutur sing luwih amba tinimbang sing bisa ditindakake swara prasetel. Age of Learning⁠(mbukak ing jendhela anyar), perusahaan teknologi pendidikan sing dedikasi kanggo sukses akademik bocah-bocah, wis nggunakaké iki kanggo ngasilake konten sulih swara sing wis disiapake. Dheweke uga nggunakake Voice Engine lan GPT‑4 kanggo nggawe tanggapan sing dipersonalisasi kanthi real-time kanggo sesambungan karo siswa. Kanthi teknologi iki, Age of Learning bisa nggawe luwih akeh konten kanggo audiens sing luwih amba.

Nerjemahake konten, kaya video lan podcast, supaya kreator lan bisnis bisa nggayuh luwih akeh wong ing saindenging jagad, kanthi lancar lan nganggo swarane dhewe. Salah siji pangguna awal kanggo iki yaiku HeyGen⁠(mbukak ing jendhela anyar), platform penceritaan visual AI sing kerja bareng pelanggan enterprise kanggo nggawe avatar kustom sing mirip manungsa kanggo macem-macem konten, saka pemasaran produk nganti demo penjualan. Dheweke nggunakake Voice Engine kanggo terjemahan video, supaya bisa nerjemahake swara penutur menyang pirang-pirang basa lan nggayuh audiens global. Nalika digunakake kanggo terjemahan, Voice Engine njaga aksen asli saka penutur asli: contone, ngasilake basa Inggris nganggo conto audio saka penutur Prancis bakal ngasilake wicara kanthi aksen Prancis.

Lagi dimuat...

Nggayuh komunitas global, kanthi ningkatake panyedhiyan layanan penting ing wilayah adoh. Dimagi⁠(mbukak ing jendhela anyar) lagi mbangun piranti kanggo petugas kesehatan komunitas supaya bisa nyedhiyakake macem-macem layanan penting, kayata konseling kanggo ibu sing nyusoni. Kanggo mbantu para petugas iki ngembangake katrampilane, Dimagi nggunakake Voice Engine lan GPT‑4 kanggo menehi umpan balik interaktif ing basa utama saben petugas kalebu Swahili utawa basa sing luwih informal kaya Sheng, basa campuran kode sing populer ing Kenya.

Lagi dimuat...

Ndhukung wong sing non-verbal, kayata aplikasi terapi kanggo individu sing nduweni kondisi sing mengaruhi wicara lan peningkatan pendidikan kanggo sing nduweni kabutuhan sinau. Livox⁠(mbukak ing jendhela anyar), aplikasi komunikasi alternatif AI, nggerakké piranti Augmentative & Alternative Communication (AAC) sing ndadekake wong disabilitas bisa komunikasi. Kanthi nggunakake Voice Engine, dheweke bisa nyedhiyakake swara sing unik lan ora kaya robot kanggo wong sing non-verbal ing akeh basa. Panggunane bisa milih wicara sing paling nggambarake awake dhewe, lan kanggo pangguna multibasa, njaga swara sing konsisten ing saben basa sing diucapake.

Lagi dimuat...

Mbantu pasien mulihake swarane, kanggo sing nandhang kondisi wicara dadakan utawa degeneratif. Norman Prince Neurosciences Institute ing Lifespan⁠(mbukak ing jendhela anyar), sistem kesehatan nirlaba sing dadi afiliasi pengajaran utama saka sekolah kedokteran Brown University, lagi njajaki panggunaan AI ing konteks klinis. Dheweke wis nguji program sing nawakake Voice Engine kanggo individu kanthi etiologi onkologis utawa neurologis sing nyebabake gangguan wicara. Amarga Voice Engine mbutuhake conto audio sing cekak banget, dokter Fatima Mirza, Rohaid Ali, lan Konstantina Svokos bisa mulihake swara pasien enom sing ilang kelancaran wicarane amarga tumor otak vaskular, nganggo audio saka video sing direkam kanggo proyek sekolah.

Lagi dimuat...

Mbangun Voice Engine kanthi aman

Kita ngerti yen ngasilake wicara sing mirip karo swarane wong nduweni risiko serius, luwih-luwih ing taun pemilu. Kita lagi sesambungan karo mitra ing AS lan internasional saka pemerintah, media, hiburan, pendidikan, masyarakat sipil, lan liya-liyane kanggo mesthekake yen kita nglebokake masukan saka dheweke nalika mbangun. Mitra sing nguji Voice Engine saiki wis sarujuk karo kabijakan panggunaan⁠ kita, sing nglarang nyamar dadi individu utawa organisasi liya tanpa idin utawa hak hukum. Kajaba iku, syarat kita karo para mitra iki mbutuhake idin sing eksplisit lan kanthi paham saka penutur asli lan kita ora ngidini pangembang nggawe cara supaya pangguna individu bisa nggawe swarane dhewe. Mitra uga kudu kanthi cetha ngandhani audiens yen swara sing dirungokake digawe dening AI. Pungkasan, kita wis ngetrapake seperangkat langkah keamanan, kalebu watermarking kanggo nglacak asal audio apa wae sing digawe Voice Engine, uga pemantauan proaktif babagan carane teknologi iki digunakake. Kita yakin manawa penerapan amba teknologi swara sintetis kudu dibarengi pengalaman autentikasi swara sing verifikasi yen penutur asli kanthi sadar nambahake swarane menyang layanan lan dhaptar swara no-go sing ndeteksi lan nyegah digaweke swara sing kakehan mirip karo tokoh kondhang.

Ndelok menyang ngarep

Voice Engine minangka kelanjutan saka komitmen kita kanggo mangerteni batas tercanggih teknis lan mbukak nuduhake apa wae sing saya dadi mungkin nganggo AI. Selaras karo pendekatan kita marang keamanan AI⁠ lan komitmen sukarela⁠, saiki kita milih nampilake pratayang teknologi iki nanging durung ngeculake kanthi amba. Muga-muga pratayang Voice Engine iki ora mung negesake potensine, nanging uga nyurung perlune nguatake ketahanan sosial marang tantangan sing digawa model generatif sing saya luwih meyakinkan. Khususe, kita nyengkuyung langkah-langkah kaya:

Mbusak bertahap autentikasi adhedhasar swara minangka langkah keamanan kanggo ngakses akun bank lan informasi sensitif liyane
Njajaki kabijakan kanggo nglindhungi panggunaan swarane individu ing AI
Ngajari masyarakat supaya paham kemampuan lan watesan teknologi AI, kalebu kemungkinan ana konten AI sing ngapusi
Nyepetake pangembangan lan adopsi teknik kanggo nglacak asal-usul konten audiovisual, supaya tansah cetha nalika sampeyan sesambungan karo wong nyata utawa karo AI

Penting supaya wong-wong ing saindenging jagad ngerti teknologi iki arep menyang endi, apa pungkasane kita masang kanthi amba dhewe utawa ora. Kita ngarep bisa terus melu obrolan babagan tantangan lan kesempatan swara sintetis karo para pembuat kebijakan, peneliti, pangembang, lan para kreatif.

Ngliwati Tantangan lan Kesempatan Swara Sintetis

Aplikasi awal Voice Engine

Mbangun Voice Engine kanthi aman

Ndelok menyang ngarep

Artikel terkait