7 Juni 2024

Njlentrehake cara kerja Voice Engine lan riset keamanan kita

Njlajah teknologi ing balik model text-to-speech kita.

Lukisan abstrak kanthi campuran warna pastel, kalebu jambon, oranye, ungu, lan ijo, kaya lanskap sing semarak.

Lagi dimuat…

Kita nyedhiyakake wawasan luwih akeh babagan cara kerja Voice Engine lan riset keamanan kita supaya kabeh wong tetep ngerti perkembangan kita. Voice Engine yaiku model sing bisa nggawe swara kustom.

Penting supaya wong-wong ing saindenging jagad ngerti menyang endi arah teknologi iki, apa kita pungkasane nyebarake kanthi wiyar dhewe utawa ora. Mula kita pengin nerangake cara kerja model iki, cara kita nggunakake kanggo riset lan edukasi, lan cara kita ngetrapake langkah keamanan ing saubenge. Voice Engine durung kasedhiya kanthi wiyar.

Cara kerja Voice Engine

Kapabilitas swara iki didhukung dening model text-to-speech (TTS), sing bisa ngasilake audio kaya swara manungsa mung saka teks lan conto tutur 15 detik.

Sistem TTS dikembangake kanthi mbantu model mangerteni nuansa tutur saka audio berpasangan lan transkripsi. Model sinau kanggo prédhiksi swara sing paling mungkin diasilake penutur kanggo transkrip teks tartamtu, kanthi nggatekake swara, logat, lan gaya ngomong sing beda-beda. Sawise iku, model bisa ngasilake ora mung versi teks sing diucapake, nanging uga ujaran lisan sing nggambarake carane macem-macem jinis penutur bakal ngucapake.

Saka kono, ngasilake audio nganggo model TTS mung mbutuhake conto 15 detik saka penutur lan teks sing cocog. Model iki ora di-fine-tune kanggo penutur tartamtu, ora ana kustomisasi model sing ditindakake. Nanging, model iki nggunakake proses difusi, diwiwiti saka noise acak lan mbaka sethithik dibusak noisene supaya cocog banget karo cara penutur saka conto audio 15 detik mau ngucapake teks.

Kita wis ngembangake model iki luwih saka setaun

Kita pisanan ngembangake Voice Engine ing pungkasan 2022. Wiwit awal, kanggo netepake kapabilitas lan watesan model Voice Engine kita, kita nguji kanthi internal nganggo campuran conto swara publik lan privat. Prototipe internal iki penting kanggo riset keselarasan lan keamanan kita, mbiyantu mbentuk perlindungan kita, lan dadi kelanjutan saka komitmen kita kanggo mangerteni frontier teknis.

Sing penting, output iki diwatesi mung kanggo pengujian internal, dudu kanggo nglatih model sing nggerakake produk kita.

Minangka bagean saka kerangka deployment iteratif kita, prototipe awal iki uga nduweni peran penting kanggo mbantu para pembuat kebijakan mangerteni kapabilitas model swara sintetis. Contone, wiwit musim panas taun kepungkur kita nuduhake potensi teknologi iki marang para pembuat kebijakan global ing tingkat paling dhuwur lan ngrembug risiko sing gegandhengan karo dheweke.

Ing September 2023⁠, kita nggunakake Voice Engine kanggo ndhukung fitur mode swara ChatGPT. Amarga kapabilitas iki uga nggawa risiko anyar, kita mung ngluncurake kanggo kasus panggunaan khusus iki. Mode swara digawe mung saka swara nyata, dipilih kanthi teliti⁠ liwat proses rinci sing diwiwiti ing Mei 2023 lan nglibatake aktor swara profesional, agensi talenta, sutradara casting, lan penasihat industri.

Ing November 2023⁠, kita ngrilis TTS API⁠(mbukak ing jendhela anyar) prasaja sing uga didhukung dening Voice Engine. Kita milih rilis winates liyane, ing ngendi kita kerja bareng aktor swara profesional kanggo nggawe conto audio 15 detik kanggo nggerakake saben saka enem swara prasetel ing API. Pangembang bisa masang iki ing situs web kanggo maca kiriman blog kanthi banter, contone.

Ing Maret taun iki⁠, kita nampilake pratayang kapabilitas Voice Engine kanggo nggawe swara kustom karo sakelompok cilik mitra sing dipercaya. Inisiatif iki tujuane kanggo nambah kesadaran babagan kapabilitas swara sintetis lan ndhukung tujuan-tujuan iki:

Ngilangi bertahap autentikasi berbasis swara minangka langkah keamanan kanggo ngakses rekening bank lan informasi sensitif liyane
Njlajah kabijakan kanggo nglindhungi panggunaan swara individu ing AI
Ngajari masyarakat supaya mangerteni kapabilitas lan watesan teknologi AI, kalebu kemungkinan konten AI sing ngapusi
Nyepetake pangembangan lan adopsi teknik kanggo nglacak asal-usul konten audiovisual, supaya tansah cetha nalika sampeyan sesambungan karo wong nyata utawa karo AI

Deployment skala cilik iki uga mbantu mbentuk pendekatan, perlindungan, lan pamikiran kita babagan carane Voice Engine bisa digunakake kanggo kabecikan ing maneka industri.

Mbangun Voice Engine kanthi aman iku prioritas utama

Kita terus melu sesambungan karo mitra ing AS lan internasional saka pamarentahan, media, hiburan, pendidikan, masyarakat sipil, lan liya-liyane kanggo mesthekake manawa kita nggabungake masukan saka dheweke nalika mbangun.

Mitra sing nyoba Voice Engine wis setuju marang kabijakan panggunaan sing nglarang peniruan tanpa idin lan mbutuhake persetujuan eksplisit saka penutur asli, lan uga mbutuhake supaya swara sing digawe AI diandharake kaya mangkono marang para pamireng. Kajaba iku, langkah keamanan kaya watermarking lan pemantauan proaktif⁠ wis ditrapake kanggo nglacak lan ngawasi panggunaan teknologi iki.

Keamanan swara sintetis ing mangsa ngarep

Omnimodel kayata GPT‑4o, kanthi kapabilitas audio native, ndadekake interaksi anyar sing ora bisa ditindakake model sadurunge kaya Voice Engine. Kita uga ngakoni manawa modalitas audio saka GPT‑4o nggawa sawetara risiko anyar, mligine ing generasi swara. Kita aktif nindakake red-teaming marang GPT‑4o kanggo ngenali lan ngatasi risiko sing wis dingerteni lan uga sing durung kaantisipasi ing maneka bidang kayata psikologi sosial, bias lan keadilan, lan misinformasi. Kita lagi mbangun pirang-pirang lapisan mitigasi kayata nyaring prilaku model, nyelarasake sistem berbasis teks sing wis ana kanggo arsitektur GPT‑4o, lan ngembangake classifier anyar.

Selaras karo pendekatan ati-ati kita ing ngrilis Voice Engine, kita bakal matesi output audio GPT‑4o mung menyang pilihan swara prasetel kanggo rilis umum. Swara iki dijupuk saka aktor swara profesional sing dipilih liwat proses casting sing dipikirake kanthi mateng. Kita bakal nuduhake informasi tambahan babagan risiko lan mitigasi sing gegayutan karo audio ing kertu sistem GPT‑4o sing bakal teka.

Panulis

OpenAI