Menavigasi Tantangan serta Peluang Suara Sintetis
Kami membagikan pelajaran dari pratinjau skala kecil Voice Engine, sebuah model untuk membuat suara kustom.
OpenAI berkomitmen untuk mengembangkan AI yang aman dan bermanfaat secara luas. Hari ini, kami membagikan wawasan dan hasil awal dari pratinjau skala kecil sebuah model bernama Voice Engine, yang menggunakan masukan teks dan satu sampel audio 15 detik untuk menghasilkan ucapan yang terdengar alami dan sangat menyerupai penutur asli. Perlu dicatat bahwa model kecil dengan satu sampel 15 detik dapat menciptakan suara yang emosional dan realistis.
Kami pertama kali mengembangkan Voice Engine pada akhir 2022, dan telah menggunakannya untuk mendukung suara preset yang tersedia di API teks-ke-ucapan(terbuka di jendela baru) serta ChatGPT Suara dan Baca Keras. Pada saat yang sama, kami mengambil pendekatan yang hati-hati dan berdasarkan informasi untuk rilis yang lebih luas karena potensi penyalahgunaan suara sintetis. Kami berharap dapat memulai dialog tentang penerapan suara sintetis yang bertanggung jawab, dan bagaimana masyarakat dapat beradaptasi dengan kemampuan baru ini. Berdasarkan percakapan ini dan hasil dari pengujian skala kecil ini, kami akan membuat keputusan yang lebih tepat mengenai apakah dan bagaimana menerapkan teknologi ini dalam skala besar.
Untuk lebih memahami potensi penggunaan teknologi ini, akhir tahun lalu kami mulai mengujinya secara privat dengan grup kecil mitra tepercaya. Kami terkesan dengan aplikasi yang telah dikembangkan oleh grup ini. Penerapan skala kecil ini membantu menginformasikan pendekatan, perlindungan, dan pemikiran kami tentang bagaimana Voice Engine dapat digunakan untuk kebaikan di berbagai industri. Beberapa contohnya mencakup:
- Menyediakan bantuan membaca bagi orang yang tidak bisa membaca dan anak-anak melalui suara yang terdengar natural dan emotif yang mewakili rentang pembicara yang lebih luas daripada yang dimungkinkan dengan suara preset. Age of Learning(terbuka di jendela baru), sebuah perusahaan teknologi pendidikan yang berdedikasi pada kesuksesan akademik anak-anak, telah menggunakan ini untuk menghasilkan konten sulih suara yang telah ditulis sebelumnya. Perusahaan ini juga menggunakan Voice Engine dan GPT‑4 untuk membuat respons yang dipersonalisasi secara real-time untuk berinteraksi dengan peserta didik. Dengan teknologi ini, Age of Learning telah mampu membuat lebih banyak konten untuk audiens yang lebih luas.
- Menerjemahkan konten, seperti video dan podcast, agar kreator dan bisnis dapat menjangkau lebih banyak orang di seluruh dunia, dengan lancar dan dengan suara asli mereka. Salah satu pengadopsi awal dari ini adalah HeyGen(terbuka di jendela baru), sebuah platform penceritaan visual AI yang bekerja dengan pelanggan perusahaannya untuk membuat avatar kustom yang mirip manusia untuk berbagai konten, mulai dari pemasaran produk hingga demo penjualan. Mereka menggunakan Voice Engine untuk terjemahan video, sehingga mereka dapat menerjemahkan suara pembicara ke berbagai bahasa dan menjangkau audiens global. Saat digunakan untuk penerjemahan, Voice Engine mempertahankan aksen asli pembicara: misalnya, menghasilkan bahasa Inggris dengan sampel audio dari pembicara Prancis akan menghasilkan ucapan dengan aksen Prancis.
- Menjangkau komunitas global, dengan meningkatkan penyediaan layanan esensial di wilayah terpencil. Dimagi(terbuka di jendela baru) sedang membangun alat untuk pekerja kesehatan komunitas agar dapat menyediakan berbagai layanan esensial, seperti konseling untuk ibu menyusui. Untuk membantu para pekerja ini mengembangkan keterampilan mereka, Dimagi menggunakan Voice Engine dan GPT‑4 untuk memberikan umpan balik interaktif dalam bahasa utama masing-masing pekerja, termasuk Swahili atau bahasa yang lebih informal seperti Sheng, bahasa campuran kode yang populer di Kenya.
- Mendukung orang yang nonverbal, seperti aplikasi terapeutik untuk individu dengan kondisi yang memengaruhi kemampuan berbicara serta peningkatan pendidikan bagi mereka yang memiliki kebutuhan belajar. Livox(terbuka di jendela baru), aplikasi komunikasi alternatif berbasis AI, mendukung perangkat Augmentative & Alternative Communication (AAC) yang memungkinkan penyandang disabilitas untuk berkomunikasi. Dengan menggunakan Voice Engine, mereka dapat menawarkan kepada orang-orang yang non-verbal suara yang unik dan tidak terdengar seperti robot dalam banyak bahasa. Pengguna mereka dapat memilih ucapan yang paling mewakili mereka, dan bagi pengguna multibahasa, mempertahankan konsistensi suara di setiap bahasa lisan.
- Membantu pasien memulihkan suara mereka, bagi mereka yang menderita kondisi gangguan bicara mendadak atau degeneratif. Norman Prince Neurosciences Institute di Lifespan(terbuka di jendela baru), sebuah sistem Kesehatan nirlaba yang berfungsi sebagai afiliasi pengajaran utama bagi sekolah kedokteran Brown University, sedang mengeksplorasi penggunaan AI dalam konteks klinis. Mereka telah menjalankan program percontohan yang menawarkan Voice Engine kepada individu dengan etiologi onkologis atau neurologis untuk gangguan bicara. Karena Voice Engine hanya memerlukan sampel audio yang sangat singkat, dokter Fatima Mirza, Rohaid Ali, dan Konstantina Svokos dapat memulihkan suara seorang pasien muda yang kehilangan kemampuan berbicara lancar akibat tumor otak vaskular, menggunakan audio dari video yang direkam untuk proyek sekolah.
Kami menyadari bahwa menghasilkan ucapan yang menyerupai suara orang memiliki risiko serius, yang terutama menjadi perhatian utama pada tahun pemilu. Kami berinteraksi dengan mitra A.S. dan internasional dari berbagai sektor pemerintahan, media, hiburan, pendidikan, masyarakat sipil, dan lainnya untuk memastikan kami menindaklanjuti masukan mereka saat kami membangun. Mitra yang menguji Voice Engine hari ini telah menyetujui kebijakan penggunaan kami, yang melarang peniruan identitas individu atau organisasi lain tanpa persetujuan atau hak hukum. Selain itu, persyaratan kami dengan para mitra ini mengharuskan persetujuan yang eksplisit dan berdasarkan informasi dari pembicara asli dan kami tidak mengizinkan pengembang membangun cara bagi pengguna individu untuk membuat suara mereka sendiri. Mitra juga harus mengungkapkan dengan jelas kepada audiens mereka bahwa suara yang mereka dengar dihasilkan oleh AI. Terakhir, kami telah menerapkan serangkaian langkah keselamatan, termasuk pemberian watermark untuk melacak asal-usul audio apa pun yang dihasilkan oleh Voice Engine, serta pemantauan proaktif terhadap bagaimana audio tersebut digunakan. Kami meyakini bahwa setiap penerapan luas teknologi suara sintetis harus disertai mekanisme autentikasi suara yang memastikan bahwa pembicara asli secara sadar memberikan suaranya ke layanan tersebut, serta daftar suara terlarang yang dapat mendeteksi dan mencegah pembuatan suara yang terlalu mirip dengan tokoh publik.
Voice Engine adalah kelanjutan dari komitmen kami untuk memahami batas teknis terdepan dan secara terbuka membagikan apa yang menjadi mungkin dengan AI. Sejalan dengan pendekatan kami terhadap keselamatan AI dan komitmen sukarela kami, kami memilih untuk menampilkan pratinjau tetapi tidak merilis teknologi ini secara luas saat ini. Kami berharap pratinjau Voice Engine ini tidak hanya menegaskan potensinya, tetapi juga memotivasi perlunya memperkuat ketahanan masyarakat terhadap tantangan yang dibawa oleh model generatif yang semakin meyakinkan. Secara khusus, kami menganjurkan langkah-langkah seperti:
- Menghentikan secara bertahap autentikasi berbasis suara sebagai langkah keamanan untuk mengakses rekening bank dan informasi sensitif lainnya
- Menjelajahi kebijakan untuk melindungi penggunaan suara individu dalam AI
- Mengedukasi publik dalam memahami kemampuan dan keterbatasan teknologi AI, termasuk kemungkinan adanya konten AI yang menyesatkan
- Mempercepat pengembangan dan adopsi teknik untuk melacak asal konten audiovisual, sehingga selalu jelas saat Anda berinteraksi dengan orang sungguhan atau dengan AI
Penting agar orang-orang di seluruh dunia memahami ke mana arah teknologi ini, baik kami pada akhirnya menerapkannya secara luas sendiri maupun tidak. Kami menantikan untuk terus terlibat dalam diskusi mengenai tantangan serta peluang suara sintetis dengan pembuat kebijakan, peneliti, pengembang, dan kreator.


