
Hari ini, kami membuat API Realtime tersedia secara umum dengan fitur-fitur baru yang memungkinkan pengembang dan perusahaan membangun agen suara yang dapat diandalkan dan siap untuk produksi. API tersebut kini mendukung server MCP jarak jauh, input gambar, dan panggilan telepon melalui Protokol Inisiasi Sesi (Session Initiation Protocol/SIP), yang membuat agen suara memiliki kapabilitas yang lebih besar melalui akses ke alat dan konteks tambahan.
Kami juga merilis model ucapan-ke-ucapan yang paling canggih—gpt-realtime. Model baru ini menunjukkan peningkatan dalam mematuhi instruksi kompleks, memanggil alat dengan presisi, dan menghasilkan ucapan yang terdengar lebih natural dan ekspresif. Model ini lebih baik dalam menafsirkan pesan sistem dan prompt pengembang—baik ketika membaca naskah penafian kata demi kata dalam sebuah panggilan dukungan, mengulang kembali alfanumerik, atau beralih bahasa tanpa hambatan di tengah-tengah kalimat. Kami juga merilis dua suara baru, Cedar dan Marin, yang tersedia khusus di API Realtime mulai hari ini.
Sejak kami memperkenalkan API Realtime dalam beta publik Oktober lalu, ribuan pengembang telah membangun dengan API tersebut dan membantu membentuk peningkatan yang kami rilis hari ini—yang dioptimalkan untuk keandalan, latensi rendah, dan kualitas tinggi untuk meluncurkan agen suara dengan sukses dalam produksi. Tidak seperti jalur tradisional yang menyatukan beberapa model pada ucapan-ke-teks dan teks-ke-ucapan, API Realtime memproses dan menghasilkan audio secara langsung melalui model tunggal dan API. Ini mengurangi latensi, menjaga nuansa dalam ucapan, dan menghasilkan respons yang lebih natural dan ekspresif.
“Model ucapan-ke-ucapan yang baru pada API Realtime OpenAI menunjukkan penalaran yang lebih kuat dan pengucapan yang lebih natural—memungkinkannya untuk menangani permintaan kompleks dan multilangkah, seperti mempersempit daftar properti berdasarkan kebutuhan gaya hidup atau memandu diskusi keterjangkauan menggunakan alat seperti skor BuyAbility kami. Ini dapat membuat pencarian rumah di Zillow atau menjelajahi opsi pembiayaan terasa natural seperti bercakap-cakap dengan teman, membantu menyederhanakan keputusan, seperti membeli, menjual, dan menyewa rumah.”
– Josh Weisberg, Head of AI di Zillow
Model ucapan-ke-ucapan yang baru—gpt-realtime—adalah model suara kami yang paling canggih dan siap produksi. Kami melatih model tersebut melalui kolaborasi yang erat dengan pelanggan agar unggul dalam tugas dunia nyata, seperti dukungan pelanggan, bantuan personal, dan edukasi—menyelaraskan model dengan cara pengembang membangun dan mengerahkan agen suara. Model tersebut menunjukkan peningkatan dalam kualitas audio, kecerdasan, kepatuhan terhadap instruksi, dan pemanggilan fungsi.
Percakapan yang terdengar natural sangat penting bagi penerapan agen suara di dunia nyata. Model harus dapat berbicara dengan intonasi, emosi, dan kecepatan manusia untuk menciptakan pengalaman yang menyenangkan dan mendorong percakapan berkelanjutan dengan pengguna. Kami melatih gpt-realtime untuk menghasilkan ucapan dengan kualitas yang lebih tinggi yang terdengar lebih natural dan dapat mengikuti instruksi yang terperinci, seperti “bicara dengan cepat dan profesional” atau “bicara dengan empati dalam aksen Prancis.”
Kami merilis dua suara baru dalam API, Marin dan Cedar dengan peningkatan paling signifikan terhadap ucapan yang terdengar natural. Kami juga sedang memperbarui delapan suara yang ada agar mendapat manfaat dari peningkatan ini.
gpt-realtime menunjukkan kecerdasan yang lebih tinggi dan memahami audio asli dengan akurasi yang lebih baik. Model tersebut dapat menangkap isyarat nonverbal (seperti tawa), beralih bahasa di tengah-tengah kalimat, dan menyesuaikan nada (“cepat dan profesional” vs. “ramah dan berempati”). Berdasarkan evaluasi internal, model tersebut juga menunjukkan kinerja yang lebih akurat dalam mendeteksi urutan alfanumerik (seperti nomor telepon, Nomor STNK, dll) dalam bahasa lain, termasuk bahasa Spanyol, Tionghoa, Jepang, dan Prancis. Pada evaluasi Big Bench Audio yang mengukur kapabilitas penalaran, gpt-realtime mendapatkan skor akurasi 82,8%—mengalahkan model sebelumnya pada Desember 2024, yang mendapatkan skor 65,6%.
Tolok ukur Big Bench Audio(terbuka di jendela baru) adalah kumpulan data evaluasi untuk menilai kemampuan penalaran model bahasa yang mendukung input audio. Kumpulan data ini mengadaptasi pertanyaan dari Big Bench Hard—yang dipilih karena tingkat ketelitiannya dalam pengujian penalaran canggih—ke dalam domain audio.
Saat membangun aplikasi ucapan ke ucapan, pengembang memberikan sejumlah instruksi kepada model tentang cara berperilaku, termasuk cara berbicara, hal-hal yang harus dikatakan dalam situasi tertentu, dan hal-hal yang harus dilakukan dan tidak dilakukan. Kami memfokuskan peningkatan pada kepatuhan terhadap instruksi ini, agar arahan kecil sekalipun membawa lebih banyak sinyal untuk model tersebut. Pada tolok ukur audio MultiChallenge yang mengukur akurasi dalam mengikuti perintah, gpt-realtime mendapatkan skor 30,5%, yang meningkat secara signifikan dari model sebelumnya pada Desember 2024, dengan skor 20,6%.
MultiChallenge(terbuka di jendela baru) mengevaluasi seberapa baik LLM menangani percakapan multigiliran dengan manusia. Ini berfokus pada empat kategori tantangan realistis yang sulit diatasi oleh model terdepan. Tantangan-tantangan ini mengharuskan model untuk menggabungkan kepatuhan instruksi, manajemen konteks, dan penalaran dalam konteks secara bersamaan. Kami telah mengonversi subset pertanyaan tes yang ramah audio dari teks-ke-ucapan (text-to-speech) untuk membuat versi audio dari evaluasi ini.
Untuk membangun agen suara yang andal dengan model ucapan ke ucapan, model tersebut harus dapat memanggil alat yang tepat pada waktu yang tepat agar bermanfaat dalam produksi. Kami telah meningkatkan pemanggilan fungsi dalam tiga area: memanggil fungsi yang relevan, memanggil fungsi pada waktu yang tepat, dan memanggil fungsi dengan argumen yang tepat (yang menghasilkan akurasi yang lebih tinggi). Pada evaluasi audio ComplexFuncBench yang mengukur kinerja pemanggilan fungsi, gpt-realtime mendapatkan skor 66,5%, sementara model kami pada Desember 2024 mendapatkan skor 49,7%.
Kami juga melakukan perbaikan terhadap pemanggilan fungsi asinkron(terbuka di jendela baru). Panggilan fungsi jangka panjang tidak akan lagi mengganggu alur sesi—model dapat melanjutkan percakapan selagi menunggu hasil. Fitur ini tersedia secara bawaan pada gpt-realtime, sehingga pengembang tidak perlu memperbarui kode mereka.
ComplexFuncBench(terbuka di jendela baru) mengukur seberapa baik model menangani tugas pemanggilan fungsi yang menantang. Pengujian ini mengevaluasi kinerja di segala skenario, seperti panggilan multilangkah, penalaran tentang batasan atau parameter implisit, menangani input yang sangat panjang. Kami telah mengonversi prompt teks asli menjadi ucapan guna membangun evaluasi ini untuk model kami.
Anda dapat mengaktifkan dukungan MCP pada sesi API Realtime dengan memasukkan URL server MCP jarak jauh ke konfigurasi sesi. Setelah tersambung, API akan menangani panggilan alat secara otomatis untuk Anda, sehingga tidak perlu menyambungkan integrasi secara manual.
Pengaturan ini memudahkan untuk membekali agen Anda dengan kemampuan baru—cukup arahkan sesi ke server MCP yang berbeda, dan alat tersebut akan langsung tersedia. Untuk mempelajari lebih lanjut tentang konfigurasi MCP dengan Realtime, lihat panduan ini(terbuka di jendela baru).
Karena input gambar kini didukung di gpt-realtime, Anda dapat menambahkan gambar, foto, dan tangkapan layar, selain audio atau teks, ke sesi API Realtime. Sekarang, model tersebut dapat menjadikan hal yang dilihat pengguna sebagai dasar percakapan, sehingga pengguna dapat mengajukan pertanyaan, seperti “apa yang Anda lihat?” atau “baca teks dalam tangkapan layar ini.”
Bukannya memperlakukan gambar seperti streaming video langsung, sistem memperlakukannya seperti menambahkan gambar ke dalam percakapan. Aplikasi Anda memutuskan gambar mana yang akan dibagikan dengan model dan kapan membagikannya. Dengan ini, Anda tetap memegang kendali atas apa yang dilihat oleh model dan kapan model tersebut merespons.
Lihat dokumen(terbuka di jendela baru) kami untuk memulai dengan input gambar.
Kami telah menambahkan beberapa fitur lain untuk membuat API Realtime lebih mudah untuk diintegrasikan dan lebih fleksibel untuk penggunaan produksi.
- Dukungan Protokol Inisiasi Sesi (SIP): Sambungkan aplikasi Anda dengan jaringan telepon publik, sistem PBX, telepon rumah, dan endpoint SIP lainnya dengan dukungan langsung di API Realtime. Baca tentang hal ini dalam dokumen.(terbuka di jendela baru)
- Prompt yang dapat digunakan kembali: Sekarang, Anda dapat menyimpan dan menggunakan kembali prompt—yang terdiri dari pesan pengembang, alat, variabel, dan contoh pesan pengguna/asisten—sepanjang sesi API Realtime, seperti dalam API Respons. Pelajari selengkapnya dalam dokumen.(terbuka di jendela baru)
API Realtime memadukan berbagai lapisan perlindungan dan mitigasi untuk membantu mencegah penyalahgunaan. Anda dapat mempelajari selengkapnya tentang pendekatan keselamatan kami dan detail kartu sistem dalam blog pengumuman beta. Kami menggunakan pengklasifikasi aktif terhadap sesi API Realtime, yang berarti setiap percakapan tertentu dapat dihentikan jika terdeteksi melanggar pedoman konten berbahaya kami. Pengembang juga dapat menambahkan pelindung keselamatan tambahan menggunakan SDK Agen(terbuka di jendela baru)
Kebijakan penggunaan kami melarang penggunaan kembali atau distribusi output dari layanan kami untuk spam, penipuan, atau tujuan membahayakan lainnya. Pengembang juga harus membuatnya jelas bagi pengguna akhir saat mereka berinteraksi dengan AI, kecuali jika sudah jelas dari konteks. API Realtime menggunakan suara preset untuk membantu mencegah pelaku kejahatan berpura-pura menjadi orang lain.
API Realtime sepenuhnya mendukung Residensi Data UE(terbuka di jendela baru) untuk aplikasi yang berbasis di UE dan dicakup oleh komitmen privasi perusahaan dari kami.
API Realtime yang secara umum tersedia dan model gpt-realtime baru tersedia untuk semua pengembang mulai hari ini. Kami akan mengurangi harga untuk gpt-realtime sebesar 20% dibandingkan gpt-4o-realtime-preview—$32 / 1juta token input audio ($0,40 untuk token input dengan cache) dan $64 / 1 juta token output audio (lihat harga terperinci(terbuka di jendela baru)). Kami juga telah menambahkan kontrol yang disempurnakan untuk konteks percakapan agar pengembang dapat menetapkan batas token cerdas dan memotong beberapa giliran pada satu waktu, yang mengurangi biaya secara signifikan untuk sesi panjang.
Untuk memulai, kunjungi dokumentasi API Realtime(terbuka di jendela baru) kami, uji model baru di Playground(terbuka di jendela baru), dan lihat panduan prompt API Realtime(terbuka di jendela baru) kami.


