28 Agustus 2025

Ngenalake gpt-realtime lan pembaruan Realtime API kanggo agen swara produksi

Kami ngrilis model wicara menyang wicara sing luwih canggih lan kemampuan API anyar kalebu dhukungan server MCP, input gambar, lan dhukungan nelpon telpon SIP.

Antarmuka bergaya sing nuduhake interaksi swara. Ing tengah ana pamuter audio persegi panjang sudut bunder kanthi visualisasi gelombang, tombol putar/jeda, indikator status “Agen online”, lan cap wektu 00:35. Garis lengkung putih kanthi titik mili nyabrang gambar, nggambarake audio langsung utawa gerakan sinyal. Latar mburi biru cerah kanthi wangun kembang samar ing nada jambon lan ungu.

Lagi dimuat…

Dina iki kami nggawe Realtime API kasedhiya umum kanthi fitur anyar sing ngidini pangembang lan perusahaan mbangun agen swara sing andal lan siap produksi. API saiki ndhukung server MCP remot, input gambar, lan nelpon telpon liwat Session Initiation Protocol (SIP), nggawe agen swara luwih mumpuni liwat akses menyang alat lan konteks tambahan.

Kami uga ngrilis model wicara menyang wicara paling canggih nganti saiki—gpt-realtime. Model anyar iki nuduhake peningkatan ing nuruti instruksi rumit, nelpon alat kanthi presisi, lan ngasilake wicara sing muni luwih alami lan ekspresif. Model iki luwih apik nerjemahake pesen sistem lan prompt pangembang—apa iku maca skrip disklaimer tembung demi tembung ing telpon dhukungan, mbaleni alfanumerik, utawa pindhah basa kanthi mulus ing tengah ukara. Kami uga ngrilis rong swara anyar, Cedar lan Marin, sing kasedhiya eksklusif ing Realtime API wiwit dina iki.

Wiwit pisanan ngenalake Realtime API ing beta publik Oktober kepungkur, ewonan pangembang wis mbangun nganggo API iki lan mbantu mbentuk peningkatan sing kami rilis dina iki—dioptimalake kanggo keandalan, latensi rendah, lan kualitas dhuwur supaya bisa nyebarake agen swara ing produksi kanthi sukses. Ora kaya pipeline tradisional sing ngrangkai pirang-pirang model ing speech-to-text lan text-to-speech, Realtime API ngolah lan ngasilake audio langsung liwat siji model lan API. Iki nyuda latensi, njaga nuansa ing wicara, lan ngasilake tanggapan sing luwih alami lan ekspresif.

“Model wicara menyang wicara anyar ing Realtime API saka OpenAI nuduhake nalar sing luwih kuwat lan wicara sing luwih alami—saengga bisa nangani panjalukan rumit lan multi-langkah kaya nyaring listing adhedhasar kabutuhan gaya urip utawa nuntun diskusi keterjangkauan nganggo alat kaya skor BuyAbility kami. Iki bisa nggawe nggoleki omah ing Zillow utawa njelajah opsi pembiayaan krasa alami kaya ngobrol karo kanca, lan mbantu nyederhanakake keputusan kaya tuku, adol, lan nyewa omah.”

– Josh Weisberg, Head of AI ing Zillow

Ngenalake gpt-realtime

Model wicara menyang wicara anyar—gpt-realtime—yaiku model swara kami sing paling canggih lan siap produksi. Kami nglatih model iki kanthi kolaborasi raket karo pelanggan supaya unggul ing tugas nyata kaya dhukungan pelanggan, asistensi pribadi, lan pendidikan—nyelarasake model karo cara pangembang mbangun lan nyebarake agen swara. Model iki nuduhake peningkatan ing kualitas audio, kecerdasan, manut instruksi, lan nelpon fungsi.

Kualitas audio

Obrolan sing muni alami iku penting kanggo nyebarake agen swara ing donya nyata. Model kudu ngomong kanthi intonasi, emosi, lan tempo kaya manungsa kanggo nggawe pengalaman sing nyenengake lan nyengkuyung obrolan terus-terusan karo pangguna. Kami nglatih gpt-realtime kanggo ngasilake wicara kualitas luwih dhuwur sing muni luwih alami lan bisa nuruti instruksi rinci, kayata “omonga kanthi cepet lan profesional” utawa “omonga kanthi empatik nganggo aksen Prancis.”

Kami ngrilis rong swara anyar ing API, Marin lan Cedar, kanthi peningkatan paling gedhe kanggo wicara sing muni alami. Kami uga nganyari wolung swara lawas kami supaya entuk manfaat saka peningkatan iki.

Conto swara - Marin

Conto swara - Cedar

Kecerdasan lan pemahaman

gpt-realtime nuduhake kecerdasan luwih dhuwur lan bisa mangerteni audio asli kanthi akurasi luwih gedhe. Model iki bisa nyekel isyarat non-verbal (kaya ngguyu), pindhah basa ing tengah ukara, lan nyetel nada (“cepet lan profesional” vs. “apik lan empatik”). Miturut evaluasi internal, model iki uga nuduhake kinerja luwih akurat kanggo ndeteksi urutan alfanumerik (kayata nomer telpon, VIN, lsp) ing basa liya, kalebu Spanyol, Tionghoa, Jepang, lan Prancis. Ing eval Big Bench Audio sing ngukur kemampuan nalar, gpt-realtime entuk akurasi 82.8%—ngungkuli model sadurunge saka Desember 2024, sing entuk 65.6%.

Benchmark Big Bench Audio⁠(mbukak ing jendhela anyar) yaiku dataset evaluasi kanggo netepake kemampuan nalar model basa sing ndhukung input audio. Dataset iki ngadaptasi pitakon saka Big Bench Hard—dipilih amarga pengujiane ketat kanggo nalar tingkat lanjut—menyang domain audio.

Manut instruksi

Nalika mbangun aplikasi wicara menyang wicara, pangembang menehi sekumpulan instruksi marang model babagan cara tumindak, kalebu cara ngomong, apa sing kudu diucapake ing kahanan tartamtu, lan apa sing kudu utawa ora kudu ditindakake. Kami fokusake peningkatan kami marang kepatuhan marang instruksi iki, supaya arah cilik sekalipun nggawa sinyal luwih kuat kanggo model. Ing benchmark audio MultiChallenge sing ngukur akurasi manut instruksi, gpt-realtime entuk 30.5%, peningkatan signifikan tinimbang model sadurunge saka Desember 2024 sing entuk 20.6%.

MultiChallenge⁠(mbukak ing jendhela anyar) ngevaluasi sepira apike LLM nangani obrolan multi-giliran karo manungsa. Iki fokus ing patang kategori tantangan realistis sing angel ditangani model tercanggih saiki. Tantangan iki mbutuhake model nggabungake manut instruksi, manajemen konteks, lan nalar ing konteks bebarengan. Kami ngowahi subset pitakon tes sing ramah audio saka text-to-speech kanggo nggawe versi audio saka evaluasi iki.

Nelpon fungsi

Kanggo mbangun agen swara sing mumpuni nganggo model wicara menyang wicara, model kudu bisa nelpon alat sing pas ing wektu sing pas supaya migunani ing produksi. Kami wis ningkatake nelpon fungsi ing telung sumbu: nelpon fungsi sing relevan, nelpon fungsi ing wektu sing cocog, lan nelpon fungsi kanthi argumen sing cocog (asilé akurasi luwih dhuwur). Ing eval audio ComplexFuncBench sing ngukur kinerja nelpon fungsi, gpt-realtime entuk 66.5%, dene model sadurunge saka Desember 2024 entuk 49.7%.

Kami uga nggawe peningkatan ing nelpon fungsi asinkron⁠(mbukak ing jendhela anyar). Telpon fungsi sing mlaku suwe ora bakal maneh ngganggu alur sesi—model bisa nerusake obrolan sing lancar nalika ngenteni asil. Fitur iki kasedhiya native ing gpt-realtime, mula pangembang ora perlu nganyari kode.

ComplexFuncBench⁠(mbukak ing jendhela anyar) ngukur sepira apike model nangani tugas nelpon fungsi sing tantangan. Iki ngevaluasi kinerja ing macem-macem skenario kaya telpon multi-langkah, nalar babagan watesan utawa parameter implisit, lan nangani input sing dawa banget. Kami ngowahi prompt teks asli dadi wicara kanggo mbangun evaluasi iki kanggo model kami.

Anyar ing Realtime API

Dhukungan server MCP remot

Sampeyan bisa ngaktifake dhukungan MCP ing sesi Realtime API kanthi ngirim URL server MCP remot menyang konfigurasi sesi. Sawise nyambung, API kanthi otomatis nangani telpon alat kanggo sampeyan, dadi ora perlu nyambungake integrasi kanthi manual.

Setelan iki nggampangake sampeyan nambah kemampuan anyar menyang agen—cukup arahake sesi menyang server MCP liyane, lan alat-alat kasebut langsung kasedhiya. Kanggo sinau luwih lengkap babagan konfigurasi MCP nganggo Realtime, delengen pandhuan iki⁠(mbukak ing jendhela anyar).

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

Input gambar

Amarga input gambar saiki didhukung ing gpt-realtime, sampeyan bisa nambah gambar, foto, lan tangkapan layar bebarengan karo audio utawa teks menyang sesi Realtime API. Saiki model bisa nglelandhesi obrolan adhedhasar apa sing tenan dideleng pangguna, ngidini pangguna takon kaya “apa sing sampeyan deleng?” utawa “wacanen teks ing tangkapan layar iki.”

Tinimbang nambani gambar kaya aliran video langsung, sistem nambani kaya nambahake gambar menyang obrolan. Aplikasi sampeyan bisa mutusake gambar endi sing bakal dienggo bareng karo model lan kapan arep dibagekake. Kanthi cara iki, sampeyan tetep ngontrol apa sing dideleng model lan kapan model nanggapi.

Delengen dokumen⁠(mbukak ing jendhela anyar) kami kanggo miwiti nganggo input gambar.

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

Kemampuan tambahan

Kami nambah sawetara fitur liyane supaya Realtime API luwih gampang diintegrasi lan luwih fleksibel kanggo panggunaan produksi.

Dhukungan Session Initiation Protocol (SIP): Sambungake aplikasi sampeyan menyang jaringan telpon publik, sistem PBX, telpon meja, lan titik pungkasan SIP liyane kanthi dhukungan langsung ing Realtime API. Wacanen ing dokumen.⁠(mbukak ing jendhela anyar)
Prompt sing bisa digunakake maneh: Saiki sampeyan bisa nyimpen lan nggunakake maneh prompt—sing kasusun saka pesen pangembang, alat, variabel, lan conto pesen pangguna/asisten—ing macem-macem sesi Realtime API, kaya ing Responses API. Sinau luwih lengkap ing dokumen.⁠(mbukak ing jendhela anyar)

Keamanan & privasi

Realtime API nggabungake pirang-pirang lapisan perlindungan lan mitigasi kanggo mbantu nyegah penyalahgunaan. Sampeyan bisa sinau luwih lengkap babagan pendekatan keamanan kami lan rincian kertu sistem ing blog pengumuman beta⁠. Kami nggunakake classifier aktif ing sesi Realtime API, tegese obrolan tartamtu bisa dihentikan yen dideteksi nglanggar pandhuan konten mbebayani kami. Pangembang uga bisa kanthi gampang nambah guardrail keamanan tambahan dhewe nganggo Agents SDK⁠(mbukak ing jendhela anyar).

Kabijakan panggunaan⁠ kami nglarang nggunakke maneh utawa nyebarake output saka layanan kami kanggo spam, penipuan, utawa tujuan mbebayani liyane. Pangembang uga kudu nerangake kanthi cetha marang pangguna pungkasan nalika dheweke sesambungan karo AI, kajaba yen wis cetha saka konteks. Realtime API nggunakake swara prasetel kanggo mbantu nyegah pelaku jahat nyamar dadi wong liya.

Realtime API ndhukung kanthi lengkap EU Data Residency⁠(mbukak ing jendhela anyar) kanggo aplikasi sing basisé ing EU lan kalebu ing komitmen privasi perusahaan⁠ kami.

Rega & kasedhiyan

Realtime API sing wis kasedhiya umum lan model gpt-realtime anyar kasedhiya kanggo kabeh pangembang wiwit dina iki. Kami nyuda rega gpt-realtime nganti 20% dibandhingake gpt-4o-realtime-preview—$32 / 1M token input audio ($0.40 kanggo token input cache) lan $64 / 1M token output audio (delengen rincian rega⁠(mbukak ing jendhela anyar)). Kami uga nambah kontrol rinci kanggo konteks obrolan supaya pangembang bisa nyetel wates token sing cerdas lan memangkas pirang-pirang giliran sekaligus, kanthi signifikan nyuda biaya kanggo sesi dawa.

Kanggo miwiti, bukak dokumentasi Realtime API⁠(mbukak ing jendhela anyar) kami, coba model anyar ing Playground⁠(mbukak ing jendhela anyar), lan delengen pandhuan prompting Realtime API⁠(mbukak ing jendhela anyar) kami.