Kami ngenalake telung model audio ing API sing mbukak kelas anyar app swara kanggo para developer. Kanthi model iki, developer bisa mbangun pengalaman swara sing krasa luwih alami, nanggapi kanthi luwih cerdas, lan njupuk tumindak kanthi realtime:
- GPT‑Realtime‑2, model swara pisanan kami kanthi nalar kelas GPT‑5 sing bisa nangani panjalukan sing luwih angel lan nerusake obrolan kanthi alami.
- GPT‑Realtime‑Translate, model terjemahan langsung anyar sing nerjemahake wicara saka 70+ basa input menyang 13 basa output nalika tetep ngimbangi penutur.
- GPT‑Realtime‑Whisper, speech-to-text streaming anyar sing transkripsi wicara langsung nalika penutur lagi ngomong.
Coba GPT-Realtime-2
Apa sing bisa tak takonaké?
Sawisé njenengan miwiti sesi, coba ngomong salah siji saka iki:
- Aku arep nganakake nedha bengi dadakan bengi iki. Aku nduwèni 30 menit, loro kanca vegetarian, siji sing ora seneng jamur, lan pawon cilik banget. Tulung aku ngrancang menu sing prasaja.
- Aku lagi nyambut para tamu ing acara langsung sing dianakake ing Jepang. Ucapna sambutan sing anget lan alami nganggo basa Jepang — kaya tuan rumah sing miwiti sawijining acara sing istimewa.
- Nomer pesananku yaiku Orbit-742Q. Baleni maneh kanthi cetha supaya aku bisa mesthekaké manawa kuwi bener.
- Tulung aku latihan ngandhani timku yen kita wis nggayuh tonggak peluncuran kita. Pisanan, ucapna kanthi yakin nanging anteng, banjur kanthi luwih semangat.
- Aku ngrancang kuis trivia kanggo lelungan nganggo mobil. Wènèhana aku telung pitakonan jebakan sing katon gampang banget nanging ngecoh, banjur terangna saben wangsulané nganggo siji ukara.
Demo iki diwatesi wektu. Kanthi nggunakake iki, njenengan setuju karo Ketentuan OpenAI lan ngakoni Kabijakan Privasi kita.
Swara dadi salah siji cara sing paling alami kanggo wong nggunakake piranti lunak. Iki ngidini wong njaluk pitulungan nalika nyopir, ngganti rencana lelungan nalika mlaku ing bandara, njaluk dhukungan nganggo basa sing disenengi, utawa ngrampungake tugas tanpa mandheg ngetik.
Nanging, mbangun produk swara sing migunani butuh luwih saka sekadar giliran tanggapan sing cepet utawa swara sing muni alami. Agen swara kudu paham maksud wong, njaga konteks, pulih nalika panjalukan berubah, nggunakake piranti nalika obrolan terus lumaku, lan nanggapi kanthi cara sing cocog karo wektu kasebut.
Bebarengan, model sing lagi kami luncurake iki nggeser audio realtime saka pola tanya-jawab sing prasaja menyang antarmuka swara sing tenan bisa nindakake pakaryan: ngrungokake, nalar, nerjemahake, transkripsi, lan njupuk tumindak nalika obrolan berkembang.
Amarga swara dadi cara sing luwih alami kanggo nggunakake piranti lunak, kami ndeleng developer mbangun ing sekitar telung pola sing lagi muncul ing AI swara:
- Voice-to-action, ing ngendi wong bisa nerangake kabutuhané lan sistem bisa nalar panjalukan kasebut, nggunakake piranti, lan ngrampungake tugas. Contone, Zillow lagi mbangun asisten sing bisa ngrungokake, nalar, lan tumindak marang panjalukan kaya: “golekna omah kanggo aku ing jero BuyAbility-ku, aja cedhak dalan rame, lan jadwalna tur kanggo Setu.”
- Systems-to-voice, ing ngendi piranti lunak bisa ngowahi konteks dadi pandhuan lisan langsung. Contone, app lelungan bisa kanthi proaktif ngomong marang lelungan: “Penerbangan mlebu sampeyan telat, nanging sampeyan isih bisa nyekel sambungan. Aku wis nemokake gapura anyar, memetakake rute paling cepet liwat terminal, lan tas sampeyan isih diarepake pindhah.”
- Voice-to-voice, ing ngendi AI bisa mbantu obrolan langsung terus lumaku lintas basa, tugas, utawa konteks sing berubah. Contone, Deutsche Telekom lagi mbangun pengalaman dhukungan swara ing ngendi pelanggan bisa ngomong nganggo basa sing paling nggawe nyaman, nalika model nerjemahake obrolan kanthi realtime.
Pola-pola iki uga bisa digunakake bebarengan. Priceline lagi ngarah menyang masa depan ing ngendi lelungan bisa ngatur kabeh perjalanan nganggo swara: nggoleki penerbangan lan hotel kanthi obrolan, nangani owah-owahan kaya nyetel reservasi hotel sawisé keterlambatan penerbangan utawa entuk kabar realtime babagan wektu ngenteni TSA, lan nerjemahake obrolan nalika lelungan wis tekan panggonan.
GPT‑Realtime‑2 dibangun kanggo interaksi swara langsung nalika model njaga obrolan tetep maju nalika nalar panjalukan, nelpon piranti, nangani koreksi utawa interupsi, lan nanggapi kanthi cara sing pas karo wektu kasebut.
- Preambles: Developer bisa ngaktifake frasa cekak sadurunge tanggapan utama, kaya “tak priksa dhisik” utawa “sedhela, tak goleki,” supaya pangguna ngerti agen lagi nggarap panjalukané.
- Parallel tool calls and tool transparency: Model bisa nelpon pirang-pirang piranti sekaligus lan nggawe tumindak kasebut bisa dirungokake nganggo frasa kaya “lagi mriksa tanggalan sampeyan” utawa “saiki lagi tak goleki,” mbantu agen tetep responsif nalika ngrampungake tugas.
- Stronger recovery behavior: Model bisa pulih kanthi luwih alus kanthi ngomong kaya “Saiki aku lagi ana masalah kanggo kuwi,” tinimbang meneng wae utawa ngrusak obrolan.
- Longer context for agentic workflows: Kami nambah jendhela konteks saka 32K dadi 128K kanggo ndhukung sesi sing luwih dawa, luwih runtut, lan alur tugas sing luwih kompleks.
- Stronger domain understanding: Model luwih apik njaga istilah khusus, tembung aran, istilah kesehatan, lan kosakata liyane sing penting ing setelan produksi.
- More controllable tone and delivery: Model bisa luwih apik nyetel nada—ngomong kanthi tenang nalika ngrampungake masalah, kanthi empatik nalika pangguna frustasi, utawa semangat nalika ngonfirmasi tumindak sing sukses.
- Adjustable reasoning effort: Developer saiki bisa milih saka level nalar minimal, low, medium, high, lan xhigh, kanthi low minangka gawan, supaya bisa ngimbangi latensi sing luwih cendhek kanggo interaksi sing prasaja karo nalar sing luwih tliti kanggo panjalukan rumit.
Peningkatan iki katon ing evaluasi audio sing cedhak banget karo agen swara produksi: GPT‑Realtime‑2 (high) entuk skor 15.2% luwih dhuwur ing Big Bench Audio kanggo intelijensi audio tinimbang GPT‑Realtime‑1.5. GPT‑Realtime‑2 (xhigh) entuk skor 13.8% luwih dhuwur ing Audio MultiChallenge kanggo manut instruksi, luwih apik tinimbang GPT‑Realtime‑1.5 lan nuduhake nalar, manajemen konteks, lan kontrol sing luwih kuwat ing obrolan langsung.
Big Bench Audio ngevaluasi kapabilitas nalar sing nantang ing model basa sing ndhukung input audio. Audio MultiChallenge(mbukak ing jendhela anyar) ngevaluasi intelijensi obrolan multi-giliran ing sistem dialog lisan, kalebu manut instruksi, integrasi konteks, konsistensi dhiri, lan nangani koreksi wicara alami.
Keajaiban GPT‑Realtime‑2 katon ing macem-macem kasus panggunaan:
Sajrone uji coba awal, bisnis nggunakake GPT‑Realtime‑2 kanggo mbangun agen swara sing mbantu pelanggan lan karyawan ngrampungake pakaryan liwat obrolan alami:
“Para builder, kemajuan sing terus-terusan kuwi sing dikarepake, dudu iterasi tanpa entek. GPT-5.5 nembus wates sing biasane digayuh wong ing tugas sing luwih kompleks, kaya alur autentikasi lan sinkronisasi wektu nyata, mung nganggo giliran sing adoh luwih sithik. Model iki pancen sumunar nalika pakaryane dadi angel, nangani tugas-tugas angel kanthi bolak-balik sing luwih sithik banget.”
GPT‑Realtime‑Translate mbantu developer mbangun pengalaman swara multibasa langsung ing ngendi saben wong bisa ngomong nganggo basa sing disenengi lan ngrungokake obrolan sing diterjemahake kanthi realtime lan maca transkripsi realtime. Iki ndhukung luwih saka 70 basa input lan 13 basa output, dadi migunani kanggo dhukungan pelanggan, sales lintas negara, pendidikan, acara, media, lan platform kreator sing nglayani pamirsa global.
Kanggo developer, terjemahan langsung kudu njaga makna nalika tetep ngimbangi penutur, sanajan wong ngomong kanthi alami, ganti konteks, utawa nggunakake pangucapan regional lan basa khusus domain. Contone, Deutsche Telekom lagi nyoba model iki kanggo interaksi swara multibasa, ing ngendi latensi sing luwih cendhek lan kefasihan sing luwih apik bisa nggawe obrolan lintas basa krasa luwih alami.
Ing video iki, Vimeo nuduhake carane GPT‑Realtime‑Translate bisa nerjemahake video edukasi produk kanthi langsung nalika diputer, supaya pelanggan global bisa ngrungokake kabar anyar nganggo basa sing disenengi tanpa ngenteni versi kapisah sing diprodhuksi dhewe.
“Mbangun AI swara kanggo India ateges kudu nangani fonetik regional sing maneka warna. Ing evaluasi kami kanggo Hindi, Tamil, lan Telugu, GPT-Realtime-Translate menehi Word Error Rate 12.5% luwih endhek tinimbang model liyane sing kami uji, bebarengan karo tingkat fallback sing luwih endhek, tingkat rampungé tugas sing luwih dhuwur, lan latensi sing njaga obrolan alami. Iki netepake standar anyar kanggo AI swara multibasa.”
GPT‑Realtime‑Whisper yaiku model transkripsi streaming anyar sing dibangun kanggo speech-to-text latensi endhek. Iki ntranskripsi audio nalika wong lagi ngomong, supaya produk langsung bisa krasa luwih cepet, luwih responsif, lan luwih alami—wiwit saka caption sing muncul wektu kuwi uga, nganti cathetan rapat sing bisa ngetutake obrolan.
Model iki nggawe wicara langsung bisa digunakake ing njero alur kerja bisnis nalika kedadeyan. Tim bisa nyedhiyakake caption kanggo rapat, kelas, siaran, lan acara; ngasilake cathetan lan ringkesan nalika obrolan isih lumaku; mbangun agen swara sing kudu terus paham marang pangguna; lan nggawe alur kerja tindak lanjut sing luwih cepet kanggo dhukungan pelanggan, kesehatan, sales, rekrutmen, lan interaksi lisan volume dhuwur liyane.
Realtime API nggabungake pirang-pirang lapisan perlindungan lan mitigasi kanggo mbantu nyegah panyalahgunaan. Kami nggunakake classifier aktif ing sesi Realtime API, tegese obrolan tartamtu bisa dihentikan yen dideteksi nglanggar pedoman konten mbebayani kami. Developer uga bisa kanthi gampang nambah guardrail keamanan tambahan dhewe nganggo Agents SDK.(mbukak ing jendhela anyar)
Kebijakan panggunaan kami nglarang nggunakke maneh utawa nyebarake output saka layanan kami kanggo spam, penipuan, utawa tujuan mbebayani liyane. Developer uga kudu njlentrehake kanthi cetha marang pangguna pungkasan nalika dheweke lagi sesambungan karo AI, kajaba yen kuwi wis cetha saka konteksé.
Realtime API ndhukung kanthi lengkap EU Data Residency(mbukak ing jendhela anyar) kanggo aplikasi sing adhedhasar ing EU lan kalebu ing komitmen privasi enterprise kami.
GPT‑Realtime‑2, GPT‑Realtime‑Translate lan GPT‑Realtime‑Whisper kasedhiya ing Realtime API. Rega GPT‑Realtime‑2 yaiku $32 / 1M audio input token ($0.40 kanggo token input cache) lan $64 / 1M audio output token. Rega GPT‑Realtime‑Translate yaiku $0.034 saben menit. Rega GPT‑Realtime‑Whisper yaiku $0.017 saben menit.
Sampeyan bisa nyoba model swara realtime anyar ing Playground(mbukak ing jendhela anyar).
Kanggo miwiti mbangun, bukak prompt iki ing Codex kanggo nambah GPT‑Realtime‑2 menyang app sing wis ana utawa miwiti app anyar. Yen sampeyan durung duwe Codex, unduh app Codex dhisik.


