Agosto 28, 2025

Pagpapakilala ng gpt-realtime at mga update sa Realtime API para sa mga agent ng boses sa produksyon

Naglalabas kami ng mas advanced na modelo ng speech-to-speech at mga bagong kakayahan ng API kabilang ang suporta sa MCP server, input ng larawan, at suporta sa pagtawag sa telepono ng SIP.

Nakaistilong interface na nagpapakita ng interaksyon sa boses. Ang nakasentro ay isang bilugan na hugis-parihaba na audio player na may biswalisasyon ng waveform, pindutan ng play/pause, tagapagpahiwatig ng status na "Agent online", at oras na 00:35. Ang mga puting kurbang linya na may mga tuldok ay dumadaloy sa buong larawan, na nagpapahiwatig ng live na audio o paggalaw ng signal. Ang likuran ay matingkad na asul na may malabong mga hugis ng bulaklak na kulay rosas at lila.

Naglo-load…

Ngayon, ginagawa naming magagamit ng lahat ang Realtime API na may mga bagong tampok na nag-e-enable sa mga developer at negosyo na bumuo ng maaasahan at handa na sa produksyon na mga agent ng boses. Sinusuportahan na ngayon ng API ang mga remote na server ng MCP, mga Input ng larawan, at pagtawag sa telepono sa pamamagitan ng session Initiation Protocol (SIP), na ginagawang mas may kakayahan ang mga agent ng boses sa pamamagitan ng pag-access sa mga karagdagang mga tool at konteksto.

Ilalabas din namin ang aming pinaka-advanced na modelo ng speech-to-speech—gpt-realtime. Ang bagong modelo ay nagpapakita ng mga pagpapahusay sa pagsunod sa mga kumplikadong tagubilin, tool sa pagtawag na may katumpakan, at paggawa ng pagsasalita na mas natural at mas may damdamin. Mas mahusay ito sa pagbibigay-kahulugan sa mga mensahe ng system at mga prompt ng developer—kung iyon man ay literal na pagbabasa ng mga script sa pagtatanggi sa panahaon ng tawag sa suporta, pag-uulit ng mga alphanumeric, o paglipat nang walang putol sa pagitan ng mga wika sa kalagitnaan ng pangungusap. Maglalabas din kami ng dalawang bagong boses, sina Cedar at Marin, na eksklusibong magagamit sa Realtime API simula ngayon.

Mula nang una naming ipakilala ang Realtime API sa pampublikong beta noong nakaraang Oktubre, libu-libong developer ang gumamit ng API at tumulong sa paghubog ng mga pagpapabuti na inilalabas namin ngayon—na-optimize para sa pagiging maaasahan, mababang latency, at mataas na kalidad upang matagumpay na ma-deploy ang mga voice agent sa produksyon. Hindi tulad ng mga tradisyunal na pipeline na nag-uugnay ng maraming modelo sa buong speech-to-text at text-to-speech, ang Realtime API ay nagpoproseso at bumubuo ng audio nang direkta sa pamamagitan ng iiisang modelo at API. Binabawasan nito ang latency, pinapanatili ang mga detalye sa pagsasalita, at gumagawa ng mas natural at mas nagpapahayag na mga tugon.

"Ang bagong modelo ng speech-to-speech sa Realtime API ng OpenAI ay nagpapakita ng mas mahusay na pangangatuwiran at mas natural na pagsasalita—upang mapangasiwaan nito ang mga kumplikado, maraming hakbang na kahilingan tulad ng pagpapaliit ng mga listahan ayon sa mga pangangailangan sa pamumuhay, o paggabay sa mga talakayan ukol sa abot-kayang tools tulad ng aming BuyAbility score. Kaya nitong gawing kasing natural ng pakikipag-usap sa isang kaibigan ang paghahanap ng bahay sa Zillow o pagsisiyat ng mga opsyon sa pinansya, na nakakatulong sa pagpapasimple ng mga desisyon tulad ng pagbili, pagbebenta, at pag-upa ng bahay.

– Josh Weisberg, Pinuno ng AI sa Zillow

Ipinakikilala ang gpt-realtime

Ang bagong modelo ng speech-to-speech—gpt-realtime—ay ang aming pinaka-advanced at handa na para sa produksyon na modelo ng boses. Sinanay namin ang modelo nang nakikipagtulungan nang husto sa mga customer upang magtagumpay sa mga totoong gawain tulad ng suporta sa customer, personal na tulong, at edukasyon—habang inaayon ang modelo sa paraan ng pagbuo at pag-deploy ng mga developer ng mga agent ng boses. Ipinapakita ng modelo ang mga pagpapahusay sa kalidad ng audio, talino, pagsunod sa mga tagubilin, at pagtawag ng mga function.

Kalidad ng audio

Ang natural na tunog ng pag-uusap ay mahalaga para sa pag-deploy ng mga agent ng boses sa totoong mundo. Kailangang makipag-usap ang mga modelo nang may intonasyon, damdamin, at bilis ng isang tao upang makalikha ng kasiya-siyang karanasan at makahikayat ng tuloy-tuloy na pag-uusap sa mga user. Sinanay namin ang gpt-realtime upang makabuo ng mas mataas na kalidad na pagsasalita na mas natural ang tunog at kayang sundin ang mga detalyadong tagubilin, tulad ng "magsalita nang mabilis at propesyonal" o "magsalita nang may empatiya gamit ang puntong Pranses."

Maglalabas kami ng dalawang bagong boses sa API, sina Marin at Cedar, na may pinakamaraming pagpapahusay sa natural na tunog ng pagsasalita. Ina-update din namin ang aming umiiral na walong boses upang makinabang mula sa mga pagpapahusay na ito.

Halimbawang boses - Marin

Halimbawang boses - Cedar

Katalinuhan at pag-unawa

Ang gpt-realtime ay nagpapakita ng mas mataas na katalinuhan at kayang maunawaan ang katutubong audio nang may higit na katumpakan. Kayang makuha ng modelo ang mga di-berbal na pahiwatig (tulad ng mga tawa), magpalit ng wika sa kalagitnaan ng pangungusap, at iakma ang tono ("masigla at propesyonal" kumpara sa "mabait at may malasakit"). Ayon sa mga panloob na pagsusuri, ang modelo ay nagpapakita rin ng mas tumpak na pagganap sa pagtuklas ng mga pagkakasunud-sunod ng alphanumeric (tulad ng mga numero ng telepono, VIN, atbp.) sa iba pang mga wika, kabilang ang Espanyol, Intsik, Hapon, at Pranses. Sa Big Bench Audio na pagsusuri na sumusukat sa mga kakayahan sa pangangatuwiran, ang gpt-realtime ay nakakuha ng 82.8% katumpakan—tinalo ang aming nakaraang modelo mula Disyembre 2024, na may markang 65.6%.

Ang Big Bench Audio⁠(magbubukas sa bagong window) na pamantayan ay isang dataset ng pagsusuri para sa pagtatasa ng mga kakayahan sa pangangatuwiran ng mga modelo ng wika na may suporta sa audio input. Ang dataset na ito ay umaangkop sa mga tanong mula sa Big Bench Hard—pinili para sa mahigpit na pagsusuri ng advanced na pangangatuwiran—sa larangan ng audio.

Pagsunod sa mga tagubilin

Kapag gumagawa ng isang application na speech-to-speech, nagbibigay ang mga developer ng mga tagubilin sa modelo kung paano kumilos, kabilang ang kung paano magsalita, ano ang sasabihin sa isang partikular na sitwasyon, at ano ang dapat o hindi dapat gawin. Nakatuon kami sa aming mga pagpapahusay sa pagsunod sa mga tagubilin na ito, upang kahit na ang maliliit na direksyon ay magdala ng mas maraming signal para sa modelo. Sa MultiChallenge na pamantayan ng audio na sumusukat sa katumpakan ng pagsunod sa mga tagubilin, ang gpt-realtime ay nakakuha ng 30.5%, isang makabuluhang pagpapahusay mula sa aming nakaraang modelo noong Disyembre 2024, na nakakuha ng 20.6%.

Sinusuri ng MultiChallenge⁠(magbubukas sa bagong window) kung gaano kahusay ang pangangasiwa ng mga LLM sa mga maramihang palitan ng pag-uusap sa mga tao. Nakatuon ito sa apat na kategorya ng makatotohanang mga hamon kung saan nahihirapan ang kasalukuyang mga modelo frontier. Hinihiling ng mga hamong ito na pagsamahin ng mga modelo ang mga tagubilin- pagsunod, pamamahala ng konteksto, at pangangatuwiran alinsunod sa konteksto nang sabay-sabay. Kinonvert namin ang audio-friendly na subset ng mga tanong sa pagsusulit mula sa text-to-speech para gumawa ng audio na bersyon ng ebalwasyon na ito.

Pagtawag ng function

Para makabuo ng mahusay na agent ng boses gamit ang modelo ng speech-to-speech, kailangang magamit ng modelo ang tamang mga tool sa tamang oras upang maging kapaki-pakinabang sa produksyon. Pinahusay namin ang pagtawag ng mga function sa tatlong aspeto: pagtawag ng mga may-katuturang kakayahan, pagtawag ng mga function sa tamang oras, at pagtawag ng mga function na may tamang mga argumento (na nagreresulta sa mas mataas na katumpakan). Sa ComplexFuncBench na pagsusuri ng audio na sumusukat sa pagganap ng pagtawag ng kakayahan, ang gpt-realtime ay nakakuha ng 66.5%, habang ang aming nakaraang modelo mula Disyembre 2024 ay nakakuha ng 49.7%.

Nagdagdag din kami ng mga pagpapahusay sa asynchronous na pagtawag ng function⁠(magbubukas sa bagong window). Ang mga pangmatagalang tawag sa kakayahan ay hindi na makakagambala sa daloy ng session—ang modelo ay maaaring magpatuloy sa tuloy-tuloy na pag-uusap habang naghihintay ng mga resulta. Ang tampok na ay kasama sa gpt-realtime, kaya hindi na kailangang i-update ng mga developer ang kanilang code.

Sinusukat ng ComplexFuncBench⁠(magbubukas sa bagong window) kung gaano kahusay napapangasiwaan ng mga modelo ang mga mapaghamong gawain sa pagtawag ng function. Sinusuri nito ang pagganap sa mga sitwasyon tulad ng maramihang hakbang sa tawag, pangangatuwiran tungkol sa mga hadlang o implicit parameter, at pangangasiwa ng napakahabang input. Ginawa naming pagsasalita ang orihinal na mga prompt ng teksto upang makabuo ng pagsusuri na ito para sa aming modelo.

Bago sa Realtime API

Suporta sa remote na server ng MCP

Pwede mong i-enable ang suporta ng MCP sa isang Realtime API session sa pamamagitan ng pagpasa ng URL ng isang remote MCP server sa pag-configure ng session. Kapag nakakonekta na, awtomatikong pinangangasiwaan ng API ang mga tawag sa tool para sa iyo, kaya hindi mo na kailangang manu-manong i-wire ang mga integrasyon.

Pinapadali ng setup na ito na dagdagan ng mga bagong kakayahan ang iyong agent—ituro mo lang ang session sa ibang MCP server, at agad na magiging available ang mga tool na iyon. Para madagdagan ang nalalaman tungkol sa pag-configure ng MCP gamit ang Realtime, tingnan ang gabay na ito⁠(magbubukas sa bagong window).

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

Input ng larawan

Dahil sinsusuportahan na ngayon ang input ng larawan sa gpt-realtime, maaari kang magdagdag ng mga imahe, larawan, at screenshot kasama ang audio o teksto sa isang session ng Realtime API. Ngayon, pwedeng ibatay ng modelo ang pag-uusap sa kung ano ang aktuwal na nakikita ng user, na nagpapahintulot sa mga user na magtanong ng mga tanong tulad ng "ano ang nakikita mo?" o "basahin mo ang teksto sa screenshot na ito."

Sa halip na ituring ang isang larawan na parang live na video stream, itinuturing ito ng sistema na parang pagdaragdag ng larawan sa pag-uusap. Pwedeng magdesisyon ang app mo kung aling mga larawan ang ibabahagi sa modelo at kung kailan ito ibabahagi. Sa ganitong paraan, mananatili kang may kontrol sa kung ano ang nakikita ng modelo at kung kailan ito tutugon.

Tingnan ang aming mga dokumento⁠(magbubukas sa bagong window) para makapagsimula sa pag-input ng larawan.

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

Dagdag na mga kakayahan

Nagdagdag kami ng ilan pang mga tampok upang gawing mas madaling i-integrate ang Realtime API at mas maiaangkop para sa paggamit sa produksyon.

Suporta sa Session Initiation Protocol (SIP): Ikonekta mo ang iyong mga app sa pampublikong network ng telepono, mga sistema ng PBX, mga pang-desk na telepono, at iba pang mga endpoint ng SIP na may direktang suporta sa Realtime API. Basahin ito sa mga dokumento.⁠(magbubukas sa bagong window)
Mga prompt na maaaring gamitin ng paulit-ulit: Maaari mo nang i-save at muling gamitin ang mga prompt—na binubuo ng mga mensahe ng developer, mga tool, mga variable, at mga halimbawang mensahe ng user/assistant—sa mga session ng Realtime API, katulad ng sa Responses API. Dagdagan ang nalalaman sa mga dokumento.⁠(magbubukas sa bagong window)

Kaligtasan at privacy

Ang Realtime API ay naglalaman ng maraming antas ng mga pag-iingat at mga hakbang sa pagpapagaan upang makatulong na maiwasan ang maling paggamit. Pwede mong dagdagan ang nalalaman tungkol sa aming diskarte sa kaligtasan at mga detalye ng system card sa blog ng anunsyo ng beta⁠. Gumagamit kami ng mga aktibong pantukoy sa mga session ng Realtime API, ibig sabihin, maaaring itigil ang ilang pag-uusap kung matukoy na nilalabag ang mga ito sa aming mga alituntunin sa nakakapinsalang nilalaman. Madali ring makakapagdagdag ang mga developer ng kanilang sariling karagdagang mga guardrail sa kaligtasan gamit ang Agents SDK⁠(magbubukas sa bagong window).

Ipinagbabawal ng aming mga patakaran sa paggamit⁠ ang muling paggamit o pamamahagi ng mga output mula sa aming mga serbisyo para sa spam, panlilinlang, o iba pang nakakasamang layunin. Dapat ding linawin ng mga developer sa mga end user kapag nakikipag-ugnayan sila sa AI, maliban kung halata na ito mula sa konteksto. Ang Realtime API ay gumagamit ng mga preset na boses upang makatulong sa pagpigil ng mga malisyosong indibidwal na magpanggap bilang ibang tao.

Ganap na sinusuportahan ng Realtime API ang Pag-iimbak ng Data ng EU⁠(magbubukas sa bagong window) para sa mga application na nakabase sa EU at saklaw ng aming mga pangako sa pagkapribado ng enterprise⁠.

Pagpepresyo at availability

Ang available na modelo ng Realtime API at bagong gpt-realtime na para sa lahat ay magagamit ng lahat ng developer simula ngayon. Binabaan namin ang presyo ng gpt-realtime ng 20% kumpara sa gpt-4o-realtime-preview—$32 / 1M audio input tokens ($0.40 para sa cached input tokens) at $64 / 1M audio output tokens (tingnan ang detalyadong pagpepresyo⁠(magbubukas sa bagong window)). Nagdagdag din kami ng detalyadong kontrol para sa konteksto ng pag-uusap upang payagan ang mga developer na magtakda ng matatalinong limitasyon ng token at ihinto ang maramihang pagsubok nang sabay-sabay, na makabuluhang nakakabawas sa gastos sa mahabang session.

Para makapagsimula, bisitahin ang aming dokumentasyon sa Realtime API⁠(magbubukas sa bagong window), subukan ang bagong modelo sa Playground⁠(magbubukas sa bagong window), at tingnan ang aming gabay sa pag-prompt ng Realtime API⁠(magbubukas sa bagong window).