
Illum qed nagħmlu r-Realtime API ġeneralment disponibbli b’karatteristiċi ġodda li jippermettu lill-iżviluppaturi u lill-intrapriżi jibnu aġenti tal-vuċi affidabbli u lesti għall-produzzjoni. L-API issa tappoġġja servers MCP remoti, inputs ta’ immaġni, u telefonati permezz tas-Session Initiation Protocol (SIP), u tagħmel l-aġenti tal-vuċi aktar kapaċi permezz ta’ aċċess għal għodod u kuntest addizzjonali.
Qed noħorġu wkoll l-aktar mudell ta’ diskors b'diskors avvanzat tagħna s’issa—gpt-realtime. Il-mudell il-ġdid juri titjib fis-segwitu ta’ istruzzjonijiet kumplessi, is-sejħa ta’ għodod bi preċiżjoni, u l-produzzjoni ta’ diskors li jinstema’ aktar naturali u espressiv. Huwa aħjar fl-interpretazzjoni ta’ messaġġi tas-sistema u prompts tal-iżviluppaturi—kemm jekk dan ifisser li jaqra scripts ta’ ċaħda kelma b’kelma fuq sejħa ta’ appoġġ, jirrepeti lura sekwenzi alfanumeriċi, jew jaqleb bla xkiel bejn lingwi f’nofs sentenza. Qed noħorġu wkoll żewġ vuċijiet ġodda, Cedar u Marin, li huma disponibbli esklussivament fir-Realtime API mill-lum.
Mindu introduċejna għall-ewwel darba r-Realtime API fil-beta pubblika f’Ottubru li għadda, eluf ta’ żviluppaturi bnew bl-API u għenu biex jiffurmaw it-titjib li qed noħorġu llum—ottimizzat għall-affidabbiltà, latenza baxxa, u kwalità għolja biex jitqiegħdu b’suċċess aġenti tal-vuċi fil-produzzjoni. B’differenza minn pipelines tradizzjonali li jgħaqqdu flimkien diversi mudelli bejn speech-to-text u text-to-speech, ir-Realtime API tipproċessa u tiġġenera awdjo direttament permezz ta’ mudell wieħed u API waħda. Dan inaqqas il-latenza, jippreserva l-isfumaturi fid-diskors, u jipproduċi tweġibiet aktar naturali u espressivi.
“Il-mudell il-ġdid ta’ diskors b'diskors fir-Realtime API ta’ OpenAI juri raġunament aktar b’saħħtu u diskors aktar naturali—u b’hekk jista’ jimmaniġġja talbiet kumplessi b’diversi passi bħall-iffiltrar ta’ listings skont il-ħtiġijiet tal-istil ta’ ħajja jew jiggwida diskussjonijiet dwar l-affordabbiltà b’għodod bħall-punteġġ BuyAbility tagħna. Dan jista’ jagħmel it-tfittxija għal dar fuq Zillow jew l-esplorazzjoni ta’ għażliet ta’ finanzjament tħossok naturali daqs konverżazzjoni ma’ ħabib, u jgħin biex jissimplifika deċiżjonijiet bħax-xiri, il-bejgħ u l-kiri ta’ dar.”
– Josh Weisberg, Head of AI fi Zillow
Il-mudell il-ġdid ta’ diskors b'diskors—gpt-realtime—huwa l-aktar mudell tal-vuċi avvanzat u lest għall-produzzjoni tagħna. Aħna ħarriġna l-mudell f’kollaborazzjoni mill-qrib mal-klijenti biex jispikka f’kompiti tad-dinja reali bħall-appoġġ tal-klijenti, assistenza personali, u edukazzjoni—u nallinjaw il-mudell ma’ kif l-iżviluppaturi jibnu u jqiegħdu aġenti tal-vuċi. Il-mudell juri titjib fil-kwalità tal-awdjo, intelliġenza, segwitu tal-istruzzjonijiet, u sejħa għall-funzjoni.
Konverżazzjoni li tinstema’ naturali hija kritika biex jitqiegħdu aġenti tal-vuċi fid-dinja reali. Il-mudelli għandhom bżonn jitkellmu bl-intonazzjoni, l-emozzjoni, u r-ritmu ta’ bniedem biex joħolqu esperjenza pjaċevoli u jinkoraġġixxu konverżazzjoni kontinwa mal-utenti. Aħna ħarriġna gpt-realtime biex jipproduċi diskors ta’ kwalità ogħla li jinstema’ aktar naturali u jista’ jsegwi istruzzjonijiet fini, bħal “tkellem malajr u professjonalment” jew “tkellem b’empatija b’aċċent Franċiż.”
Qed noħorġu żewġ vuċijiet ġodda fl-API, Marin u Cedar, bl-aktar titjib sinifikanti fid-diskors li jinstema’ naturali. Qed naġġornaw ukoll it-tmien vuċijiet eżistenti tagħna biex jibbenefikaw minn dan it-titjib.
gpt-realtime juri intelliġenza ogħla u jista’ jifhem awdjo nattiv b’eżattezza akbar. Il-mudell jista’ jaqbad sinjali mhux verbali (bħad-daħk), jaqleb lingwi f’nofs sentenza, u jadatta t-ton (“qasir u professjonali” vs. “ġentili u empatetiku”). Skont evalwazzjonijiet interni, il-mudell juri wkoll prestazzjoni aktar preċiża fl-identifikazzjoni ta’ sekwenzi alfanumeriċi (bħal numri tat-telefon, VINs, eċċ.) f’lingwi oħra, inklużi l-Ispanjol, iċ-Ċiniż, il-Ġappuniż, u l-Franċiż. Fl-eval Big Bench Audio li tkejjel il-kapaċitajiet ta’ raġunament, gpt-realtime jikseb 82.8% eżattezza—u jaqbeż il-mudell preċedenti tagħna minn Diċembru 2024, li jikseb 65.6%.
The Big Bench Audio(jinfetaħ f’tieqa ġdida) benchmark huwa dataset ta’ evalwazzjoni għall-valutazzjoni tal-kapaċitajiet ta’ raġunament ta’ mudelli tal-lingwa li jappoġġjaw input awdjo. Dan id-dataset jadatta mistoqsijiet minn Big Bench Hard—magħżul għat-testjar rigoruż tiegħu ta’ raġunament avvanzat—għad-dominju tal-awdjo.
Meta jibnu applikazzjoni ta’ diskors b'diskors, l-iżviluppaturi jagħtu sett ta’ istruzzjonijiet lill-mudell dwar kif għandu jġib ruħu, inkluż kif jitkellem, x’għandu jgħid f’ċerta sitwazzjoni, u x’għandu jagħmel jew ma jagħmilx. Aħna ffokajna t-titjib tagħna fuq l-osservanza ta’ dawn l-istruzzjonijiet, biex anke direzzjonijiet minuri jġorru aktar sinjal għall-mudell. Fuq il-benchmark awdjo MultiChallenge li jkejjel l-eżattezza tas-segwitu tal-istruzzjonijiet, gpt-realtime jikseb 30.5%, titjib sinifikanti fuq il-mudell preċedenti tagħna minn Diċembru 2024, li jikseb 20.6%.
MultiChallenge(jinfetaħ f’tieqa ġdida) jevalwa kemm l-LLMs jimmaniġġjaw tajjeb konverżazzjonijiet b’diversi dawriet mal-bnedmin. Jiffoka fuq erba’ kategoriji ta’ sfidi realistiċi li l-mudelli fruntiera attwali jsibuha diffiċli bihom. Dawn l-isfidi jeħtieġu li l-mudelli jgħaqqdu s-segwitu tal-istruzzjonijiet, il-ġestjoni tal-kuntest, u r-raġunament fil-kuntest fl-istess ħin. Biddilna subsett tal-mistoqsijiet tat-test adattat għall-awdjo minn text-to-speech biex noħolqu verżjoni awdjo ta’ din l-evalwazzjoni.
Biex tinbena aġent tal-vuċi kapaċi b’mudell ta’ diskors b'diskors, il-mudell jeħtieġ li jkun kapaċi jsejjaħ l-għodod it-tajba fil-ħin it-tajjeb biex ikun utli fil-produzzjoni. Aħna tejjibna s-sejħa għall-funzjoni fuq tliet assi: is-sejħa ta’ funzjonijiet rilevanti, is-sejħa ta’ funzjonijiet fil-ħin xieraq, u s-sejħa ta’ funzjonijiet b’argumenti xierqa (li twassal għal eżattezza ogħla). Fl-eval awdjo ComplexFuncBench li tkejjel il-prestazzjoni tas-sejħa għall-funzjoni, gpt-realtime jikseb 66.5%, filwaqt li l-mudell preċedenti tagħna minn Diċembru 2024 jikseb 49.7%.
Għamilna wkoll titjib f’sejħa għall-funzjoni asinkrona(jinfetaħ f’tieqa ġdida). Sejħiet għall-funzjoni li jdumu fit-tul ma jibqgħux ifixklu l-fluss ta’ sessjoni—il-mudell jista’ jkompli konverżazzjoni fluwida waqt li jistenna r-riżultati. Din il-karatteristika hija disponibbli b’mod nattiv f’gpt-realtime, għalhekk l-iżviluppaturi m’għandhomx għalfejn jaġġornaw il-kodiċi tagħhom.
ComplexFuncBench(jinfetaħ f’tieqa ġdida) ikejjel kemm il-mudelli jimmaniġġjaw tajjeb kompiti ta’ sejħa għall-funzjoni diffiċli. Jevalwa l-prestazzjoni f’xenarji bħal sejħiet b’diversi passi, raġunament dwar restrizzjonijiet jew parametri impliċiti, u l-immaniġġjar ta’ inputs twal ħafna. Biddilna l-prompts oriġinali tat-test f’diskors biex nibnu din l-evalwazzjoni għall-mudell tagħna.
Tista’ tattiva l-appoġġ MCP f’sessjoni tar-Realtime API billi tgħaddi l-URL ta’ server MCP remot fil-konfigurazzjoni tas-sessjoni. Ladarba tikkonnettja, l-API timmaniġġja awtomatikament is-sejħiet tal-għodod għalik, għalhekk ma hemmx bżonn tikkonfigura l-integrazzjonijiet manwalment.
Dan is-setup jagħmilha faċli biex testendi l-aġent tiegħek b’kapaċitajiet ġodda—sempliċement ippunta s-sessjoni lejn server MCP differenti, u dawk l-għodod isiru disponibbli minnufih. Biex titgħallem aktar dwar il-konfigurazzjoni ta’ MCP ma’ Realtime, ara din il-gwida(jinfetaħ f’tieqa ġdida).
Bl-inputs ta’ immaġni issa appoġġjati f’gpt-realtime, tista’ żżid immaġnijiet, ritratti, u screenshots flimkien ma’ awdjo jew test ma’ sessjoni tar-Realtime API. Issa l-mudell jista’ jorbot il-konverżazzjoni ma’ dak li l-utent tassew qed jara, u b’hekk l-utenti jistgħu jistaqsu mistoqsijiet bħal “x’qed tara?” jew “aqra t-test f’dan is-screenshot.”
Minflok ma s-sistema tittratta immaġni bħal stream ta’ vidjo live, tittrattaha aktar bħallikieku qed iżżid stampa fil-konverżazzjoni. L-app tiegħek tista’ tiddeċiedi liema immaġnijiet taqsam mal-mudell u meta taqsamhom. B’dan il-mod, inti tibqa’ fil-kontroll ta’ dak li jara l-mudell u meta jirrispondi.
Ara d-dokumentazzjoni(jinfetaħ f’tieqa ġdida) tagħna biex tibda bl-input ta’ immaġni.
Żidna diversi karatteristiċi oħra biex nagħmlu r-Realtime API aktar faċli biex tiġi integrata u aktar flessibbli għall-użu fil-produzzjoni.
- Appoġġ għas-Session Initiation Protocol (SIP): Qabbad l-apps tiegħek man-netwerk tat-telefon pubbliku, sistemi PBX, telefowns fuq l-iskrivanija, u punti ta' tmiem SIP oħra b’appoġġ dirett fir-Realtime API. Aqra dwarha fid-dokumentazzjoni.(jinfetaħ f’tieqa ġdida)
- Prompts li jistgħu jerġgħu jintużaw: Issa tista’ ssalva u terġa’ tuża prompts—li jikkonsistu f’messaġġi tal-iżviluppatur, għodod, varjabbli, u messaġġi eżempju tal-utent/assistent—f’sessjonijiet tar-Realtime API, bħallikieku fir-Responses API. Tgħallem aktar fid-dokumentazzjoni.(jinfetaħ f’tieqa ġdida)
Ir-Realtime API tinkorpora diversi saffi ta’ salvagwardji u mitigazzjonijiet biex tgħin tipprevjeni l-użu ħażin. Tista’ titgħallem aktar dwar l-approċċ tagħna għas-sikurezza u d-dettalji tal-kard tas-sistema fil-blog tat-tħabbira tal-beta. Aħna nużaw klassifikaturi attivi fuq sessjonijiet tar-Realtime API, jiġifieri ċerti konverżazzjonijiet jistgħu jitwaqqfu jekk jiġu skoperti li jiksru l-linji gwida tagħna dwar kontenut ta’ ħsara. L-iżviluppaturi jistgħu wkoll faċilment iżidu l-guardrails addizzjonali tagħhom għas-sikurezza billi jużaw l-Agents SDK(jinfetaħ f’tieqa ġdida).
Il-politiki tal-użu tagħna jipprojbixxu l-użu mill-ġdid jew id-distribuzzjoni tal-outputs mis-servizzi tagħna għal spam, qerq, jew skopijiet oħra ta’ ħsara. L-iżviluppaturi għandhom ukoll jagħmluha ċara lill-utenti finali meta jkunu qed jinteraġixxu ma’ AI, sakemm dan ma jkunx diġà ovvju mill-kuntest. Ir-Realtime API tuża vuċijiet issettjati minn qabel biex tgħin tipprevjeni atturi malizzjużi milli jippersonaw lil oħrajn.
Ir-Realtime API tappoġġja bis-sħiħ ir-Residenza tad-Dejta tal-UE(jinfetaħ f’tieqa ġdida) għal applikazzjonijiet ibbażati fl-UE u hija koperta mill-impenji tagħna dwar il-privatezza għall-intrapriżi.
Ir-Realtime API ġeneralment disponibbli u l-mudell il-ġdid gpt-realtime huma disponibbli għall-iżviluppaturi kollha mill-lum. Qed innaqqsu l-prezzijiet għal gpt-realtime b’20% meta mqabbel ma’ gpt-4o-realtime-preview—$32 / 1M tokens ta’ input awdjo ($0.40 għal tokens ta’ input fil-cache) u $64 / 1M tokens ta’ output awdjo (ara l-prezzijiet dettaljati(jinfetaħ f’tieqa ġdida)). Żidna wkoll kontroll fini għall-kuntest tal-konverżazzjoni biex inħallu lill-iżviluppaturi jistabbilixxu limiti intelliġenti ta’ token u jaqtgħu diversi dawriet f’daqqa, u b’hekk innaqqsu b’mod sinifikanti l-ispiża għal sessjonijiet twal.
Biex tibda, żur id-dokumentazzjoni tar-Realtime API(jinfetaħ f’tieqa ġdida) tagħna, ittestja l-mudell il-ġdid fil-Playground(jinfetaħ f’tieqa ġdida), u ara l-gwida tagħna għall-prompting tar-Realtime API(jinfetaħ f’tieqa ġdida).


