
Í dag gerum við Realtime API almennt aðgengilegt með nýjum eiginleikum sem gera forriturum og fyrirtækjum kleift að smíða áreiðanlega, framleiðsluhæfa raddfulltrúa. API styður núna fjartengda MCP-þjóna, myndinntök og símtöl í gegnum Session Initiation Protocol (SIP), sem gerir raddfulltrúa öflugri með aðgangi að viðbótarverkfærum og samhengi.
Við erum einnig að gefa út okkar ítarlegasta tal-í-tal líkan hingað til—gpt-realtime. Nýja líkanið sýnir framfarir í því að fylgja flóknum leiðbeiningum, nota verkfæri með nákvæmni og framleiða tal sem hljómar náttúrulegra og tjáningarmeira. Það er betra í að túlka kerfisskilaboð og forritarakvaðningar—hvort sem það er að lesa fyrirvaraforskriftir orðrétt í aðstoðarsímtali, endurtaka alfanúmer eða skipta hnökralaust á milli tungumála í miðri setningu. Við erum líka að gefa út tvær nýjar raddir, Cedar og Marin, sem eru eingöngu fáanlegar í Realtime API frá og með deginum í dag.
Frá því að við kynntum fyrst Realtime API í opinberri betaútgáfu í október síðastliðnum hafa þúsundir forritara unnið með API-inu og hjálpað til við að móta þær úrbætur sem við gefum út í dag — fínstilltar fyrir áreiðanleika, lágan biðtíma og há gæði til að koma raddfulltrúum í framleiðslu á árangursríkan hátt. Ólíkt hefðbundnum leiðslum sem tengja saman mörg líkön fyrir tal-í-texta og texta-í-tal, vinnur Realtime API og býr til hljóð beint í gegnum eitt líkan og API. Þetta dregur úr biðtíma, varðveitir blæbrigði í tali og skilar eðlilegri, svipmeiri svörum.
„Nýja tal-í-tals líkanið í Realtime API hjá OpenAI sýnir sterkari röksemdafærslu og náttúrulegra tal—sem gerir því kleift að meðhöndla flókin, margþrepa beiðnir eins og að þrengja lista eftir lífsstílsþörfum eða leiðbeina umræðum um hagkvæmni með verkfærum eins og BuyAbility okkar. Þetta gæti gert leit að húsnæði á Zillow eða að kanna fjármögnunarmöguleika eins eðlilega og samtal við vin, sem einfaldar ákvarðanir eins og að kaupa, selja og leigja húsnæði.
– Josh Weisberg, yfirmaður gervigreindar hjá Zillow
Nýja tal-í-tal líkanið—GPT‑realtime—er okkar fullkomnasta og framleiðsluhæfasta raddlíkanið. Við þjálfuðum líkanið í nánu samstarfi við viðskiptavini til að skara fram úr í raunverulegum verkefnum eins og aðstoð, persónulegri aðstoð og menntun—og samræmdum líkanið við hvernig forritarar byggja og setja upp fulltrúa. Líkanið sýnir framfarir í hljóðgæðum, greind, leiðbeiningafylgni og aðgerðarkalli.
Náttúrulega hljómandi samtöl eru mikilvæg fyrir innleiðingu fulltrúa í hinum raunverulega heimi. Líkön þurfa að tala með tónhæð, tilfinningu og hraða manneskju til að búa til skemmtilega upplifun og hvetja til stöðugra samtala við notendur. Við þjálfuðum gpt-realtime til að framleiða hágæða tal sem hljómar náttúrulegra og getur fylgt nákvæmum leiðbeiningum, eins og „talaðu hratt og fagmannlega“ eða „talaðu samúðarfullt með frönskum hreim.“
Við erum að gefa út tvær nýjar raddir í API, Marin og Cedar, með mestu úrbótunum á náttúrulegri raddtjáningu. Við erum líka að uppfæra átta núverandi raddir okkar til að njóta góðs af þessum úrbótum.
gpt-realtime sýnir meiri greind og getur skilið innfædd hljóð með meiri nákvæmni. Líkanið getur numið óyrtar vísbendingar (eins og hlátur), skipt um tungumál í miðri setningu og lagað tóninn („hvass og fagmannlegur“ á móti „vingjarnlegur og samúðarfullur“). Samkvæmt innra mati sýnir líkanið einnig nákvæmari frammistöðu við að greina stafatöluraðir (svo sem símanúmer, VIN-númer o.s.frv.) á öðrum tungumálum, þar á meðal spænsku, kínversku, japönsku og frönsku. Í Big Bench Audio-matinu sem mælir röksemdafærslugetu, nær gpt-realtime 82,8% nákvæmni — sem slær við fyrra líkan okkar frá desember 2024, sem náði 65,6%.
Big Bench Audio(opnast í nýjum glugga) viðmiðið er matsgagnasafn til að meta röksemdafærslugetu tungumálalíkana sem styðja við hljóðinntak. Þetta gagnasett aðlagar spurningar frá Big Bench Hard—valdar fyrir strangar prófanir á háþróaðri röksemdafærslu—yfir í hljóðlén.
Þegar verið er að smíða tal-í-tal snjallforrit gefa forritarar líkaninu leiðbeiningar um hvernig það á að haga sér, þar á meðal hvernig það á að tala, hvað það á að segja í ákveðnum aðstæðum og hvað það á að gera eða ekki gera. Við höfum einbeitt úrbótum okkar að því að fylgja þessum leiðbeiningum, svo að jafnvel minniháttar leiðbeiningar gefi líkaninu meira merki. Á MultiChallenge-hljóðviðmiðinu sem mælir nákvæmni í fylgni við leiðbeiningar, skorar gpt-realtime 30,5%, sem er veruleg framför frá fyrra líkani okkar frá desember 2024, sem skoraði 20,6%.
MultiChallenge(opnast í nýjum glugga) metur hversu vel LLM takast á við samtöl við fólk sem innihalda mörg umferðir. Það einbeitir sér að fjórum flokkum raunhæfra áskorana sem núverandi líkön eiga í erfiðleikum með. Þessar áskoranir krefjast þess að líkön sameini leiðbeiningafylgni, samhengisstjórnun og röksemdafærslu í samhengi á sama tíma. Við breyttum hljóðvænum hluta prófspurninganna úr texta í tal til að búa til hljóðútgáfu af þessu mati.
Til að búa til hæfan raddfulltrúa með tal-í-tal líkani þarf líkanið að geta kallað á réttu verkfærin á réttum tíma til að vera gagnlegt í framleiðslu. Við höfum bætt aðgerðakalli á þremur sviðum: að kalla á viðeigandi föll, að kalla á föll á réttum tíma og að kalla á föll með viðeigandi breytum (sem leiðir til meiri nákvæmni). Í ComplexFuncBench-hljóðmati sem mælir afköst aðgerðarkalla, fær gpt-realtime 66,5% stig, á meðan fyrra líkan okkar frá desember 2024 fékk 49,7%.
Við höfum einnig gert úrbætur á ósamstilltum aðgerðarköllum(opnast í nýjum glugga). Langvarandi aðgerðarköll munu ekki lengur trufla flæði lotu — líkanið getur haldið áfram flæðandi samtali á meðan beðið er eftir niðurstöðum. Þessi eiginleiki er innbyggður í gpt-realtime, svo forritarar þurfa ekki að uppfæra kóðann sinn.
ComplexFuncBench(opnast í nýjum glugga) mælir hversu vel líkön takast á við krefjandi verkefni sem kalla á aðgerðarföll. Það metur frammistöðu í aðstæðum eins og fjölþrepa köllum, röksemdafærslu um takmarkanir eða óbeina breytur, og meðhöndlun mjög langra inntaka. Við umbreyttum upprunalegu textakvaðningunum í tal til að búa til þetta mat fyrir líkanið okkar.
Þú getur virkjað MCP aðstoð í Realtime API-lotu með því að senda vefslóð á fjartengdan MCP-netþjón inn í lotustillinguna. Þegar tengingin er komin, sér API sjálfkrafa um verkfæraköllin fyrir þig, svo það er engin þörf á að tengja samþættingar handvirkt.
Þessi uppsetning gerir það auðvelt að bæta nýjum eiginleikum við fulltrúa þinn - bara vísa lotunni á annan MCP-netþjón og þessi verkfæri verða strax tiltæk. Til að læra meira um hvernig á að stilla MCP með Realtime skaltu skoða þessar leiðbeiningar(opnast í nýjum glugga).
Nú þegar myndinntak er stutt í GPT‑realtime, geturðu bætt við myndum, ljósmyndum og skjámyndum ásamt hljóði eða texta í Realtime API-lotu. Nú getur líkanið tengt samtalið við það sem notandinn sér í raun, sem gerir notendum kleift að spyrja spurninga eins og „hvað sérðu?“ eða „lestu textann á þessari skjámynd.“
Í stað þess að líta á mynd sem lifandi myndbandsstraum, lítur kerfið á hana meira eins og að bæta mynd inn í samtalið. Appið þitt getur ákveðið hvaða myndir á að deila með líkaninu og hvenær á að deila þeim. Þannig hefur þú stjórn á því sem líkanið sér og hvenær það bregst við.
Skoðaðu skjöl(opnast í nýjum glugga) okkar til að byrja með myndinntak.
Við höfum bætt við nokkrum öðrum eiginleikum til að gera Realtime API auðveldara í samþættingu og sveigjanlegra fyrir notkun í framleiðslu.
- Aðstoð við Session Initiation Protocol (SIP): Tengdu öppin þín við almenna símakerfið, PBX-kerfi, borðsíma og aðra endapunkta með beinni aðstoð í Realtime API. Lestu um það í skjölunum.(opnast í nýjum glugga)
- Endurnýtanlegar kvaðningar: Þú getur nú vistað og endurnýtt kvaðningar—sem samanstanda af skilaboðum frá forritara, verkfærum, breytum og dæmum um skilaboð frá notendum/aðstoðarmönnum—í Realtime API-lotum, eins og í Responses API. Frekari upplýsingar í skjölunum.(opnast í nýjum glugga)
Realtime API- inniheldur mörg lög af öryggisráðstöfunum og mótvægisaðgerðum til að hjálpa til við að koma í veg fyrir misnotkun. Þú getur lært meira um öryggisaðferðir okkar og upplýsingar um kerfiskort í beta-tilkynningablogginu. Við notum virka flokkara yfir Realtime API-lotur, sem þýðir að hægt er að stöðva ákveðin samtöl ef þau eru greind sem brjóta gegn leiðbeiningum okkar um skaðlegt efni. Forritarar geta einnig auðveldlega bætt við sínum eigin öryggisvörnum með því að nota Agents SDK(opnast í nýjum glugga).
Notkunarstefnur okkar banna endurnotkun eða dreifingu á frálagi úr þjónustu okkar í ruslpósti, blekkingum eða öðrum skaðlegum tilgangi. Forritarar verða einnig að gera það skýrt fyrir notendur þegar þeir eru í samskiptum við gervigreind, nema það sé nú þegar augljóst úr samhenginu. Rauntíma API notar forstilltar raddir til að koma í veg fyrir að illgjarnir aðilar þykist vera aðrir.
Rauntíma API styður að fullu ESB-gagnavistun(opnast í nýjum glugga) fyrir notkun í ESB og fellur undir skuldbindingar okkar um persónuvernd fyrirtækja.
Almennt aðgengilega Realtime API og nýja GPT‑realtime líkanið eru aðgengileg öllum forriturum frá og með deginum í dag. Við erum að lækka verð fyrir GPT‑realtime um 20% samanborið við GPT‑4o‑realtime‑preview—32 USD / 1 millj. hljóðinntaksmerki (0,40 USD fyrir ílagstákn í skyndiminni) og 64 USD / 1 millj. hljóðúttaksmerki (sjá nákvæmt verð(opnast í nýjum glugga)). Við höfum einnig bætt við fíngerðri stjórn á samtalssamhengi til að leyfa forriturum að setja snjöll mörk á tákn og stytta margar umferðir í einu, sem lækkar verulega kostnað fyrir langar lotur.
Til að byrja skaltu fara í Realtime API-skjöl(opnast í nýjum glugga) okkar, prófaðu nýja líkanið í Playground(opnast í nýjum glugga) og skoðaðu kvaðningaleiðbeiningar um Realtime API(opnast í nýjum glugga).


