Preskočite na glavno vsebino
OpenAI

28. avgust 2025

IzdelekIzdaja

Predstavljamo gpt-realtime in posodobitve za Realtime API za produkcijske glasovne agente

Objavljamo naprednejši model za pretvorbo govora v govor ter nove zmožnosti API, vključno s podporo za strežnike MCP, vnos slik in podporo za klice prek protokola SIP.

Stiliziran vmesnik, ki prikazuje glasovno interakcijo. Na sredini je zaobljen pravokotni predvajalnik zvoka z vizualizacijo zvočnega valovanja, gumboma za predvajanje/premor, indikatorjem stanja »Agent online« in časovnim žigom 00:35. Bele ukrivljene črte s pikami potekajo prek slike in nakazujejo pretok zvoka ali premikanje signala. Ozadje je živahno modro z zamegljenimi cvetličnimi oblikami v rožnatih in vijoličnih tonih.
Nalaganje …

Danes omogočamo splošno dostopnost Realtime API z novimi funkcijami, ki razvijalcem in podjetjem omogočajo ustvarjanje zanesljivih, za produkcijo pripravljenih glasovnih agentov. API zdaj podpira oddaljene strežnike MCP, vnose slik in telefonsko klicanje prek Session Initiation Protocol (SIP), kar glasovnim agentom omogoča več zmožnosti zaradi dostopa do dodatnih orodij in konteksta.

Objavljamo tudi naš najnaprednejši model za pretvorbo govora v govor doslej, in sicer gpt-realtime. Novi model kaže izboljšave pri sledenju kompleksnim navodilom, natančnem priklicu orodij in generiranju govora, ki zveni bolj naravno in izrazno. Boljši je pri interpretaciji sistemskih sporočil in pozivov razvijalcev ne glede na to, ali gre za branje izjav o omejitvah dobesedno v podpornih klicih, ponavljanje alfanumeričnih nizov ali tekoče preklapljanje med jeziki sredi stavka. Objavljamo tudi dva nova glasova, Cedar in Marin, ki sta od danes na voljo izključno v Realtime API.

Odkar smo lani oktobra prvič predstavili Realtime API v javni beti, so tisoči razvijali rešitve z API in pomagali oblikovati izboljšave, ki jih predstavljamo danes. So optimizirane za zanesljivost, nizko zakasnitev in visoko kakovost za uspešno uvedbo glasovnih agentov v produkcijo. Za razliko od tradicionalnih postopkov, ki verižno povezujejo več modelov za pretvorbo govora v besedilo in besedila v govor, Realtime API obdeluje in generira zvok neposredno prek enega samega modela in API. To zmanjša zakasnitev, ohranja niansiranost govora in generira bolj naravne, izrazne odzive.

»Novi model za pretvorbo govora v govor v OpenAI Realtime API izkazuje močnejše sklepanje in bolj naraven govor, kar mu omogoča obvladovanje kompleksnih, večkoračnih zahtev, kot sta najti najboljše ponudbe glede na življenjski slog ali vodenje pogovorov o zmožnosti plačevanja s pomočjo orodij, kot je naše merilo BuyAbility. To bi lahko iskanje doma na strani podjetja Zillow ali raziskovanje možnosti financiranja naredilo tako naravno kot pogovor s prijateljem, kar pomaga poenostaviti odločitve o nakupu, prodaji ali najemu doma.«

– Josh Weisberg, vodja oddelka za UI pri podjetju Zillow

Predstavljamo gpt-realtime

Novi model pretvorbe govora v govor—gpt-realtime—je naš najnaprednejši, za produkcijo pripravljen glasovni model. Model smo trenirali v tesnem sodelovanju s strankami, da bi bil odličen pri resničnih nalogah, kot so podpora uporabnikom, osebna asistenca in izobraževanje — poravnan z načinom, kako razvijalci gradijo in uvajajo glasovne agente. Model izkazuje izboljšave v kakovosti zvoka, inteligenci, sledenju navodilom in priklicu funkcij.

Kakovost zvoka

Naraven, človeški pogovor je ključen za uvedbo glasovnih agentov v resničnem svetu. Modeli morajo govoriti s človeško intonacijo, čustvi in ritmom, da ustvarijo prijetno izkušnjo in spodbujajo neprekinjen pogovor z uporabniki. Model gpt-realtime smo trenirali tako, da generira govor višje kakovosti, ki zveni bolj naravno in lahko sledi podrobnim navodilom, kot sta »govori hitro in profesionalno« ali »govori empatično s francoskim naglasom«.

V API-ju uvajamo dva nova glasova, Marin in Cedar, z največjim napredkom pri naravnem zvenu govora. Posodabljamo tudi vseh osem obstoječih glasov, ki prav tako prejmejo te izboljšave.

Glasovni vzorec - Marin
Glasovni vzorec - Cedar

Inteligenca in razumevanje

gpt-realtime kaže višjo inteligenco in lahko z večjo natančnostjo razume zvok naravnega govorca. Model lahko zajame neverbalne znake (na primer smeh), sredi stavka preklaplja med jeziki in prilagodi ton (»odrezav in resen« v primerjavi s »prijazen in empatičen«). Glede na interne evalvacije model izkazuje tudi natančnejše delovanje pri zaznavanju alfanumeričnih nizov (na primer telefonskih številk, št. VIN ipd.) v drugih jezikih, vključno s španščino, kitajščino, japonščino in francoščino. Na evalvaciji Big Bench Audio, ki meri sposobnosti sklepanja, je gpt-realtime dosegel 82,8 % točnosti—kar je bolje od našega prejšnjega modela iz decembra 2024, ki je dosegel 65,6 %.

Merilo Big Bench Audio(odpre se v novem oknu) je evalvacijski podatkovni niz za ocenjevanje sposobnosti sklepanja jezikovnih modelov, ki podpirajo zvočni vhod. Ta podatkovni niz prilagaja vprašanja iz Big Bench Hard, izbranega zaradi strogega testiranja naprednega sklepanja, v zvočno domeno.

Sledenje navodilom

Pri izdelavi aplikacije za pretvorbo govora v govor razvijalci modelu posredujejo nabor navodil o tem, kako naj se obnaša, vključno s tem, kako naj govori, kaj naj v določeni situaciji pove ter kaj sme ali ne sme narediti. Osredotočili smo se na doslednost sledenja tem navodilom, tako da imajo tudi najmanjše usmeritve večjo težo za model. Na merilu MultiChallenge, ki v zvočnem okolju meri natančnost sledenja navodilom, je GPT‑realtime dosegel 30,5 %, kar je občutno izboljšanje v primerjavi z našim prejšnjim modelom iz decembra 2024, ki je dosegel 20,6 %.

MultiChallenge(odpre se v novem oknu) ocenjuje, kako dobro veliki jezikovni modeli obvladujejo večkratne pogovore s človekom. Osredotoča se na štiri kategorije realističnih izzivov, s katerimi se trenutni napredni modeli soočajo. Pri takšnih izzivih morajo modeli hkrati združevati sledenje navodilom, upravljanje konteksta in sklepanje znotraj konteksta. Del zvočno prilagojenih testnih vprašanj smo spremenili iz pretvorbe besedila v govor v zvočno obliko, da bi ustvarili zvočno različico te evalvacije.

Priklic funkcij

Za izdelavo zmogljivega glasovnega agenta z modelom za pretvorbo govora v govor mora biti model sposoben ob pravem času priklicati prava orodja, da je uporaben v produkciji. Priklic funkcij smo izboljšali na treh področjih: priklic ustreznih funkcij, priklic funkcij ob ustreznem času in priklic funkcij s primernimi argumenti (kar vodi do večje natančnosti). Na testu ComplexFuncBench za oceno učinkovitosti klicanja funkcij je gpt-realtime dosegel 66,5 %, medtem ko je naš prejšnji model iz decembra 2024 dosegel 49,7 %.

Prav tako smo izboljšali asinhroni priklic funkcij(odpre se v novem oknu). Dolgotrajni priklici funkcij ne bodo več prekinili poteka seje – model lahko nadaljuje tekoč pogovor, medtem ko čaka na rezultate. Ta funkcija je v model GPT‑realtime vgrajena nativno, zato razvijalcem ni treba posodabljati svoje kode.

ComplexFuncBench(odpre se v novem oknu) meri, kako dobro modeli obvladujejo zahtevne naloge priklica funkcij. Ocenjuje delovanje v scenarijih, kot so večkorakni priklici, sklepanje o omejitvah ali implicitnih parametrih ter obravnava zelo dolgih vhodov. Izvirne besedilne pozive smo pretvorili v govor, da bi za naš model ustvarili to evalvacijo.

Novo v Realtime API-ju

Podpora za oddaljeni strežnik MCP

Podporo za MCP lahko omogočite v seji API-ja v realnem času tako, da v konfiguracijo seje posredujete URL oddaljenega strežnika MCP. Ko je povezava vzpostavljena, API samodejno upravlja priklice orodij, zato integracij ni treba povezovati ročno.

Takšna nastavitev olajša razširjanje agenta z novimi zmožnostmi — sejo preprosto usmerite na drug strežnik MCP in ta orodja so takoj na voljo. Če želite izvedeti več o konfiguraciji MCP z Realtime, si oglejte ta vodič(odpre se v novem oknu).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Vnos slik

Ker GPT‑realtime zdaj podpira vnos slik, lahko v sejo Realtime API-ja poleg zvoka ali besedila dodate slike, fotografije in posnetke zaslona. Zdaj lahko model pogovor utemelji na tem, kar uporabnik dejansko vidi, kar uporabnikom omogoča, da postavljajo vprašanja, npr. »kaj vidiš?« ali »preberi besedilo na tem posnetku zaslona«.

Namesto da bi sistem obravnaval sliko kot pretočni video, jo obravnava kot dodajanje slike v pogovor. Vaša aplikacija lahko sama odloči, katere slike bo delila z modelom in kdaj jih bo delila. Na ta način ohranite nadzor nad tem, kaj model vidi in kdaj odgovarja.

Za začetek dela z vnosom slik si oglejte našo dokumentacijo(odpre se v novem oknu).

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Dodatne zmožnosti

Dodali smo še več funkcij, da bi bil Realtime API-ju lažje integrirati in bolj prilagodljiv za produkcijsko uporabo.

Varnost in zasebnost

Realtime API vključuje več slojev zaščite in ublažitvenih mehanizmov za preprečevanje zlorab. Več o našem pristopu k varnosti in podrobnostih sistemske kartice lahko preberete v blog objavi ob predstavitvi bete. V sejah API v realnem času uporabljamo aktivne klasifikatorje, kar pomeni, da je mogoče nekatere pogovore ustaviti, če se zaznajo kot kršitev naših smernic glede škodljive vsebine. Razvijalci lahko z uporabo Agents SDK(odpre se v novem oknu) preprosto dodajo tudi lastne dodatne varovalne mehanizme.

Naše politike uporabe prepovedujejo ponovno uporabo ali distribuiranje izhodov naših storitev za neželeno pošto, zavajanje ali druge škodljive namene. Razvijalci morajo končnim uporabnikom jasno navesti, da komunicirajo z UI, razen kadar je to razvidno iz konteksta. Realtime API uporablja vnaprej določene glasove, da prepreči, da bi zlonamerni akterji oponašali druge osebe.

API v realnem času v celoti podpira rezidentstvo podatkov v EU(odpre se v novem oknu) za aplikacije s sedežem v EU in je zajet v naših zavezah glede zasebnosti za podjetja.

Cenik in razpoložljivost

Splošno dostopni Realtime API in novi GPT‑realtime model sta od danes naprej na voljo vsem razvijalcem. Znižujemo cene za GPT‑realtime za 20 % v primerjavi z GPT‑4o‑realtime‑preview—32 $ / 1M vnosnih vhodnih žetonov (0,40 $ za shranjene vhodne žetone) in 64 $ / 1M izhodnih žetonov (glej podrobni cenik(odpre se v novem oknu)). Dodali smo tudi natančnejši nadzor nad kontekstom pogovorov, ki razvijalcem omogoča nastaviti inteligentne omejitve žetonov in skrajšati več zaporednih izmenjav hkrati, kar bistveno zniža stroške dolgih sej.

Ponovitev prenosa v živo

Avtor

OpenAI