Hopp til hovedinnhold
OpenAI

28. august 2025

ProduktUtgivelse

Vi introduserer gpt-realtime og oppdateringer av Realtime API for taleagenter for produksjon

Vi lanserer en mer avansert tale-til-tale-modell og ny API-funksjonalitet, inkludert støtte for MCP-server, bildeinndata og støtte for SIP-telefonringing.

Stilisert grensesnitt som viser en taleinteraksjon. I midten er en avrundet rektangulær lydavspiller med visualisering av bølgeform, spill av / pause-knapp, statusindikator for «Agent online» og tidsstempel på 00:35. Hvite kurvede linjer med prikker flyter over bildet, noe som antyder direktesendt lyd eller signalbevegelse. Bakgrunnen er livlig blå med uskarpe blomsterformer i rosa og lilla fargetoner.
Laster inn …

I dag gjør vi Realtime API generelt tilgjengelig med nye funksjoner som lar utviklere og konsern bygge pålitelige produksjonsklare taleagenter. Nå støtter API-et eksterne MCP-servere, bildeutdata og telefonringing via Session Initiation Protocol (SIP), noe som gjør taleagenter mer funksjonelle via tilgang til flere verktøy og kontekst.

Vi lanserer også den mest avanserte tale-til-tale-modellen vår til nå – gpt-realtime. Den nye modellen viser forbedringer i følging av komplekse instruksjoner, presise verktøykall og produksjon av tale som høres mer naturlig og uttrykksfull ut. Den er bedre til å tolke systemmeldinger og utviklermeldinger – uansett om det er lesing av skript for ansvarsfraskrivelse ord for ord i et brukerstøtteanrop, gjentakelse av alfanumeriske tegn eller bytte sømløst mellom språk midt i setninger. Vi lanserer også to nye stemmer, Cedar og Marin, som bare er tilgjengelige i Realtime API, fra og med i dag.

Siden vi først introduserte Realtime API i offentlig beta forrige oktober, har tusenvis av utviklere bygget med API-et og bidratt til å forme forbedringene vi lanserer i dag – optimalisert for pålitelighet, lav forsinkelse og høy kvalitet for å rulle ut taleagenter i produksjon. I motsetning til tradisjonelle prosesser som kjeder sammen flere modeller mellom tale-til-tekst og tekst-til-tale, behandler og genererer Realtime API lyd direkte gjennom en enkelt modell og API. Dette reduserer forsinkelse, bevarer nyanse i tale og produserer mer naturlige, uttrykksfulle svar.

«Den nye tale-til-tale-modellen i OpenAIs Realtime API viser sterkere resonnement og mer naturlig tale – noe som lar den håndtere komplekse forespørsler i flere trinn, som avgrensning av oppføringer etter livsstilbehov eller veiledende diskusjoner om rimelighet med verktøy som BuyAbility-poengsum. Dette kan få søking etter et nytt hjem på Zillow eller utforskning av finansalternativer til å føles like naturlig som en samtale med en venn, noe som bidrar til å forenkle avgjørelser som å kjøpe, selge og leie et hjem.»

– Josh Weisberg, Head of AI hos Zillow

Vi introduserer gpt-realtime

Den nye tale-til-tale-modellen – gpt-realtime – er den mest avanserte, produksjonsklare talemodellen vår. Vi lærte opp modellen i nært samarbeid med kunder for å utmerke oss innen ekte oppgaver som kundestøtte, personlig assistanse og utdanning – noe som retter inn modellen etter hvordan utviklere bygger og ruller ut taleagenter. Modellen viser forbedringer innen lydkvalitet, intelligens, instruksjonsfølging og funksjonskall.

Lydkvalitet

Samtaler som høres naturlige ut, er kritiske for å rulle ut taleagenter i den virkelige verdenen. Modeller må snakke med intonasjonen, følelsen og hastigheten til et menneske for å skape en behagelig opplevelse og oppmuntre til kontinuerlige samtaler med brukere. Vi lærte opp gpt-realtime til å produsere tale i høy kvalitet som høres mer naturlig ut og kan følge detaljerte instruksjoner som «snakk raskt og profesjonelt» eller «snakk empatisk med en fransk aksent».

Vi lanserer to nye stemmer i API-et, Marin og Cedar, med mest betydelig forbedring av tale som høres naturlig ut. Vi oppdaterer også de eksisterende åtte stemmene for å dra nytte av disse forbedringene.

Stemmeprøve – Marin
Stemmeprøve – Cedar

Intelligens og forståelse

gpt-realtime viser intelligens og kan forstå innfødt lyd med høyere nøyaktighet. Modellen kan fange opp ikke-verbale signaler (som latter), bytte språk midt i setninger og tilpasse tone («kvikk og profesjonell» kontra «snill og empatisk»). Ifølge interne evalueringer viser modellen også mer nøyaktig ytelse for registrering av alfanumeriske sekvenser (for eksempel telefonnumre, VIN-numre osv.) på andre språk, inkludert spansk, kinesisk, japansk og fransk. På Big Bench Audio-evalueringen som måler resonnementfunksjonalitet, får gpt-realtime 82,8 % nøyaktighet – og slår den forrige modellen vår fra desember 2024, som får 65,6 %.

Big Bench Audio(åpnes i et nytt vindu)-referansemålingen er et evalueringsdatasett for vurdering av resonnementfunksjonalitet til språkmodeller som støtter lydinndata. Dette datasettet tilpasser spørsmål fra Big Bench Hard – valgt for den strenge testingen av avansert resonnement – inn i lyddomenet.

Instruksjonsfølging

Under bygging av tale-til-tale-applikasjoner gir utviklere et sett med instruksjoner til modellen for hvordan den skal oppføre seg, inkludert hvordan den skal snakke, hva den skal si i visse situasjoner, og hva den skal eller ikke skal gjøre. Vi har fokusert forbedringene våre på å følge disse instruksjonene, slik at selv mindre beskrivelser gir mer signal for modellen. På MultiChallenge-referansemålingen for lyd, som måler nøyaktighet for instruksjonsfølging, får gpt-realtime 30,5 %, en betydelig forbedring fra den tidligere modellen vår fra desember 2024, som får 20,6 %.

MultiChallenge(åpnes i et nytt vindu) evaluerer hvor godt LLM-er håndterer samtaler i flere omganger med mennesker. Den fokuserer på fire kategorier med realistiske utfordringer som nåværende banebrytende modeller sliter med. Disse utfordringene krever at modeller kombinerer instruksjonsfølging, kontekstadministrering og resonnement i kontekst samtidig. Vi konverterte et lydvennlig undersett av testspørsmålene fra tekst-til-tale for å skape en lydversjon av denne evalueringen.

Funksjonskall

For å bygge en funksjonell taleagent med en tale-til-tale-modell må modellen kunne kalle riktige verktøy til riktig tid for å være nyttige i produksjon. Vi har forbedret funksjonskall i tre akser: kall av relevante funksjoner, kall av funksjoner til riktig tid og kall av funksjoner med passende argumenter (noe som resulterer i høy nøyaktighet). På ComplexFuncBench-evalueringen for lyd, som måler funksjonskallytelse, får gpt-realtime 66,5 %, mens den tidligere modellen vår fra desember 2024 får 49,7 %.

Vi har også gjort forbedringer av asynkrone funksjonskall(åpnes i et nytt vindu). Langtkjørende funksjonskall forstyrrer ikke flyten til en økt – modellen kan fortsette en flytende samtale mens den venter på resultater. Denne funksjonen er tilgjengelig integrert i gpt-realtime, så utviklere trenger ikke å oppdatere koden sin.

ComplexFuncBench(åpnes i et nytt vindu) måler hvor godt modeller håndterer utfordrende oppgaver med funksjonskall. Den evaluerer ytelse mellom scenarioer som anrop i flere trinn, resonnement om begrensninger eller implisitte parametre, og håndterer veldig lange inndata. Vi konverterte de opprinnelige tekstmeldingene til tale for å bygge denne evalueringen for modellen vår.

Nytt i Realtime API

Støtte for ekstern MCP-server

Du kan aktivere MCP-støtte i en Realtime API-økt ved å sende URL-en til en ekstern MCP-server inn i øktkonfigurasjonen. Ved tilkobling håndterer API-et automatisk verktøykall for deg, så du trenger ikke å koble sammen integrasjoner manuelt.

Dette oppsettet gjør det enkelt å utvide agenten med ny funksjonalitet – bare pek økten til en annen MCP-server, så blir disse verktøyene tilgjengelige umiddelbart. For å finne ut mer om konfigurering av MCP med Realtime kan du sjekke denne veiledningen(åpnes i et nytt vindu).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Bildeinndata

Siden bildeinndata nå støttes i gpt-realtime, kan du legge til bilder, fotografier og skjermbilder sammen med lyd eller tekst i en Realtime API-økt. Nå kan modellen basere samtalen på det brukeren faktisk ser, noe som lar brukere stille spørsmål som «Hva ser du?» eller «les teksten i dette skjermbildet».

I stedet for å behandle et bilde som en direkte videostrøm, behandler systemet det mer som å legge til et bilde i samtalen. Appen kan bestemme hvilke bilder som skal deles med modellen, og så dele dem. På denne måten har du kontroll over det modellen ser, og når den svarer.

Sjekk dokumentene(åpnes i et nytt vindu) våre for å komme i gang med bildeinndata.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Ytterligere funksjonalitet

Vi har lagt til flere andre funksjoner for å gjøre Realtime API enklere å integrere og mer fleksibel for produksjonsbruk.

Sikkerhet og personvern

Realtime API innlemmer flere lag med beskyttelser og tiltak for å bidra til å forhindre misbruk. Du kan finne ut mer om sikkerhetstilnærmingen vår og detaljer om systemkort i bloggen om betakunngjøring. Vi benytter aktive klassifikatorer i løpet av Realtime API-økter, noe som betyr at visse samtaler kan stoppes hvis de registreres til å bryte veiledningene våre om skadelig innhold. Utviklere kan også enkelt legge til sin egen beskyttelse med Agents SDK(åpnes i et nytt vindu).

Retningslinjene våre for bruk forbyr gjenbruk eller distribuering av utdata fra tjenestene våre som spam, villedelse eller andre skadelige formål. Utviklere må også gjøre det klart for sluttbrukere når de samhandler med AI, med mindre det allerede er åpenbart fra konteksten. Realtime API bruker forhåndsangitte stemmer for å bidra til å forhindre at ondsinnede aktører gir seg ut for å være andre.

Realtime API støtter fullt ut EU Data Residency(åpnes i et nytt vindu) for EU-baserte bruksområder og er dekket av forpliktelsene våre om personvern i bedrifter.

Priser og tilgjengelighet

Det generelt tilgjengelige Realtime API og den nye gpt-realtime-modellen er tilgjengelige for alle utviklere fra og med i dag. Vi reduserer priser for gpt-realtime med 20 % sammenlignet med gpt-4o-realtime-preview – USD 32 / 1M inndatatokener med lyd (USD 0,40 for bufrede inndatatokener) og USD 64 / 1M utdatatokener med lyd (se detaljerte priser(åpnes i et nytt vindu)). Vi har også lagt til veldig detaljert kontroll for samtalekontekst for å la utviklere angi intelligente tokengrenser og forkorte flere runder om gangen, noe som reduserer kostnad for lange økter betydelig.

Opptak av direktesending

Forfatter

OpenAI