Gå til hovedindhold
OpenAI

28. august 2025

ProduktUdgivelse

Vi præsenterer opdateringer til gpt-realtid og Realtime API til produktionsstemmeagenter

Vi lancerer en mere avanceret tale-til-tale-model og nye API-funktioner, herunder MCP-serverstøtte, billedinput og SIP-telefonopkaldsstøtte.

Stiliseret grænseflade, der viser en stemmeinteraktion. I midten er en afrundet, rektangulær lydafspiller med en bølgeformet visualisering, afspil-/pause-knap, "Agent Online"-statusindikator og tidspunktet 00:35. Hvide buede linjer med prikker flyder hen over billedet og antyder live-lyd eller signalbevægelse. Baggrunden er stærk blå med slørede blomsterformer i lyserøde og lilla toner.
Indlæser ...

I dag gør vi Realtime API generelt tilgængelig med nye funktioner, der gør det muligt for udviklere og virksomheder at opbygge pålidelige, produktionsklare stemmeagenter. API understøtter nu eksterne MCP-servere, billed-input og telefonopkald gennem SIP (Session Initiation Protocol), hvilket forbedrer stemmeagenter, da de har adgang til yderligere værktøjer og kontekst.

Vi lancerer også vores mest avancerede tale-til-tale-model til dato—gpt-realtime. Den nye model viser forbedringer i forhold til at følge komplekse instruktioner, kalde værktøjer med præcision og producere tale, der lyder mere naturlig og udtryksfuld. Den er bedre til at fortolke systemmeddelelser og udviklerforespørgsler – hvad enten det er at læse ansvarsfraskrivninger ord for ord på et supportopkald, gentage alfanumeriske tegn eller skifte mellem sprog midt i en sætning uden problemer. Vi lancerer også to nye stemmer, Cedar og Marin, som udelukkende er tilgængelige i Realtime API fra i dag.

Siden vi første gang introducerede Realtime API til offentligheden som beta i oktober sidste år, har tusindvis af udviklere bygget med API'en og hjulpet med at forme de forbedringer, vi lancerer i dag, som er optimeret til pålidelighed, lav latens og høj kvalitet for at implementere stemmeagenter i produktion. I modsætning til traditionelle pipelines, der kæder flere modeller sammen på tværs af tale-til-tekst og tekst-til-tale, behandler og genererer Realtime API lyd direkte gennem en enkelt model og API. Dette reducerer latens, bevarer nuancer i tale og giver mere naturlige, udtryksfulde reaktioner.

”Den nye tale-til-tale-model i OpenAI's Realtime API viser stærkere ræsonnement og mere naturlig tale, så den kan håndtere komplekse anmodninger i flere trin, såsom indsnævring af lister efter livsstilsbehov eller vejledende overkommelige diskussioner med værktøjer som vores BuyAbility-resultat. Dette kan få søgning efter et hus på Zillow eller udforske finansieringsmuligheder til at føles naturlige som en samtale med en ven, hvilket forenkler beslutninger som at købe, sælge og leje et hus.”

– Josh Weisberg, Head of AI hos Zillow

Vi præsenterer gpt-realtime

Den nye tale-til-tale-model –gpt-realtime– er vores mest avancerede, produktionsklare stemmemodel. Vi trænede modellen i tæt samarbejde med kunderne, så den kan udmærke sig i opgaver fra den virkelige verden som kundesupport, personlig assistance og uddannelse – så modellen kan tilpasses til, hvordan udviklere bygger og implementerer stemmeagenter. Modellen viser forbedringer på tværs af lydkvalitet, intelligens, at følge instruktioner samt funktionskald.

Lydkvalitet

Naturligt klingende samtaler er afgørende for implementering af stemmeagenter i den virkelige verden. Modellerne skal tale med et menneskes intonation, følelser og tempo for at skabe en rar oplevelse og tilskynde til kontinuerlig samtale med brugerne. Vi trænede gpt-realtime til at producere tale af højere kvalitet, der lyder mere naturlig og kan følge finkornede instruktioner, såsom "tale hurtigt og professionelt" eller "tale empatisk med fransk accent."

Vi lancerer to nye stemmer i API, Marin og Cedar, med de mest betydelige forbedringer af naturlig tale. Vi opdaterer også vores eksisterende otte stemmer med disse forbedringer.

Stemmeeksempel – Marin
Stemmeeksempel – Cedar

Intelligens og forståelse

gpt-realtime viser højere intelligens og kan forstå indfødt lyd med større nøjagtighed. Modellen kan fange ikke-verbale signaler (såsom grin), skifte sprog midt i sætningen og tilpasse tonen ("skarp og professionel" vs. "venlig og empatisk"). I henhold til interne evalueringer viser modellen også en mere nøjagtig præstation ved genkendelse af alfanumeriske sekvenser (såsom telefonnumre, VIN'er osv.) på andre sprog, herunder spansk, kinesisk, japansk og fransk. På Big Bench Audio-evalueringen, der måler ræsonneringsfunktioner, scorer gpt-realtime 82,8 % nøjagtighed, der slår vores tidligere model fra december 2024, som scorer 65,6 %.

Big Bench Audio(åbner i et nyt vindue)-benchmark er et evalueringsdatasæt til vurdering af ræsonneringsfunktionerne i sprogmodeller, der understøtter lydinput. Dette datasæt tilpasser spørgsmål fra Big Bench Hard, der er valgt for sin nøje kontrol af avanceret ræsonnement, til lyddomænet.

At følge instruktioner

Når man bygger en tale-til-tale-applikation, giver udviklere et sæt instruktioner til modellen om, hvordan den skal opføre sig, herunder hvordan den skal tale, hvad den skal sige i en bestemt situation, og hvad den skal gøre eller ikke gøre. Vi har fokuseret vores forbedringer på overholdelsen af ​​disse instruktioner, så selv små instruktioner er vigtige for modellen. På Multichallenge Audio Benchmark, der måler instruktionsfølgningens nøjagtighed, scorer gpt-realtime 30,5 %, en betydelig forbedring i forhold til vores tidligere model fra december 2024, der scorede 20,6 %.

MultiChallenge(åbner i et nyt vindue) vurderer, hvor godt LLM'er håndterer samtaler med flere trin med mennesker. Den fokuserer på fire kategorier af realistiske udfordringer, som de nuværende grænsemodeller kæmper med. Disse udfordringer kræver, at modeller kombinerer instruktionsfølgning, kontekststyring og sammenhængende ræsonnement samtidig. Vi konverterede en lydvenlig undergruppe af testspørgsmålene fra tekst til tale for at oprette en lydversion af denne evaluering.

Funktionskald

For at opbygge en kompetent stemmeagent med en tale-til-tale-model, skal modellen være i stand til at kalde de rigtige værktøjer på det rigtige tidspunkt for at være nyttig i produktionen. Vi har forbedret funktionskald på tre akser: at kalde relevante funktioner, kald af funktioner på det rette tidspunkt og opkaldsfunktioner med passende argumenter (resulterer i højere nøjagtighed). På ComplexFuncbench Audio-evalueringen, der måler funktionskaldspræstation, scorer gpt-realtime 66,5 %, mens vores tidligere model fra december 2024 scorer 49,7 %.

Vi har også forbedret asynkrone funktionskald(åbner i et nyt vindue). Langvarige funktionskald vil ikke længere forstyrre sessionens flow. Modellen kan have en flydende samtale, mens den venter på resultater. Denne funktion er indbygget i gpt-realtime, så udviklere behøver ikke at opdatere deres kode.

ComplexFuncBench(åbner i et nyt vindue) måler, hvor godt modeller håndterer opgaver med funktionskald. Den evaluerer præstation på tværs af scenarier som opkald med flere trin, ræsonnering om begrænsninger eller implicitte parametre, håndtering af meget lange input. Vi konverterede de originale tekstforespørgsler til tale for at opbygge denne evaluering til vores model.

Nyt i Realtime API

Ekstern MCP-server-support

Du kan aktivere MCP-support i en Realtime API-session ved at videregive URL'en til en ekstern MCP-server til sessionkonfigurationen. Når API er tilsluttet, håndterer API automatisk værktøjet for dig, så der er ingen grund til at trække integrationer manuelt op.

Denne opsætning gør det nemt at udvide din agent med nye funktioner—peg bare sessionen på en anden MCP-server, og disse værktøjer bliver tilgængelige med det samme. For at få mere at vide om konfiguration af MCP med Realtime, se denne vejledning(åbner i et nyt vindue).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Billedinput

Med billedinput, der nu understøttes i gpt-realtime, kan du tilføje billeder, fotos og skærmbilleder sammen med lyd eller tekst til en Realtime API-session. Nu kan modellen bunde samtalen i, hvad brugeren faktisk ser, hvilket gør det muligt for brugere at stille spørgsmål som "Hvad ser du?" Eller "Læs teksten på dette skærmbillede."

I stedet for at behandle et billede som en livestream, behandler systemet det mere som at tilføje et billede i samtalen. Din app kan beslutte, hvilke billeder der skal deles med modellen, og hvornår den skal dele dem. På denne måde har du kontrol over, hvad modellen ser, og hvornår den reagerer.

Se vores dokumenter(åbner i et nyt vindue) for at komme i gang med billedinput.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Ekstra funktioner

Vi har tilføjet flere andre funktioner for at gøre Realtime API lettere at integrere og mere fleksibel til produktionsbrug.

Sikkerhed og privatliv

Realtime API indeholder flere lag af beskyttelsesforanstaltninger og afbødninger for at hjælpe med at forhindre misbrug. Du kan lære mere om vores sikkerhedsstrategi og systemkortoplysninger i beta-meddelelsesbloggen. Vi anvender aktive klassifikatorer over Realtime API-sessioner, hvilket betyder, at visse samtaler kan standses, hvis de overtræder vores retningslinjer for skadelige indhold. Udviklere kan også nemt tilføje deres egne ekstra sikkerhedsforanstaltninger ved hjælp af Agents SDK(åbner i et nyt vindue).

Vores brugspolitikker forbyder genanvendelse eller distribution af output fra vores tjenester til spam, vildledning eller andre skadelige formål. Udviklere skal også gøre det klart for slutbrugere, at de interagerer med AI, medmindre det allerede er indlysende fra konteksten. Realtime API bruger forudindstillede stemmer til at hjælpe med at forhindre ondsindede aktører i at efterligne andre.

Realtime API understøtter fuldt ud EU Data Residency(åbner i et nyt vindue) til EU-baserede applikationer og er dækket af vores Enterprises forpligtelser til databeskyttelse.

Priser og tilgængelighed

Den generelt tilgængelige Realtime API og den nye gpt-realtime-modellen er tilgængelig for alle udviklere fra og med i dag. Vi reducerer priserne for gpt-realtime med 20 % sammenlignet med gpt-4o-realtime-forhåndsvisning– 32 $/1m lydinput-tokens (0,40 $ for cache-input-tokens) og 64 $/1m lydoutput-tokens (se detaljerede priser(åbner i et nyt vindue)). Vi har også tilføjet hårfin kontrol til samtalekontekst for at lade udviklere indstille intelligente tokengrænser og trunkere flere omgange ad gangen, hvilket reducerer omkostningerne for lange sessioner markant.

Genafspilning af livestream

Skrevet af

OpenAI