Overslaan naar hoofdinhoud
OpenAI

28 augustus 2025

ProductRelease

Maak kennis met gpt-realtime en Realtime API-updates voor productie-spraakassistenten

We brengen een geavanceerder spraak-naar-spraakmodel en nieuwe API-mogelijkheden uit, waaronder ondersteuning voor MCP-servers, beeldinvoer en ondersteuning voor SIP-telefoongesprekken.

Gestileerde interface die een spraakinteractie weergeeft. In het midden staat een afgeronde rechthoekige audiospeler met een golfvormvisualisatie, afspeel-/pauzeknop, statusindicator ‘Agent online’ en tijdstempel van 00:35. Witte gebogen lijnen met stippen lopen over het beeld en suggereren live audio of signaalbeweging. De achtergrond is levendig blauw met vage bloemvormen in roze en paarse tinten.
Bezig met laden...

Vandaag maken we de Realtime API algemeen beschikbaar met nieuwe functies waarmee ontwikkelaars en bedrijven betrouwbare, productieklare spraakassistenten kunnen bouwen. De API ondersteunt nu externe MCP-servers, beeldinvoer en telefoongesprekken via Session Initiation Protocol (SIP), waardoor spraakassistenten meer mogelijkheden krijgen door toegang tot aanvullende tools en context.

We brengen ook ons meest geavanceerde spraak-naar-spraakmodel tot nu toe uit—gpt-realtime. Het nieuwe model vertoont verbeteringen in het volgen van complexe instructies, het nauwkeurig aanroepen van tools en het produceren van spraak die natuurlijker en expressiever klinkt. Het is beter in het interpreteren van systeemmeldingen en ontwikkelaarprompts, of het nu gaat om het woord voor woord voorlezen van disclaimers tijdens een ondersteuningsgesprek, het herhalen van alfanumerieke tekens of het naadloos schakelen tussen talen midden in een zin. We brengen ook twee nieuwe stemmen uit, Cedar en Marin, die vanaf vandaag exclusief beschikbaar zijn in de Realtime API.

Sinds we de Realtime API afgelopen oktober voor het eerst in openbare bèta hebben geïntroduceerd, hebben duizenden ontwikkelaars met de API gebouwd en geholpen bij het vormgeven van de verbeteringen die we vandaag introduceren. Deze zijn geoptimaliseerd voor betrouwbaarheid, lage latentie en hoge kwaliteit, zodat spraakassistenten met succes in productie kunnen worden ingezet. In tegenstelling tot traditionele pijplijnen die meerdere modellen voor spraak-naar-tekst en tekst-naar-spraak aan elkaar koppelen, verwerkt en genereert de Realtime API audio rechtstreeks via één enkel model en één enkele API. Dit vermindert de latentie, behoudt de nuances in spraak en zorgt voor natuurlijkere, expressievere reacties.

"Het nieuwe spraak-naar-spraakmodel in de Realtime API van OpenAI vertoont een sterkere redenering en natuurlijkere spraak, waardoor het complexe, meerstapsverzoeken kan verwerken, zoals het verfijnen van aanbiedingen op basis van levensstijlbehoeften of het begeleiden van discussies over betaalbaarheid met tools zoals onze BuyAbility-score. Hierdoor kan het zoeken naar een woning op Zillow of het verkennen van financieringsmogelijkheden net zo natuurlijk aanvoelen als een gesprek met een vriend, waardoor beslissingen zoals het kopen, verkopen en huren van een woning eenvoudiger worden."

– Josh Weisberg, Head of AI bij Zillow

Maak kennis met gpt-realtime

Het nieuwe spraak-naar-spraakmodel — gpt-realtime — is ons meest geavanceerde, productieklare spraakmodel. We hebben het model in nauwe samenwerking met klanten getraind om uit te blinken in praktische taken zoals klantenondersteuning, persoonlijke assistentie en onderwijs. Daarbij hebben we het model afgestemd op de manier waarop ontwikkelaars spraakassistenten bouwen en implementeren. Het model laat verbeteringen zien op het gebied van audiokwaliteit, intelligentie, het opvolgen van instructies en het aanroepen van functies.

Audiokwaliteit

Natuurlijk klinkende gesprekken zijn van cruciaal belang voor het implementeren van spraakassistenten in de praktijk. Modellen moeten spreken met de intonatie, emotie en snelheid van een mens om een prettige ervaring te creëren en een continu gesprek met gebruikers te stimuleren. We hebben gpt-realtime getraind om spraak van hogere kwaliteit te produceren die natuurlijker klinkt en gedetailleerde instructies kan volgen, zoals ‘spreek snel en professioneel’ of ‘spreek empathisch met een Frans accent’.

We brengen twee nieuwe stemmen uit in de API, Marin en Cedar, met de belangrijkste verbeteringen op het gebied van natuurlijk klinkende spraak. We werken ook onze acht bestaande stemmen bij om van deze verbeteringen te profiteren.

Stemvoorbeeld - Marin
Stemvoorbeeld - Cedar

Intelligentie en begrip

gpt-realtime vertoont een hogere intelligentie en kan native audio met grotere nauwkeurigheid begrijpen. Het model kan non-verbale signalen (zoals lachen) oppikken, halverwege een zin van taal wisselen en de toon aanpassen (‘pittig en professioneel’ versus ‘vriendelijk en empathisch’). Volgens interne evaluaties presteert het model ook nauwkeuriger bij het detecteren van alfanumerieke reeksen (zoals telefoonnummers, VIN's, enz.) in andere talen, waaronder Spaans, Chinees, Japans en Frans. Op de Big Bench Audio-evaluatie, die redeneervermogen meet, behaalt gpt-realtime een nauwkeurigheid van 82,8%. Daarmee verslaat het ons vorige model uit december 2024, dat 65,6% behaalde.

De Big Bench Audio(opent in een nieuw venster)-benchmark is een evaluatiedataset voor het beoordelen van het redeneervermogen van taalmodellen die audio-invoer ondersteunen. Deze dataset past vragen uit Big Bench Hard – gekozen vanwege de strenge tests van geavanceerde redenering – aan voor het audiodomein.

Volgen van instructies

Bij het bouwen van een spraak-naar-spraak-toepassing geven ontwikkelaars het model een reeks instructies over hoe het zich moet gedragen, waaronder hoe het moet spreken, wat het in een bepaalde situatie moet zeggen en wat het wel en niet moet doen. We hebben onze verbeteringen gericht op het naleven van deze instructies, zodat zelfs kleine aanwijzingen meer betekenis hebben voor het model. Op de MultiChallenge-audiobenchmark, die de nauwkeurigheid van het opvolgen van instructies meet, scoort gpt-realtime 30,5%, een aanzienlijke verbetering ten opzichte van ons vorige model uit december 2024, dat 20,6% scoort.

MultiChallenge(opent in een nieuw venster) evalueert hoe goed LLM's omgaan met gesprekken met meerdere beurten met mensen. Het richt zich op vier categorieën van realistische uitdagingen waar de huidige grensmodellen mee worstelen. Deze uitdagingen eisen van modellen om het volgen van instructies, contextbeheer en redeneren in context tegelijkertijd te combineren. We hebben een audio-vriendelijke subset van de testvragen omgezet van tekst naar spraak om een audioversie van deze evaluatie te creëren.

Functie aanroepen

Om een capabele spraakassistent met een spraak-naar-spraak-model te bouwen, moet het model in staat zijn om op het juiste moment de juiste tools aan te roepen om bruikbaar te zijn in productie. We hebben het aanroepen van functies op drie punten verbeterd: het aanroepen van relevante functies, het aanroepen van functies op het juiste moment en het aanroepen van functies met de juiste argumenten (wat resulteert in een hogere nauwkeurigheid). Op de ComplexFuncBench-audio-evaluatie die de prestaties van het aanroepen van functies meet, scoort gpt-realtime 66,5%, terwijl ons vorige model uit december 2024 49,7% scoort.

We hebben ook verbeteringen aangebracht bij het asynchroon aanroepen van functies(opent in een nieuw venster). Langdurig aanroepen van functies zal de flow van een sessie niet langer verstoren: het model kan een vloeiend gesprek voortzetten terwijl het op resultaten wacht. Deze functie is standaard beschikbaar in gpt-realtime, dus ontwikkelaars hoeven hun code niet bij te werken.

ComplexFuncBench(opent in een nieuw venster) meet hoe goed modellen omgaan met uitdagende taken op het gebied van functie aanroepen. Het evalueert prestaties in verschillende scenario's, zoals meerstapsaanroepen, redeneren over beperkingen of impliciete parameters, en het verwerken van zeer lange invoer. We hebben de originele tekstprompts omgezet in spraak om deze evaluatie voor ons model te bouwen.

Nieuw in de Realtime API

Ondersteuning voor externe MCP-servers

Je kunt MCP-ondersteuning inschakelen in een Realtime API-sessie door de URL van een externe MCP-server door te geven aan de sessieconfiguratie. Zodra de verbinding tot stand is gebracht, verwerkt de API automatisch de toolaanroepen voor jou, zodat je integraties niet handmatig hoeft te koppelen.

Met deze configuratie kun je je agent eenvoudig uitbreiden met nieuwe mogelijkheden. Je hoeft alleen maar de sessie naar een andere MCP-server te verwijzen en die tools zijn direct beschikbaar. Voor meer informatie over het configureren van MCP met Realtime, raadpleeg deze handleiding(opent in een nieuw venster).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Beeldinvoer

Nu beeldinvoer wordt ondersteund in gpt-realtime, kun je naast audio of tekst ook afbeeldingen, foto's en schermafbeeldingen toevoegen aan een Realtime API-sessie. Nu kan het model het gesprek baseren op wat de gebruiker daadwerkelijk ziet, waardoor gebruikers vragen kunnen stellen als “wat zie je?” of “lees de tekst in deze schermafbeelding”.

In plaats van een afbeelding te behandelen als een live videostream, behandelt het systeem deze meer als het toevoegen van een foto aan het gesprek. Je app kan bepalen welke afbeeldingen met het model worden gedeeld en wanneer ze worden gedeeld. Op deze manier houd je controle over wat het model ziet en wanneer het reageert.

Bekijk onze documentatie(opent in een nieuw venster) om aan de slag te gaan met beeldinvoer.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Aanvullende mogelijkheden

We hebben verschillende andere functies toegevoegd om de Realtime API gemakkelijker te integreren en flexibeler te maken voor productiegebruik.

Veiligheid & privacy

De Realtime API bevat meerdere lagen van beschermingsmaatregelen en beperkende maatregelen om misbruik te helpen voorkomen. Meer informatie over onze veiligheidsaanpak en de details van de systeemkaart vind je in de beta-aankondigingsblog. We gebruiken actieve classifiers voor Realtime API-sessies, wat betekent dat bepaalde gesprekken kunnen worden stopgezet als ze in strijd zijn met onze richtlijnen inzake schadelijke inhoud. Ontwikkelaars kunnen ook eenvoudig hun eigen extra veiligheidsmaatregelen toevoegen met behulp van de Agents SDK(opent in een nieuw venster).

Ons gebruiksbeleid verbiedt het hergebruiken of verspreiden van uitvoer van onze diensten voor spam, misleiding of andere schadelijke doeleinden. Ontwikkelaars moeten eindgebruikers ook duidelijk maken wanneer ze met AI communiceren, tenzij dit al duidelijk is uit de context. De Realtime API maakt gebruik van vooraf ingestelde stemmen om te voorkomen dat kwaadwillende personen zich voordoen als iemand anders.

De Realtime API ondersteunt gegevensopslag binnen de EU(opent in een nieuw venster) volledig voor toepassingen die in de EU zijn gevestigd en valt onder onze privacygaranties voor bedrijven.

Prijzen & beschikbaarheid

De algemeen beschikbare Realtime API en het nieuwe gpt-realtime-model zijn vanaf vandaag beschikbaar voor alle ontwikkelaars. We verlagen de prijzen voor gpt-realtime met 20% ten opzichte van gpt-4o-realtime-preview —$32 / 1 miljoen audio-invoertokens ($0,40 voor invoertokens in cache) en $64 / 1 miljoen audio-uitvoertokens (zie gedetailleerde prijzen(opent in een nieuw venster)). We hebben ook gedetailleerde controle voor gesprekscontext toegevoegd, zodat ontwikkelaars intelligente tokenlimieten kunnen instellen en meerdere beurten tegelijk kunnen inkorten, waardoor de kosten voor lange sessies aanzienlijk worden verlaagd.

Herhaling van livestream

Auteur

OpenAI