
Idag gör vi Realtime API:et allmänt tillgängligt med nya funktioner som låter utvecklare och företag skapa tillförlitliga produktionsredo röstagenter. API:et stödjer nu fjärrstyrda MCP-servrar, bildindata och telefonsamtal genom Session Initiation Protocol (SIP), vilket förbättrar röstagenter med åtkomst till ytterligare verktyg och kontext.
Vi släpper även vår mest avancerade tal-till-tal-modell hittills –gpt-realtime. Den nya modellen uppvisar förbättringar i följande komplexa instruktioner, anropar verktyg med precision och producerar tal som låter mer naturligt och uttrycksfullt. Den är bättre på att tolka systemmeddelanden och utvecklares prompter – om det gäller att läsa ansvarsfriskrivningsskript ord för ord under ett supportsamtal, upprepa alfanumeriska tecken eller sömlöst växla mellan språk mitt i en mening. Vi släpper också två nya röster, Cedar och Marin, som är tillgängliga exklusivt i Realtime API:et från och med idag.
Efter att vi först presenterade Realtime API:et i offentlig beta förra oktober har tusentals utvecklare skapat med API:et och hjälpt forma förbättringarna vi släpper idag – optimerade för tillförlitlighet, låg latens och hög kvalitet för att framgångsrikt använda röstagenter i produktion. Till skillnad från traditionella pipelines som sammanlänkar flera olika modeller över tal-till-text och text-till-tal, behandlar och genererar Realtime API:et ljud direkt genom en enda modell och ett API. Det minskar latensen, bevarar talnyanser och producerar mer naturliga, uttryckliga svar.
”Den nya tal-till-tal-modellen i OpenAI:s Realtime API uppvisar bättre resonemang och mer naturligt tal, vilket gör att den kan hantera komplexa, flerstegsförfrågningar såsom att filtrera listor efter livsstilsbehov eller guida diskussioner om överkomliga priser med rankningar från verktyget BuyAbility. Detta kan få bostadssökningar på Zillow eller utforskandet av finansieringsalternativ att kännas lika naturligt som ett samtal med en vän och förenkla beslut såsom att köpa, sälja och hyra en bostad.”
– Josh Weisberg, AI-ansvarig på Zillow
Den nya tal-till-tal-modellen –gpt-realtime– är vår mest avancerade produktionsredo röstmodell. Vi har tränat modellen i nära samarbete med kunder så att den utmärker sig i verkliga uppgifter, såsom kundtjänst, personlig assistans och utbildning genom att anpassa modellen efter hur utvecklare skapar och använder röstagenter. Modellen uppvisar förbättringar i ljudkvalitet, intelligens, att följa instruktioner och funktionsanrop.
Samtal som låter naturliga är väsentligt vid användning av röstagenter i den verkliga världen. Modeller behöver tala med samma tonfall, känslor och takt som en människa för att skapa en positiv upplevelse och uppmuntra till fortsatt samtal med användare. Vi har tränat gpt-realtime till att producera tal med högre talkvalitet som låter mer naturligt och kan följa detaljerade instruktioner, såsom ”tala snabbt och professionellt” eller ”tala empatiskt med en fransk accent”.
Vi släpper två nya röster i API:et, Marin och Cedar, med de mest märkbara förbättringarna i tal som låter naturligt. Vi uppdaterar också vår nuvarande åtta röster med dessa förbättringar.
gpt-realtime uppvisar högre intelligens och kan förstå nativt ljud med bättre noggrannhet. Modellen kan uppfatta icke-verbala signaler (såsom skratt), byta språk mitt i en mening och anpassa tonfallet (”kort och professionell” kontra ”snäll och empatisk”). Enligt våra interna utvärderare uppvisar modellen också mer exakta resultat i att upptäcka alfanumeriska sekvenser (såsom telefonnummer, VIN:er, osv.) på andra språk, inklusive spanska, kinesiska, japanska och franska. Under Big Bench Audio-utvärderingen, som mäter resonemangsfunktioner, uppvisade gpt-realtime 82,8 % noggrannhet, vilket överträffade vår föregående modells resultat på 65,6 % i december 2024.
Big Bench Audio(öppnas i ett nytt fönster)-riktmärket är en utvärderingsdatamängd för att bedöma resonemangsfunktionerna i språkmodeller som stödjer ljudindata. Denna datamängd anpassar frågor från Big Bench Hard, utvalda för dess rigorösa testning av avancerade resonemang, in i ljuddomänen.
Vid skapandet av en tal-till-tal-applikation ger utvecklare modellen en rad instruktioner om hur den ska bete sig, inklusive hur den ska tala, vad den ska säga beroende på situationen och vad den ska och inte ska göra. Vi har fokuserat våra förbättringar på följsamheten till dessa instruktioner så att modellen även följer lättare instruktioner. Under MultiChallenge ljudriktmärket, som mäter noggrannheten i instruktionsföljsamhet uppvisade gpt-realtime 30,5 % noggrannhet, vilket är en stor förbättring i jämförelse med vår föregående modells resultat på 20,6 % i december 2024.
MultiChallenge(öppnas i ett nytt fönster) utvärderar hur väl LLM:er hanterar flerstegssamtal med människor. Den fokuserar på fyra kategorier med realistiska utmaningar som befintliga gränsmodeller kämpar med. Dessa utmaningar kräver att modellerna sammanför instruktionsföljsamhet, kontexthantering och resonemang i kontext samtidigt. Vi omvandlade en ljudvänlig del av testfrågorna från text-till-tal för att skapa en ljudversion av den här utvärderingen.
För att skapa en kapabel röstagent med en tal-till-tal-modell behöver modellen kunna anropa de rätta verktygen vid rätt tidpunkt för att vara användbar i produktionen. Vi har förbättrat funktionsanrop på tre sätt: anropa relevanta funktioner, anropa funktioner vid lämplig tidpunkt och anropa funktioner med lämpliga argument (vilket leder till förbättrad noggrannhet). Under ComplexFuncBench-ljudutvärderingen, som mäter funktionsanropens prestanda, uppvisade gpt-realtime 66,5 % noggrannhet, medan vår föregående modell uppnådde 49,7 % i december 2024.
Vi har också förbättrat asynkrona funktionsanrop(öppnas i ett nytt fönster). Långvariga funktionsanrop kommer inte längre avbryta sessionsflödet. Modellen kan fortsätta ett sammanhängande samtal medan den inväntar resultat. Den här funktionen är nativt tillgänglig i gpt-realtime så utvecklare behöver inte uppdatera sina koder.
ComplexFuncBench(öppnas i ett nytt fönster) mäter hur väl modeller hanterar utmanande funktionsanropsuppgifter. Den utvärderar prestanda för scenarier såsom flerstegssamtal, resonemang om begränsningar eller implicita parametrar med hantering av väldigt långa indata. Vi omvandlade de ursprungliga textprompterna till tal för att skapa den här utvärderingen för vår modell.
Du kan aktivera MCP-support i en Realtime API-session genom att skicka webbadressen till MCP-fjärrservern vidare in i sessionskonfigurationen. När API:et är anslutet hanterar den automatiskt verktygsansropen åt dig så du behöver inte sammanlänka integrationerna manuellt.
På så sätt blir det enkelt att förbättra din agent med nya funktioner. Styr bara sessionen till den andra MCP-servern så blir dessa verktyg tillgängliga på en gång. Kolla in den här guiden(öppnas i ett nytt fönster) för att lära dig mer om hur man konfigurerar MCP med Realtime.
När nu bildindata stöds i gpt-realtime kan du lägga till bilder, foton och skärmdumpar med ljud eller text i en Realtime API-session. Nu kan modellen basera samtalet på vad användaren faktiskt ser så att användare kan ställa frågor såsom ”vad ser du?” eller ”läs texten i den här skärmdumpen”.
Istället för att behandla en bild som en livevideoström behandlar systemet den mer som en bild som lagts till i samtalet. Din app kan avgöra vilka bilder som ska delas med modellen och när de ska delas. På så sätt har du kontrollen över vad modellen ser och när den svarar.
Kolla in våra dokument(öppnas i ett nytt fönster) för att komma igång med bildindata.
Vi har lagt till flera andra funktioner som gör Realtime API:et lättare att integrera och mer flexibelt för produktionsanvändning.
- Stöd för Session Initiation Protocol (SIP): Anslut dina appar till det offentliga telefonnätverket, PBX-system, bordstelefoner och andra SIP-slutpunkter med direktsupport i Realtime API:et. Läs mer i dokument.(öppnas i ett nytt fönster)
- Återanvändbara prompter: Du kan nu spara och återanvända prompter, som består av utvecklarmeddelanden, verktyg, variabler och exempel på användar-/assistentmeddelanden, över Realtime API-sessioner såsom i Responses-API:et. Läs mer i våra dokument.(öppnas i ett nytt fönster)
Realtime API:et använder sig av flera lager skyddsåtgärder och förmildrande åtgärder för att förhindra missbruk. Du kan läsa mer om våra säkerhetsmetoder och systemkortsinformation i vår tillkännagivandeblogg för beta. Vi använder aktiva klassificerare under Realtime API-sessioner, vilket innebär att samtal kan avbrytas om de anses bryta mot våra riktlinjer för skadligt innehåll. Utvecklare kan också enkelt lägga till sina egna skyddsåtgärder genom att använda Agents SDK(öppnas i ett nytt fönster).
Våra användarvillkor förbjuder återanvändning eller distribution av resultat från våra tjänster för spam, bedrägeri eller andra skadliga ändamål. Utvecklare måste också tala om för slutanvändare när de interagerar med AI om det inte redan är uppenbart från sammanhanget. Realtime API:et använder förinställda röster för att förhindra skadliga aktörer från att imitera andra personer.
Realtime API:et stödjer till fullo EU dataresidens(öppnas i ett nytt fönster) för EU-baserade applikationer och omfattas av våra företagsintegritetsåtaganden.
Det allmänt tillgängliga Realtime API:et och vår nya gpt-realtime-modell är tillgängliga för alla utvecklare från och med idag. Vi sänker priserna för gpt-realtime med 20 % jämfört med gpt-4o-realtime-förhandsgranskningen – 32 $ / 1M ljudindatatoken (0,40 $ för cachade indatatoken) och 64 $ / 1M ljudindatatoken (se prisinformation(öppnas i ett nytt fönster)). Vi har också lagt till finjusterad kontroll för samtalskontext så att utvecklare kan fastställa intelligenta tokengränser och förkorta flera turer åt gången, vilket minskar kostnaden väsentligt för längre sessioner.
Besök våra Realtime API-dokument(öppnas i ett nytt fönster) för att komma igång, testa den nya modellen i Playground(öppnas i ett nytt fönster) och läsa vår Realtime API promptguide(öppnas i ett nytt fönster).


