Preskočiť na hlavný obsah
OpenAI

28. augusta 2025

ProduktVydanie

Predstavujeme aktualizácie gpt-realtime a Realtime API pre produkčných hlasových agentov

Uvádzame pokročilejší model speech-to-speech a nové možnosti rozhrania API, vrátane podpory MCP serverov, obrazového vstupu a telefonovania prostredníctvom SIP.

Štylizované rozhranie zobrazujúce hlasovú interakciu. V strede sa nachádza zaoblený obdĺžnikový audio prehrávač s vizualizáciou vlnového priebehu, tlačidlom prehrávania/pauzy, indikátorom stavu „agent online“ a časovou značkou 00:35. Biele zakrivené čiary s bodkami prechádzajú cez obrázok, čo naznačuje pohyb živého zvuku alebo signálu. Pozadie je sýto modré s rozmazanými tvarmi kvetov v ružových a fialových odtieňoch.
Načítava sa…

Dnes sprístupňujeme rozhranie Realtime API s novými funkciami, ktoré vývojárom a podnikom povoľujú vytvárať spoľahlivých hlasových agentov pripravených na produkciu. Rozhranie API teraz podporuje vzdialené MCP servery, obrazové vstupy a telefonovanie prostredníctvom protokolu Session Initiation Protocol (SIP), vďaka čomu sú hlasoví agenti výkonnejší, keďže majú prístup k ďalším nástrojom a kontextu.

Zároveň uvádzame náš doposiaľ najpokročilejší model speech-to-speech—gpt-realtime. Nový model vykazuje zlepšenia v plnení zložitých pokynov, v presnom používaní nástrojov a pri generovaní reči, ktorá znie prirodzenejšie a expresívnejšie. Lepšie interpretuje systémové správy a prompty vývojárov–či už ide o čítanie vylučovacích scriptov slovo za slovom počas hovoru na podpore, opakovanie alfanumerických znakov alebo plynulé prepínanie medzi jazykmi uprostred vety. Zároveň uvádzame aj dva nové hlasy, Cedar a Marin, ktoré sú od dnešného dňa exkluzívne dostupné v rozhraní Realtime API.

Odvtedy, čo sme v októbri minulého roka v rámci verejnej beta verzie prvýkrát predstavili rozhranie Realtime API, tisíce vývojárov s týmto rozhraním pracovali a pomohli formovať vylepšenia, ktoré dnes uvádzame–optimalizované z hľadiska spoľahlivosti, nízkej latencie a vysokej kvality, aby bolo možné úspešne nasadzovať hlasových agentov v produkčnom prostredí. Na rozdiel od tradičných pipeline riešení, ktoré prepájajú viaceré modely na prevod reči na text a textu na reč, rozhranie Realtime API spracúva a generuje zvuk priamo prostredníctvom jediného modelu a jediného rozhrania API. Tým sa znižuje latencia, zachovávajú sa jemné nuansy reči a vznikajú prirodzenejšie, expresívnejšie odpovede.

Nový model speech-to-speech v rozhraní OpenAI Realtime API ukazuje silnejšie uvažovanie a prirodzenejšiu reč–vďaka tomu zvláda zložité viacstupňové požiadavky, ako je zužovanie ponúk podľa životného štýlu alebo vedenie diskusií o finančnej dostupnosti pomocou nástrojov, ako je naše skóre BuyAbility. Vďaka tomu môže hľadanie domu na Zillow alebo skúmanie možností financovania pôsobiť rovnako prirodzene ako rozhovor s priateľom, čo pomáha zjednodušiť rozhodnutia, ako je kúpa, predaj či prenájom domu.“

– Josh Weisberg, vedúci AI v Zillow

Predstavujeme gpt-realtime

Nový model prevodu reči na reč speech-to-speech–gpt-realtime– je naším najpokročilejším hlasovým modelom pripraveným na produkčné použitie. Model sme trénovali v úzkej spolupráci so zákazníkmi tak, aby vynikal v reálnych úlohách, ako sú zákaznícka podpora, osobná asistencia a vzdelávanie–v súlade s tým, ako vývojári vytvárajú a nasadzujú hlasových agentov. Model vykazuje zlepšenia v kvalite zvuku, „inteligencii“, plnení pokynov aj pri vyvolávaní funkcií (function calling).

Kvalita zvuku

Prirodzene znejúca konverzácia je kľúčová pre nasadenie hlasových agentov v reálnom svete. Modely musia hovoriť s intonáciou, emóciou a tempom reálneho človeka, aby vytvorili príjemný zážitok a podporili nepretržitú konverzáciu s používateľmi. Vytrénovali sme gpt-realtime na produkciu kvalitnejšej reči, ktorá znie prirodzenejšie a dokáže nasledovať jemné pokyny, ako napríklad „hovorte rýchlo a profesionálne“ alebo „hovorte empaticky s francúzskym prízvukom.“

V rozhraní API uvádzame dva nové hlasy, Marin a Cedar, s najvýznamnejšími vylepšeniami prirodzene znejúcej reči. Taktiež aktualizujeme našich existujúcich osem hlasov, aby sme mohli z týchto vylepšení profitovať.

Hlasová vzorka - Marin
Hlasová vzorka - Cedar

Inteligencia a porozumenie

gpt-realtime vykazuje vyššiu inteligenciu a dokáže s väčšou presnosťou porozumieť natívnemu zvuku. Model dokáže zachytiť neverbálne signály (ako smiech), prepínať jazyky uprostred vety a prispôsobovať tón („stručný a profesionálny“ verzus „láskavý a empatický“). Podľa interných hodnotení model tiež vykazuje presnejší výkon pri detekcii alfanumerických sekvencií (ako sú telefónne čísla, VIN a pod.) v iných jazykoch, vrátane španielčiny, čínštiny, japončiny a francúzštiny. V hodnotení Big Bench Audio, ktoré meria schopnosti myslenia, dosahuje gpt-realtime presnosť 82,8 %–čím prekonáva náš predchádzajúci model z decembra 2024, ktorý dosahuje 65,6 %.

Big Bench Audio(otvorí sa v novom okne) benchmark je evaluačný dataset na posudzovanie schopností uvažovania jazykových modelov, ktoré podporujú zvukový vstup. Tento dataset adaptuje otázky z Big Bench Hard—vybraného pre jeho dôkladné testovanie pokročilého myslenia—do zvukovej domény.

Dodržiavanie pokynov

Pri vytváraní aplikácie speech-to-speech vývojári poskytujú modelu súbor pokynov, ako sa má správať, vrátane toho, ako má hovoriť, čo má povedať v určitej situácii a čo má alebo nemá robiť. Zamerali sme naše vylepšenia na dôsledné dodržiavanie týchto pokynov, aby aj drobné inštrukcie mali pre model väčšiu výpovednú hodnotu. V audio benchmarci MultiChallenge, ktorý meria presnosť dodržiavania pokynov, dosahuje gpt-realtime skóre 30,5 %, čo predstavuje výrazné zlepšenie oproti nášmu predchádzajúcemu modelu z decembra 2024 so skóre 20,6 %.

MultiChallenge(otvorí sa v novom okne) hodnotí, ako dobre LLM zvládajú viackolové konverzácie s ľuďmi. Zameriava sa na štyri kategórie realistických výziev, s ktorými sa súčasné špičkové modely potýkajú. Tieto výzvy vyžadujú, aby modely súčasne kombinovali sledovanie inštrukcií, riadenie kontextu a uvažovanie v rámci kontextu. Previedli sme zvukovo prispôsobenú podmnožinu testových otázok z textu na reč, aby sme vytvorili zvukovú verziu tohto hodnotenia.

Volanie funkcií

Na vytvorenie schopného hlasového agenta s modelom speech-to-speech musí byť model schopný v produkčnom prostredí používať správne nástroje v správnom čase. Vylepšili sme volanie funkcií v troch rovinách: volanie relevantných funkcií, volanie funkcií v vhodnom čase a volanie funkcií s vhodnými argumentmi (čo vedie k vyššej presnosti). V audio hodnotení ComplexFuncBench, ktoré meria výkon pri volaní funkcií, dosahuje gpt-realtime skóre 66,5 %, zatiaľ čo náš predchádzajúci model z decembra 2024 dosahuje 49,7 %.

Taktiež sme vylepšili asynchrónne volanie funkcií(otvorí sa v novom okne). Dlhotrvajúce volania funkcií už nebudú narúšať priebeh relácie–model môže pokračovať v plynulej konverzácii aj počas čakania na výsledky. Táto funkcia je dostupná natívne v gpt-realtime, takže vývojári nemusia aktualizovať svoj kód.

ComplexFuncBench(otvorí sa v novom okne) meria, ako dobre modely zvládajú náročné úlohy volania funkcií. Vyhodnocuje výkon v rôznych scenároch, ako sú viackrokové volania, myslenie o obmedzeniach alebo implicitných parametroch a spracovanie veľmi dlhých vstupov. Na vytvorenie tohto vyhodnotenia pre náš model sme pôvodné textové prompty previedli na reč.

Novinky v rozhraní Realtime API

Podpora pre vzdialený server MCP

Podporu MCP môžete v relácii Realtime API povoliť tak, že do konfigurácie relácie zadáte URL vzdialeného MCP servera. Po pripojení rozhranie API automaticky spracováva volania nástrojov za vás, takže nie je potrebné manuálne prepájať integrácie.

Toto nastavenie uľahčuje rozšírenie vášho agenta o nové funkcie–stačí presmerovať reláciu na iný server MCP a tieto nástroje budú okamžite k dispozícii. Ak sa chcete dozvedieť viac o konfigurácii MCP s Realtime, prečítajte si túto príručku(otvorí sa v novom okne).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Obrazový vstup

Keďže gpt-realtime teraz podporuje obrazové vstupy, môžete do relácie Realtime API popri zvuku alebo texte pridávať aj obrázky, fotografie a snímky obrazovky. Model teraz dokáže ukotviť konverzáciu v tom, čo používateľ skutočne vidí, takže používatelia môžu klásť otázky ako „čo vidíš?“ alebo „prečítaj text na tejto snímke obrazovky“.

Namiesto toho, aby systém s obrázkom zaobchádzal ako so živým videostreamom, pracuje s ním skôr tak, ako keby do konverzácie pridával obrázok. Vaša aplikácia môže rozhodnúť, ktoré obrázky zdieľať s modelom a kedy ich zdieľať. Takto máte kontrolu nad tým, čo model vidí a kedy reaguje.

Pozrite si našu dokumentáciu(otvorí sa v novom okne) a začnite s obrazovým vstupom.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Ďalšie funkcie

Pridali sme niekoľko ďalších funkcií, aby sa rozhranie Realtime API ľahšie integrovalo a bolo flexibilnejšie na použitie v produkcii.

Bezpečnosť a súkromie

Rozhranie Realtime API obsahuje viacero vrstiev ochranných a zmierňujúcich opatrení, ktoré pomáhajú predchádzať zneužitiu. Viac informácií o našom bezpečnostnom prístupe a podrobnostiach o systémových kartách si môžete prečítať v blogu s oznámeniami o beta verzii. V reláciách Realtime API používame aktívne klasifikátory, čo znamená, že určité konverzácie môžu byť zastavené, ak sa zistí, že porušujú naše pokyny týkajúce sa škodlivého obsahu. Vývojári môžu pomocou súpravy agentov SDK(otvorí sa v novom okne) ľahko pridávať aj vlastné dodatočné bezpečnostné zábrany.

Naše Pravidlá používania zakazujú opätovné použitie alebo distribúciu výstupov z našich služieb na spam, podvody alebo iné škodlivé účely. Vývojári musia tiež jasne informovať koncových používateľov, kedy interagujú s umelou inteligenciou, pokiaľ to nie je zrejmé z kontextu. Rozhranie Realtime API používa prednastavené hlasy, aby pomohlo zabrániť škodlivým aktérom vydávať sa za iných.

Rozhranie Realtime API v plnej miere podporuje ukladanie dát v EÚ (EU Data Residency)(otvorí sa v novom okne) pre aplikácie so sídlom v EÚ a vzťahujú sa naň naše podnikové záväzky v oblasti ochrany súkromia.

Ceny a dostupnosť

Všeobecne dostupné rozhranie Realtime API a nový model gpt-realtime sú od dnešného dňa k dispozícii všetkým vývojárom. Znižujeme ceny za GPT‑realtime o 20 % v porovnaní s GPT‑4o‑realtime—32 USD/1 milión vstupných tokenov vo vyrovnávacej pamäti (0,40 USD za vstupné tokeny vo vyrovnávacej pamäti) a 64 USD/1 milión výstupných tokenov (pozri podrobné ceny(otvorí sa v novom okne)). Zaviedli sme aj jemnejšie riadenie kontextu konverzácie, aby mohli vývojári nastavovať inteligentné limity tokenov a naraz skracovať viacero ťahov, čo výrazne znižuje náklady pri dlhých reláciách.

Záznam z priameho prenosu

Autor

OpenAI