28. srpna 2025

Představujeme gpt-realtime a aktualizace rozhraní API Realtime pro produkční hlasové agenty

Vydáváme pokročilejší model převodu řeči na řeč a nové schopnosti API, včetně podpory serveru MCP, vstupu obrázků a podpory volání přes SIP.

Stylizované rozhraní zobrazující hlasovou interakci. Uprostřed je zaoblený obdélníkový audio přehrávač s vizualizací zvukové vlny, tlačítkem přehrát/pozastavit, indikátorem stavu „Agent online“ a časovým razítkem 00:35. Bílé zakřivené čáry s tečkami se pohybují po obrázku a naznačují živý zvuk nebo pohyb signálu. Pozadí je zářivě modré s rozmazanými tvary květin v růžových a fialových odstínech.

Načítání…

Dnes zpřístupňujeme Realtime API s novými funkcemi, které vývojářům a podnikům povolují vytvářet spolehlivé, produkčně připravené hlasové agenty. API nyní podporuje vzdálené servery MCP, vstupy obrázků a telefonní hovory prostřednictvím protokolu SIP (Session Initiation Protocol), což činí hlasové agenty schopnějšími díky přístupu k dalším nástrojům a kontextu.

Také vydáváme náš dosud nejpokročilejší model převodu řeči na řeč – gpt-realtime. Nový model ukazuje zlepšení ve sledování složitých instrukcí, přesném volání nástrojů a produkci řeči, která zní přirozeněji a výrazněji. Je lepší v interpretaci systémových zpráv a pokynů vývojářů – ať už jde o čtení skriptů s prohlášením o vyloučení odpovědnosti slovo od slova při hovoru s podporou, opakování alfanumerických znaků nebo plynulé přepínání mezi jazyky uprostřed věty. Také uvádíme dva nové hlasy, Cedar a Marin, které jsou od dnešního dne dostupné výhradně v rozhraní Realtime API.

Od prvního představení Realtime API ve veřejné beta verzi v říjnu loňského roku s ním tisíce vývojářů pracovaly a pomohly utvářet vylepšení, která dnes vydáváme – optimalizovaná pro spolehlivost, nízkou latenci a vysokou kvalitu pro úspěšné nasazení hlasových agentů v produkčním prostředí. Na rozdíl od tradičních pipeline, které propojují více modelů pro převod řeči na text a textu na řeč, Realtime API zpracovává a vytvoří zvuk přímo pomocí jediného modelu a API. To snižuje latenci, zachovává nuance v řeči a vytváří přirozenější a výraznější reakce.

Nový model převodu řeči na řeč v OpenAI Realtime API ukazuje silnější schopnost uvažování a přirozenější řeč – umožňuje zpracovávat složité, vícestupňové požadavky, jako je zužování seznamů podle potřeb životního stylu nebo vedení diskuzí o dostupnosti pomocí nástrojů, jako je naše skóre BuyAbility. To by mohlo způsobit, že hledání domu na Zillow nebo prozkoumání možností financování bude stejně přirozené jako konverzace s kamarádem, což pomůže zjednodušit rozhodování, jako je koupě, prodej a pronájem domu.

– Josh Weisberg, vedoucí AI v Zillow

Představujeme gpt-realtime

Nový model převodu řeči na řeč – gpt-realtime – je náš nejpokročilejší hlasový model připravený pro produkční prostředí. Model jsme trénovali v úzké spolupráci se zákazníky, aby vynikal v reálných úkolech, jako je zákaznická podpora, osobní asistence a vzdělávání – a přizpůsobili jsme ho tomu, jak vývojáři vytvářejí a nasazují hlasové agenty. Model ukazuje zlepšení v kvalitě zvuku, inteligenci, sledování instrukcí a volání funkcí.

Kvalita zvuku

Pro nasazení hlasových agentů v reálném světě je klíčová přirozeně znějící konverzace. Modely musí mluvit s intonací, emocemi a tempem člověka, aby vytvořily příjemný zážitek a podpořily nepřetržitou konverzaci s uživateli. Vytrénovali jsme gpt-realtime k produkci kvalitnější řeči, která zní přirozeněji a dokáže dodržovat jemné pokyny, jako například „mluv rychle a profesionálně“ nebo „mluv empaticky s francouzským přízvukem“.

Vydáváme dva nové hlasy v API, Marin a Cedar, s nejvýznamnějšími vylepšeními pro přirozeně znějící řeč. Aktualizujeme také našich osm stávajících hlasů, aby mohly těžit z těchto vylepšení.

Hlasový vzorek – Marin

Hlasový vzorek – Cedar

Inteligence a porozumění

gpt-realtime vykazuje vyšší inteligenci a dokáže s větší přesností porozumět nativnímu zvuku. Model může zachytit neverbální signály (jako je smích), přepínat jazyky uprostřed věty a přizpůsobit tón („stručný a profesionální“ vs. „laskavý a empatický“). Podle interních hodnocení model také vykazuje přesnější výkon při detekci alfanumerických sekvencí (jako jsou telefonní čísla, VIN atd.) v jiných jazycích, včetně španělštiny, čínštiny, japonštiny a francouzštiny. V hodnocení Big Bench Audio, které měří schopnosti uvažování, dosahuje gpt-realtime přesnosti 82,8 % – čímž překonává náš předchozí model z prosince 2024, který dosahuje 65,6 %.

Benchmark Big Bench Audio⁠(otevře se v novém okně) je hodnotící datová sada pro posouzení schopností uvažování jazykových modelů, které podporují zvukový vstup. Tato datová sada přizpůsobuje otázky z Big Bench Hard – vybrané pro jejich přísné testování pokročilého uvažování – do zvukové domény.

Dodržování pokynů

Při vytváření aplikace pro převod řeči na řeč dávají vývojáři modelu sadu pokynů, jak se má chovat, včetně toho, jak má mluvit, co má říkat v určité situaci a co má nebo nemá dělat. Zaměřili jsme naše vylepšení na dodržování těchto pokynů, aby i drobné pokyny nesly více signálu pro model. V audio benchmarku MultiChallenge, který měří přesnost následování instrukcí, dosahuje gpt-realtime skóre 30,5 %, což je výrazné zlepšení oproti našemu předchozímu modelu z prosince 2024, který dosahuje skóre 20,6 %.

MultiChallenge⁠(otevře se v novém okně) hodnotí, jak dobře LLM zvládají vícekolové konverzace s lidmi. Zaměřuje se na čtyři kategorie realistických výzev, se kterými současné hraniční modely zápasí. Tyto výzvy vyžadují, aby modely současně kombinovaly sledování instrukcí, správu kontextu a uvažování v kontextu. Převedli jsme zvukově přívětivou podmnožinu testovacích otázek z textu na řeč, abychom vytvořili zvukovou verzi tohoto hodnocení.

Volání funkcí

Aby bylo možné vytvořit schopného hlasového agenta s modelem řeči na řeč, musí být model schopen volat správné nástroje ve správný čas, aby byl užitečný v produkci. Vylepšili jsme volání funkcí ve třech oblastech: volání relevantních funkcí, volání funkcí ve správný čas a volání funkcí s vhodnými argumenty (což vede k vyšší přesnosti). V audio hodnocení ComplexFuncBench, které měří výkon volání funkcí, dosahuje gpt-realtime skóre 66,5 %, zatímco náš předchozí model z prosince 2024 dosahuje skóre 49,7 %.

Také jsme vylepšili asynchronní volání funkcí⁠(otevře se v novém okně). Dlouhotrvající volání funkcí již nebudou narušovat průběh relace – model může během čekání na výsledky pokračovat v plynulé konverzaci. Tato funkce je nativně dostupná v gpt-realtime, takže vývojáři nemusí aktualizovat svůj kód.

ComplexFuncBench⁠(otevře se v novém okně) měří, jak dobře modely zvládají náročné úkoly při volání funkcí. Vyhodnocuje výkon v různých scénářích, jako jsou vícestupňová volání, uvažování o omezeních nebo implicitních parametrech a zpracování velmi dlouhých vstupů. Pro vytvoření tohoto vyhodnocení našeho modelu jsme převedli původní textové pokyny do řeči.

Novinky v rozhraní Realtime API

Podpora pro vzdálený server MCP

Podporu MCP v relaci Realtime API můžete povolit předáním adresy URL vzdáleného serveru MCP do konfigurace relace. Jakmile se připojíš, API automaticky zpracovává volání nástrojů za tebe, takže není nutné integrace propojovat ručně.

Toto nastavení usnadňuje rozšíření tvého agenta o nové schopnosti – stačí nasměrovat relaci na jiný server MCP a tyto nástroje budou okamžitě k dispozici. Chceš-li se dozvědět více o konfiguraci MCP s Realtime, podívej se na tohoto průvodce⁠(otevře se v novém okně).

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

Vstup obrázků

S podporou vstupu obrázků v gpt-realtime můžeš do relace Realtime API přidávat obrázky, fotografie a snímky obrazovky spolu se zvukem nebo textem. Model nyní může konverzaci zakotvit v tom, co uživatel skutečně vidí, a umožňuje mu klást otázky jako „co vidíš?“ nebo „přečti text na tomto screenshotu.“

Místo toho, aby systém zacházel s obrázkem jako s živým video streamem, zachází s ním spíše jako s přidáním obrázku do konverzace. Tvoje aplikace může rozhodnout, které obrázky sdílet s modelem a kdy je sdílet. Tímto způsobem máš kontrolu nad tím, co model vidí a kdy reaguje.

Pro začátek se vstupem obrázků se podívejte do naší dokumentace⁠(otevře se v novém okně).

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

Další schopnosti

Přidali jsme několik dalších funkcí, aby bylo rozhraní Realtime API snazší integrovat a flexibilnější pro produkční použití.

Podpora protokolu Session Initiation Protocol (SIP): Připoj své aplikace k veřejné telefonní síti, ústřednám, stolním telefonům a dalším SIP koncovým bodům s přímou podporou v Realtime API. Přečti si o tom v dokumentaci.⁠(otevře se v novém okně)
Opakovaně použitelné prompty: Nyní můžeš ukládat a znovu používat prompty – složené z vývojářských zpráv, nástrojů, proměnných a příkladů uživatelských/asistentských zpráv – napříč relacemi Realtime API, jako v Responses API. Zjisti více v dokumentaci.⁠(otevře se v novém okně)

Bezpečnost a ochrana soukromí

Realtime API zahrnuje několik vrstev ochranných opatření a opatření pro zmírnění rizik, která pomáhají předcházet zneužití. Můžeš se dozvědět více o našem bezpečnostním přístupu a podrobnostech o systémových kartách v blogu s oznámením o beta verzi⁠. Používáme aktivní klasifikátory během relací Realtime API, což znamená, že některé konverzace mohou být zastaveny, pokud jsou zjištěny jako porušující naše pokyny pro škodlivý obsah. Vývojáři mohou také snadno přidat své vlastní dodatečné bezpečnostní zábrany pomocí Agents SDK⁠(otevře se v novém okně).

Naše zásady používání⁠ zakazují opětovné použití nebo distribuci výstupů z našich služeb pro spam, podvody nebo jiné škodlivé účely. Vývojáři musí také dát koncovým uživatelům jasně najevo, když interagují s AI, pokud to již není zřejmé z kontextu. Rozhraní Realtime API používá přednastavené hlasy, aby pomohlo zabránit zlomyslným aktérům v napodobování jiných osob.

Rozhraní Realtime API plně podporuje rezidenturu dat v EU⁠(otevře se v novém okně) pro aplikace se sídlem v EU a je kryto našimi závazky v oblasti ochrany soukromí pro podniky⁠.

Ceny a dostupnost

Obecně dostupné Realtime API a nový model gpt-realtime jsou od dnešního dne k dispozici všem vývojářům. Snižujeme ceny pro gpt-realtime o 20 % ve srovnání s gpt-4o-realtime-preview – 32 USD/1 M zvukový vstup tokenů (0,40 USD za ukládané vstupní tokeny) a 64 USD/1 M audio výstupních tokenů (viz podrobné stanovení cen⁠(otevře se v novém okně)). Přidali jsme také podrobné ovládání kontextu konverzace, aby vývojáři mohli nastavit inteligentní limity tokenů a zkrátit více kol najednou, což výrazně snižuje náklady na dlouhé relace.

Abyste mohli začít, navštivte naši dokumentaci k Realtime API⁠(otevře se v novém okně), otestujte nový model v Playgroundu⁠(otevře se v novém okně) a prohlédněte si našeho průvodce pro Realtime API⁠(otevře se v novém okně).