
Ma általánosan elérhetővé tesszük a Realtime API-t új funkciókkal, amelyek engedélyezik a fejlesztők és vállalatok számára, hogy megbízható, gyártásra kész hangalapú ügynököket hozzanak létre. Az API most már támogatja a távoli MCP szervereket, képbeviteli bemeneteket és telefonhívásokat a Session Initiation Protocol (SIP) segítségével, így a hangalapú ügynökök több eszközhöz és kontextushoz férnek hozzá, és ezáltal még hatékonyabbá válnak.
Emellett kiadjuk eddigi legfejlettebb beszéd-beszéd modellünket —GPT‑realtime. Az új modell javulást mutat az összetett utasítások követésében, az eszközök precíz meghívásában, valamint a természetesebb és kifejezőbb hangzású beszéd előállításában. Jobban értelmezi a rendszerüzeneteket és a fejlesztői utasításokat – legyen szó arról, hogy szó szerint olvassa fel a figyelmeztető szkripteket egy ügyfélszolgálati hívás során, visszaismétli az alfanumerikus karaktereket, vagy zökkenőmentesen vált a nyelvek között a mondat közepén. Két új hangot is kiadunk, a Cedart és a Marint, amelyek mától kezdve kizárólag a Realtime API-ban érhetőek el.
Amióta tavaly októberben először bemutattuk a Realtime API-t a nyilvános bétaverzióban, több ezer fejlesztő dolgozott az API-val, és segítettek kialakítani a ma közzétett fejlesztéseket, amelyeket a megbízhatóságra, az alacsony késleltetésre és a magas minőségre optimalizáltunk, hogy a hangalapú ügynököket sikeresen bevethetők legyenek a termelésben. A hagyományos folyamatokkal ellentétben, amelyek több modellt kapcsolnak össze a beszéd-szöveg és szöveg-beszéd átalakítás során, a valós idejű API közvetlenül egyetlen modellen és API-n keresztül dolgozza fel és a generálja a hangot. Ez csökkenti a késést, megőrzi a beszéd árnyalatait, és természetesebb, kifejezőbb válaszokat eredményez.
"Az OpenAI Realtime API új beszédből beszéddé váló modellje erősebb érvelést és természetesebb beszédet produkál, ezzel lehetővé téve az olyan összetett, többlépcsős kérések kezelését, mint például a listák életmód szerinti szűkítése vagy a megfizethetőségi viták irányítása olyan eszközökkel, mint a BuyAbility pontszám. Ez olyan természetessé teheti a Zillow-on való otthonkeresést vagy a finanszírozási lehetőségek felfedezését, mint egy baráttal folytatott beszélgetés, segítve ezzel az olyan döntések egyszerűsítését, mint az ingatlan vásárlása, eladása és bérlése.
- Josh Weisberg, a ZillowAI vezetője
Az új beszéd-szöveg-beszéd modell –GPT‑realtime– a legfejlettebb, gyártásra kész hangmodellünk. A modellt szoros együttműködésben képeztük ki az ügyfelekkel, hogy kiválóan teljesítsen olyan valós feladatokban, mint az ügyfélszolgálat, a személyes segítségnyújtás és az oktatás – a modellt a fejlesztők által a hangalapú ügynökök építésére és telepítésére használt módszerekhez igazítva. A modell javulást mutat a hangminőség, az intelligencia, az utasításkövetés és a funkcióhívás terén.
A természetes hangzású beszélgetés kritikus a hangalapú ügynökök valós világban történő telepítéséhez. A modelleknek emberi intonációval, érzelemmel és tempóval kell beszélniük, hogy élvezetes élményt nyújtsanak, és ösztönözzék a folyamatos beszélgetést a felhasználókkal. A gpt-realtime -t úgy tanítottuk be, hogy magasabb minőségű, természetesebb hangzású beszédet hozzon létre, és képes legyen követni a részletes utasításokat, mint például „beszélj gyorsan és professzionálisan” vagy „beszélj empatikusan francia akcentussal”.
Két új hangot adunk ki az API-ban, a Marint és a Cédrust, amelyek a természetes hangzású beszéd legjelentősebb javításait tartalmazzák. A meglévő nyolc hangunkat is frissítjük, hogy kihasználhassuk ezeket a fejlesztéseket.
A gpt-realtime magasabb intelligenciát mutat, és nagyobb pontossággal érti a natív hangot. A modell képes rögzíteni a nonverbális jeleket (mint a nevetés), mondat közben nyelvet váltani, és a hangnemet is módosítani („frappáns és professzionális” vs. „kedves és empatikus”). A belső értékelések szerint a modell pontosabban teljesít az alfanumerikus sorozatok (például telefonszámok, alvázszámok stb.) felismerésében más nyelveken, például spanyolul, kínaiul, japánul és franciául. A Big Bench Audio érvelési képességeket mérő értékelésen a GPT‑realtime 82,8%-os pontosságot ért el, ezzel felülmúlva a 2024 decemberi modellünk 65,6%-os pontosságát.
A Big Bench Audio(új ablakban nyílik meg) benchmark egy olyan értékelő adathalmaz, amely a hangbevitelt támogató nyelvi modellek következtetési képességeit vizsgálja. Ez az adathalmaz a Big Bench Hard kérdéseit – amelyet a fejlett érvelés szigorú tesztelése miatt választottak ki – az audio domainbe adaptálja.
Egy beszédalapú alkalmazás készítésekor a fejlesztők egy sor utasítást adnak a modellnek arra vonatkozóan, hogyan viselkedjen, például hogyan beszéljen, mit mondjon egy adott helyzetben, és mit tegyen vagy ne tegyen. A fejlesztéseinket ezen utasítások betartására összpontosítottuk, hogy még a kisebb utasítások is több jelet közvetítsenek a modell számára. A MultiChallenge audio benchmarkon, amely az utasításkövetési pontosságot méri, a GPT‑realtime 30,5%-os eredményt ért el, ami jelentős javulás a 2024 decemberi, 20,6%-os előző modellünkhöz képest.
MultiChallenge(új ablakban nyílik meg) azt értékeli, hogy az LLM-ek mennyire jól kezelik az emberekkel folytatott többfordulós beszélgetéseket. A reális kihívások négy kategóriájára összpontosít, amelyekkel a jelenlegi csúcstechnológiai modellek küzdenek. Ezek a kihívások megkövetelik, hogy a modellek egyszerre kombinálják az utasításkövetést, a kontextuskezelést és a kontextuson belüli érvelést. A tesztkérdések hangbarát részhalmazát szövegből beszéddé alakítottuk, hogy létrehozhassuk az értékelés hangos verzióját.
Ahhoz, hogy egy hatékony hangalapú ügynököt építsünk beszéd-beszéd modellel, a modellnek képesnek kell lennie a megfelelő eszközök megfelelő időben történő hívására, hogy hasznos legyen a gyakorlatban. Három területen fejlesztettük a funkcióhívást: a megfelelő funkciók meghívásában, a funkciók megfelelő időben történő meghívásában, valamint a megfelelő argumentumok átadásában (ami nagyobb pontosságot eredményez). A ComplexFuncBench audio eval funkcióhívási teljesítménymérő programban GPT‑realtime 66,5%-os eredményt ért el, míg a 2024 decemberi modellünk 49,7%-os eredményt ért el.
Fejlesztéseket végeztünk az aszinkron funkcióhívásokon(új ablakban nyílik meg) is. A hosszú ideig tartó funkcióhívások már nem zavarják meg a munkamenet folyamatát — a modell folytathatja a gördülékeny beszélgetést, miközben várja az eredményeket. Ez a funkció natívan elérhető a GPT‑realtime csomagban, így a fejlesztőknek nem kell frissíteniük a kódjukat.
ComplexFuncBench(új ablakban nyílik meg) méri, hogy a modellek mennyire jól kezelik a bonyolultabb funkcióhívási feladatokat. Értékeli a teljesítményt olyan forgatókönyvekben, mint a többlépcsős hívások, a kényszerek vagy az implicit paraméterek értelmezése, valamint a nagyon hosszú beviteli adatok kezelése. Az eredeti szöveges utasításokat beszéddé alakítottuk, hogy elkészítsük ezt az értékelési módot a modellünk számára.
Az MCP-támogatás engedélyezhető egy valós idejű API-munkamenetben a távoli MCP-kiszolgáló URL-címének a munkamenet konfigurációjában történő átadásával. A csatlakoztatás után az API automatikusan kezeli az eszközhívásokat, így nincs szükség az integrációk manuális összekapcsolására.
Ez a beállítás megkönnyíti az ügynök új lehetőségekkel való kiterjesztését — csak irányítsd a munkamenetet egy másik MCP-kiszolgálóra, és ezek az eszközök azonnal elérhetővé válnak. Ha többet szeretnél megtudni az MCP Realtime konfigurálásáról, tekintsd meg ezt az útmutatót(új ablakban nyílik meg).
Mivel a GPT‑realtime mostantól támogatja képek bevitelét, képeket, fényképeket és képernyőképeket adhatsz hozzá hang vagy szöveg mellé egy valós idejű API-munkamenethez. Mostantól a modell képes a beszélgetést arra alapozni, amit a felhasználó ténylegesen lát, lehetővé téve a felhasználóknak, hogy olyan kérdéseket tegyenek fel, mint például: „mit látsz?” vagy „olvasd el a szöveget ezen a képernyőképen”.
Ahelyett, hogy a rendszer képet élő videostreamként kezelné, a rendszer inkább úgy kezeli, mint a beszélgetésbe illesztett képre. Az appod eldöntheti, mely képeket oszd meg a modellel, és mikor oszd meg azokat. Így te irányítod, hogy mit lát a modell, és mikor reagál.
A képbevitel megkezdéséhez tekintsd meg a dokumentációnkat(új ablakban nyílik meg).
Számos további funkciót adtunk hozzá, hogy a Realtime API könnyebben integrálható és rugalmasabb legyen a gyártási környezetben.
- Session Initiation Protocol (SIP) támogatás: Csatlakoztasd az appjaidat a nyilvános telefonhálózathoz, PBX rendszerekhez, asztali telefonokhoz és más SIP végpontokhoz közvetlen támogatással a Realtime API-n keresztül. Olvass róla a dokumentációban.(új ablakban nyílik meg)
- Újrafelhasználható utasítások: Mostantól mentheted és újra felhasználhatod az utasításokat – amelyek fejlesztői üzeneteket, eszközöket, változókat és példafelhasználói/asszisztens üzeneteket tartalmaznak – a Realtime API-munkamenetek között, mint a Responses API-ban. További tudnivalók a dokumentációban.(új ablakban nyílik meg)
A Realtime API több védelmi és kockázatcsökkentő réteget tartalmaz a visszaélések elkerülése érdekében. Biztonsági megközelítésünkről és a rendszerkártya részleteiről bővebben a béta bejelentési blogban olvashatsz. Aktív osztályozókat alkalmazunk a valós idejű API munkamenetek során, ami azt jelenti, hogy bizonyos beszélgetéseket leállíthatunk, ha azokat káros tartalomként azonosítjuk, és sértik irányelveinket. A fejlesztők az Agents SDK(új ablakban nyílik meg) segítségével könnyedén hozzáadhatnak saját további biztonsági korlátokat is.
A használati irányelveink tiltják szolgáltatásaink kimenetének újrafelhasználását vagy terjesztését spam, megtévesztés vagy más káros célok érdekében. A fejlesztőknek azt is világossá kell tenniük a felhasználók számára, amikor kapcsolatba lépnek a mesterséges intelligenciával, hacsak ez már nyilvánvaló a kontextusból. A Realtime API előre beállított hangokat használ, hogy segítsen megakadályozni a rosszindulatú szereplőket mások megszemélyesítésében.
A Realtime API teljes mértékben támogatja az EU-ban működő alkalmazások EU-s adatrezidenciáját(új ablakban nyílik meg), és vállalati adatvédelmi kötelezettségvállalásaink vonatkoznak rá.
Az általánosan elérhető Realtime API és az új gpt-realtime modell mától minden fejlesztő számára elérhető. A GPT‑realtime árát 20%-kal csökkentjük a GPT‑4o‑realtime‑előnézet-hez képest – 32 USD / 1M audio beviteli token (0,40 USD a gyorsítótárazott beviteli tokenekért) és 64 USD / 1M audio kimeneti token (lásd a részletes árképzést(új ablakban nyílik meg)). Emellett finomhangolható beszélgetési kontextuskezelést is hozzáadtunk, amely lehetővé teszi a fejlesztők számára, hogy intelligens tokenlimitet állítsanak be, és egyszerre több lépést is csonkoljanak, jelentősen csökkentve a hosszú munkamenetek költségét.
A kezdéshez ismerd meg a Realtime API dokumentációnkat(új ablakban nyílik meg), teszteld az új modellt a Playgroundon(új ablakban nyílik meg), és tekintsd meg a Realtime API útmutatónkat(új ablakban nyílik meg).


