Jäta vahele ja mine põhisisu juurde
OpenAI

28. august 2025

ToodeVäljalase

Tutvustame GPT‑realtime'i ja Realtime API uuendusi tootmishäälagentidele

Toome turule täiustatud kõne-kõne mudeli ja uued API-võimalused, sealhulgas MCP-serveri toe, pildi sisendi ja SIP-telefonikõnede toe.

Stiliseeritud liides, mis kuvab häälsuhtlust. Keskel on ümar ristkülikukujuline helipleier, millel on lainekuju visualiseerimine, esitus-/pausinupp, olekuindikaator „Agent võrgus“ ja ajatempel 00:35. Valged kumerad jooned punktidega voolavad üle pildi, viidates otseheli või signaali liikumisele. Taust on erksinine, millel on udused lillekujud roosades ja lillades toonides.
Laadimine…

Täna teeme Realtime API üldiselt kättesaadavaks koos uute funktsioonidega, mis lubavad arendajatel ja ettevõtetel luua usaldusväärseid ja tootmisvalmis häälagente. API pakub nüüd tuge kaug-MCP serveritele, piltisisendeid ja telefonikõnesid seansi algatamise protokolli (SIP) kaudu, muutes häälagendid võimekamaks tänu täiendavatele tööriistadele ja kontekstile.

Samuti avaldame oma seni kõige arenenuma kõne-kõne mudeli –gpt-realtime. Uus mudel näitab edusamme keeruliste juhiste järgimisel, tööriistade täpse kasutamise osas ning loomuliku ja väljendusrikka kõne loomisel. See on parem süsteemisõnumite ja arendaja viipade tõlgendamisel – olgu selleks siis lahtiütluse skriptide sõna-sõnalt lugemine tugikõnes, tähtnumbriliste koodide tagasikordamine või sujuv keelte vahetamine lause keskel. Samuti toome turule kaks uut häält, Cedar ja Marin, mis on alates tänasest saadaval ainult Realtime API-s.

Alates sellest, kui me eelmise aasta oktoobris avalikus beeta versioonis Realtime API-t tutvustasime, on tuhanded arendajad API-ga ehitanud ja aidanud kujundada täiustusi, mida me täna avaldame – need on optimeeritud töökindluse, madala latentsuse ja kõrge kvaliteedi tagamiseks, et häälagente edukalt tootmiskeskkonnas juurutada. Erinevalt traditsioonilistest torujuhtmetest, mis ühendavad mitu mudelit kõnest tekstiks ja tekstist kõneks, töötleb ja koostab Reaalaja API heli otse ühe mudeli ja API kaudu. See vähendab latentsust, säilitab kõne nüansid ja tekitab loomulikumaid, väljendusrikkamaid vastuseid.

OpenAI Reaalaja API uus kõne-kõne mudel näitab tugevamat arutlusvõimet ja loomulikumat kõnet, võimaldades tal toime tulla keerukate, mitmeastmeliste päringutega, nagu näiteks nimekirjade kitsendamine elustiilivajaduste järgi või taskukohasuse arutelude juhtimine tööriistadega nagu meie BuyAbility skoor See võib muuta Zillowis kodu otsimise või rahastamisvõimalustega tutvumist sama loomulikuks kui vestlus sõbraga, aidates lihtsustada selliseid otsuseid nagu kodu ostmine, müümine ja üürimine,“

Josh Weisberg, Zillow tehisintellekti juht

Tutvustame gpt-realtime'i

Uus kõne-kõne mudel, GPT‑realtime, on meie kõige arenenum ja tootmisvalmis häälmudel. Koolitasime mudelit tihedas koostöös klientidega, et see oleks edukas reaalse maailma ülesannetes nagu klienditugi, isiklik abi ja haridus – kohandades mudeli sellega, kuidas arendajad loovad ja juurutavad hääleagente. Mudel näitab paranemist heli kvaliteedis, intelligentsuses, käskude järgimises ja funktsioonide kutsumises.

Heli kvaliteet

Loomulikult kõlav vestlus on häälagentide paigutamiseks reaalses maailmas kriitilise tähtsusega. Mudelid peavad rääkima inimese intonatsiooni, emotsioonide ja tempoga, et luua nauditav kogemus ja julgustada kasutajatega pidevat vestlust. Me koolitasime gpt-realtime tootma kvaliteetsemat kõnet, mis kõlab loomulikumalt ja suudab järgida peeneid juhiseid, nagu „räägi kiiresti ja professionaalselt“ või “räägi empaatiliselt prantsuse aktsendiga“.

Avaldame API-s kaks uut häält, Marin ja Cedar, mille kõige olulisemad täiustused on seotud loomuliku kõnekõlaga. Samuti uuendame oma olemasolevaid kaheksat häält, et neist täiustustest kasu saada.

Häälenäidis – Marin
Häälenäidis – Cedar

Intelligentsus ja arusaamine

gpt-realtime näitab kõrgemat intelligentsust ja suudab natiivset heli suurema täpsusega mõista. Mudel suudab tabada mitteverbaalseid vihjeid (nagu naer), vahetada keelt lause keskel ja kohandada tooni („kärts ja professionaalne” vs. „lahke ja empaatiline”). Sisemiste hinnangute kohaselt näitab mudel ka täpsemat jõudlust tähtnumbriliste jadade (nt telefoninumbrid, VIN-koodid jne) tuvastamisel teistes keeltes, sealhulgas hispaania, hiina, jaapani ja prantsuse keeles. Big Bench Audio arutlusvõimete hindamisel saavutas GPT‑realtime 82,8% täpsuse – edestades meie eelmist mudelit 2024. aasta detsembrist, mis saavutas 65,6%.

Big Bench Audio(avaneb uues aknas) võrdlusnäitaja on hindamisandmestik keelemudelite arutlusvõime hindamiseks, mis toetavad heli sisendit. See andmestik kohandab Big Bench Hard'i küsimusi – mis valiti põhjaliku edasijõudnud arutluskäigu testimise tõttu – helidomeeni.

Juhendi järgimine

Kõne-kõne rakenduse loomisel annavad arendajad mudelile juhised, kuidas käituda, sealhulgas kuidas rääkida, mida teatud olukorras öelda ja mida teha või mitte teha. Oleme oma täiustused suunanud nende juhiste järgimisele, et isegi väiksemad juhised annaksid mudelile rohkem signaali. MultiChallenge audio võrdlustestis, mis mõõdab juhiste järgimise täpsust, saavutab GPT‑realtime tulemuse 30,5%, mis on märkimisväärne paranemine võrreldes meie eelmise mudeliga detsembrist 2024, mille tulemus oli 20,6%.

MultiChallenge(avaneb uues aknas) hindab, kui hästi LLM-id suudavad mitmepöördelisi vestlusi inimestega hallata. See keskendub neljale realistlike väljakutsete kategooriale, millega praegused eesrindlikud mudelid maadlevad. Need väljakutsed nõuavad mudeleid, mis ühendavad samaaegselt juhiste järgimise, konteksti haldamise ja kontekstipõhise arutlemise. Selle hindamise heliversiooni loomiseks teisendasime testküsimuste helisõbraliku alamhulga tekstist kõnele.

Funktsiooni kutsumine

Kõne-kõne mudeli abil võimsa agendi loomiseks peab mudel suutma õigeid tööriistu õigel ajal kutsuda, et see tootmises kasulik oleks. Oleme funktsioonide kutsumist täiustanud kolmes aspektis: asjakohaste funktsioonide kutsumine, funktsioonide kutsumine sobival ajal ja funktsioonide kutsumine sobivate argumentidega (mis toob kaasa suurema täpsuse). ComplexFuncBenchi heli hindamisel, mis mõõdab funktsioonide kutsumise jõudlust, on gpt-realtime skoor 66,5%, samas kui meie eelmine mudel detsembrist 2024 skoorib 49,7%.

Samuti oleme parandanud asünkroonsete funktsioonide kutsumist(avaneb uues aknas). Pikaajalised funktsioonikutsed ei häiri enam seansi voogu, mudel saab tulemusi oodates sujuvat vestlust jätkata. See funktsioon on natiivselt saadaval GPT‑realtime'is, nii et arendajad ei pea oma koodi värskendama.

ComplexFuncBench(avaneb uues aknas) mõõdab, kui hästi mudelid keerulisi funktsioonikutsumise ülesandeid lahendavad. See hindab jõudlust erinevates stsenaariumites, nagu mitmeastmelised kõned, piirangute või kaudsete parameetrite üle arutlemine ja väga pikkade sisendite käsitlemine. Selle mudeli hindamise loomiseks teisendasime algsed viipude tekstid kõneks.

Uued funktsioonid Realtime API-s

Kaug-MCP serveri tugi

Sa saad luba MCP tugi reaalaja API seansis, edastades kaugserveri MCP URL-i seansi konfiguratsiooni. Kui ühendus on loodud, haldab API tööriistakõnesid automaatselt, nii et sul pole vaja integratsioone käsitsi seadistada.

See seadistus muudab agendi uute võimalustega laiendamise lihtsaks – suuna lihtsalt seanss teisele MCP-serverile ja need tööriistad on kohe saadaval. Kui tahad MCP reaalajas seadistamise kohta rohkem teada saada, siis loe seda juhendit(avaneb uues aknas).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Pildi sisend

Kuna pildisisendid on nüüd gpt-realtime toetatud, saad lisada pilte, fotosid ja ekraanipilte koos heli või tekstiga reaalajas API seansile. Nüüd saab mudel vestluse siduda sellega, mida kasutaja tegelikult näeb, võimaldades kasutajatel esitada selliseid küsimusi nagu „mida sa näed?” või „loe sellel ekraanipildil olevat teksti.”

Selle asemel, et käsitleda pilti nagu otseülekannet, käsitleb süsteem seda pigem nagu pildi lisamist vestlusse. Sinu rakendus saab otsustada, milliseid pilte mudeliga jagada ja millal neid jagada. Nii jääd sina kontrolli alla, mida mudel näeb ja millal see reageerib.

Piltide sisendi alustamiseks vaata meie dokumentatsiooni(avaneb uues aknas).

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Täiendavad võimekused

Oleme lisanud mitmeid muid funktsioone, et muuta Realtime API lihtsamini integreeritavaks ja paindlikumaks tootmiskasutuseks.

Ohutus ja privaatsus

Realtime API sisaldab mitmeid kaitse- ja leevenduskihtide tasemeid, et aidata vältida väärkasutust. Saad rohkem teada meie ohutusstrateegia ja süsteemikaardi üksikasjade kohta beeta teadaannete ajaveebist. Kasutame aktiivseid klassifikaatoreid reaalajas API seansside ajal, mis tähendab, et teatud vestlused võivad katkestada, kui need tuvastatakse meie kahjuliku sisu riku keeldu rikkumisena. Arendajad saavad agentide SDK(avaneb uues aknas) abil hõlpsalt lisada ka oma täiendavaid turvapiirdeid.

Meie kasutuspõhimõtted keelavad meie teenuste väljundite taaskasutamise või levitamise rämpsposti, pettuse või muul kahjulikul eesmärgil. Arendajad peavad ka lõppkasutajatele selgeks tegema, kui nad AI-ga suhtlevad, välja arvatud juhul, kui see on kontekstist juba ilmne. Reaalajas API kasutab eelseadistatud hääli, et takistada pahatahtlikel isikutel teisi jäljendamast.

Reaalajas API toetab täielikult EL-i andmete residentsust(avaneb uues aknas) EL-is asuvate rakenduste jaoks ja on kaetud meie ettevõtte privaatsuskohustustega.

Hinnastamine & kättesaadavus

Üldiselt saadaval olev Realtime API ja uus GPT‑realtime mudel on alates tänasest saadaval kõigile arendajatele. Me vähendame gpt-realtime hindu 20% võrra võrreldes gpt-4o-realtime-preview—32 dollarit / 1 miljonit audio sisestusmärki (0,40 dollarit vahemälu sisestusmärkide eest) ja 64 dollarit / 1 miljonit audio väljundmärki (vt üksikasjalikku hinnastamist(avaneb uues aknas)). Oleme lisanud ka täpsema juhtimise vestluskonteksti jaoks, et arendajad saaksid seada nutikaid tokeni piire ja lühendada korraga mitut käiku, vähendades oluliselt pikkade seansside kulusid.

Livestream kordus

Autor

OpenAI