Pāriet uz galveno saturu
OpenAI

2025. gada 28. augusts

ProduktsIzlaidums

Iepazīstinām ar ražošanas balss aģentu GPT‑realtime un Realtime API atjauninājumiem

Mēs laižam klajā modernāku modeli runas atveidošanai reāllaikā un jaunas API iespējas, tostarp MCP servera atbalstu, attēlu ievadi un SIP tālruņa zvanu iespēju.

Stilizēta saskarne, kurā redzama balss mijiedarbība. Centrā ir noapaļots taisnstūrveida audio atskaņotājs ar viļņu formas vizualizāciju, atskaņošanas/pauzes pogu, statusa indikatoru "Aģents tiešsaistē" un laika rādītāju 00:35. Pāri attēlam plūst baltas, izliektas, punktotas līnijas, kas norāda uz tiešraides audio pārraidi vai signāla kustību. Fons ir spilgti zils ar izplūdušām ziedu formām rozā un violetos toņos.
Notiek ielāde…

Šodien mēs padarām vispārēji pieejamu Realtime API ar jaunām funkcijām, kas ļauj izstrādātājiem un uzņēmumiem veidot uzticamus, lietošanai gatavus balss aģentus. API tagad atbalsta attālinātos MCP serverus, attēlu ievadi un tālruņa zvanus, izmantojot Sesijas Iniciēšanas Protokolu (SIP), kas padara balss aģentus spējīgākus un ļauj tiem piekļūt papildu rīkiem un kontekstam.

Laižam klajā mūsu līdz šim modernāko modeli runas atveidošanai reāllaikā —GPT‑realtime. Jaunajā modelī ir veikti uzlabojumi sarežģītu norādījumu izpildē, precīzā rīku izsaukšanā un dabiskākas un izteiksmīgākas runas veidošanā. Tas labāk interpretē sistēmas ziņojumus un izstrādātāju norādījumus neatkarīgi no tā, vai atbalsta dienesta zvana laikā jānolasa atrunu skripti vārds vārdā, jāatkārto burtcipari vai teikuma vidū jāpārslēdzas uz citu valodu. Mēs arī publicējam divas jaunas balsis — Cedar un Marin, kas no šodienas ir pieejamas Realtime API lietotājiem.

Kopš pagājušā gada oktobrī pirmo reizi publiskajā beta versijā prezentējām Realtime API, tūkstošiem izstrādātāju ir to izmantojuši produktu veidošanā un palīdzējuši sagatavot uzlabojumus ar kuriem šodien nākam klajā—optimizēta uzticamība, zems latentums un augsta kvalitāte, kas ļauj sekmīgi izvietot balss aģentus ražošanā. Atšķirībā no tradicionālajiem procesiem, kas savieno vairākus modeļus runas-teksta un teksta-runas atveidošanā, Realtime API apstrādā un ģenerē audio tieši, izmantojot vienu modeli un API. Tas samazina latentumu, saglabā runas nianses un piedāvā dabiskākas, izteiksmīgākas atbildes.

Jaunais runas pārveidošanas modelis OpenAI Realtime API parāda spēcīgāku loģisko domāšanu un nodrošina dabiskāku runu, kas ļauj tam apstrādāt sarežģītus, daudzpakāpju pieprasījumus, piemēram, sašaurināt sarakstus atbilstīgi dzīvesveida vajadzībām vai vadīt diskusijas par pieejamību, izmantojot tādus rīkus kā mūsu BuyAbility rezultātus, "Tas varētu padarīt mājas meklēšanu vietnē Zillow vai finansēšanas iespēju izpēti tikpat dabisku kā sarunu ar draugu, palīdzot vienkāršot tādu lēmumu pieņemšanu kā mājas iegāde, pārdošana un īre.”

– Džošs Veisbergs (Josh Weisberg), Mākslīgā intelekta nodaļas vadītājs Zillow

Iepazīstinām ar gpt-realtime

Jaunais runas pārveidošanas modelisgpt-realtime— ir mūsu vismodernākais, ražošanai gatavais balss modelis. Mēs apmācījām šo modeli ciešā sadarbībā ar klientiem, lai tas spētu izpildīt tādus reālus uzdevumus kā klientu atbalsts, personīga palīdzība un izglītība, pielāgojot modeli tam, kā izstrādātāji veido un izmanto balss aģentus. Modelim ir uzlabota audio kvalitāte un intelekts, kā arī norādījumu ievērošanas un funkciju izsaukšanas spēja.

Audio kvalitāte

Dabiska saruna ir būtiska balss aģentu izvietošanai reālajā pasaulē. Lai radītu patīkamu pieredzi un veicinātu nepārtrauktu sarunu ar lietotāju, modeļiem ir jārunā ar cilvēkam raksturīgu intonāciju, emocijām un tempu. Mēs apmācījām gpt-realtime, lai radītu augstākas kvalitātes sarunu, kas skan dabiskāk un var izpildīt precīzas instrukcijas, piemēram, "runā ātri un profesionāli" vai "runā iejūtīgi ar franču akcentu".

Esam laiduši klajā divas jaunas API balsis - Marin un Cedar - ar visnozīmīgākajiem uzlabojumiem dabiski skanošas runas jomā. Mēs atjauninām arī astoņas esošās balsis, lai izmantotu šo uzlabojumu ieguvumus.

Balss paraugs - Marin
Balss paraugs - Cedar

Inteliģence un izpratne

gpt-realtime demonstrē augstāku intelektu un spēj saprast vietēju audio ierakstu ar lielāku precizitāti. Modelis spēj uztvert neverbālus signālus (piemēram, smieklus), pārslēgties starp valodām teikuma vidū un pielāgot toni ("asprātīgs un profesionāls" pretstatā "laipns un iejūtīgs"). Saskaņā ar iekšējiem novērtējumiem modelis uzrāda arī precīzāku veiktspēju burtciparu secību (piemēram, tālruņu numuru, VIN utt.) noteikšanā citās valodās, tostarp spāņu, ķīniešu, japāņu un franču valodās. Big Bench Audio spriešanas spēju novērtējuma testā gpt-realtime uzrādīja 82,8% precizitāti, pārspējot mūsu iepriekšējo 2024. gada decembra modeli, kura rezultāts bija 65,6%.

Big Bench Audio(atveras jaunā logā) standarts ir novērtēšanas datu kopa, kas pārbauda valodu modeļu, kas atbalsta audio ievadi, spriešanas spējas. Šī datu kopa pielāgo Big Bench Hard— kas izvēlēts tā rūpīgās pārbaudes un uzlabotās argumentācijas dēļ—jautājumus audio domēnā.

Norādījumu ievērošana

Veidojot sarunas lietotni, izstrādātāji sniedz modelim norādījumu kopumu par to, kā uzvesties, tostarp kā runāt, ko teikt noteiktā situācijā un ko darīt vai nedarīt. Galvenā uzmanība mūsu uzlabojumu izstrādē tika pievērsta šo instrukciju ievērošanai, lai pat nelieli norādījumi sniegtu modelim precīzāku informāciju. MultiChallenge audio mērījumā, kurā tiek noteikta instrukciju izpildes precizitāte, gpt-realtime rezultāts bija 30,5%, kas ir ievērojams uzlabojums salīdzinājumā ar mūsu iepriekšējo modeli, kura veiktspēja 2024. gada decembrī bija 20,6%.

MultiChallenge(atveras jaunā logā) novērtē, cik labi LLM veic ar vairāku piegājienu sarunas ar cilvēkiem. Galvenā uzmanība tiek pievērsta četrām reālistisku izaicinājumu kategorijām ar kurām cīnās pašreizējie modeļi. Šie izaicinājumi prasa modeļiem vienlaicīgi ievērot instrukcijas, pārvaldīt kontekstu un veikt argumentāciju konteksta ietvaros. Mēs pārveidojām audio formātam paredzētu testa jautājumu apakškopu no teksta uz runas formātu, lai izveidotu šī novērtējuma audio versiju.

Funkciju izsaukšana

Lai izveidotu spējīgu balss aģentu ar runas atveidošanas modeli, šim modelim ir jāspēj izsaukt pareizos rīkus īstajā laikā, lai tas būtu noderīgs ražošanas vidē. Mēs esam uzlabojuši funkciju izsaukšanu trijos virzienos: atbilstošu funkciju izsaukšana, funkciju izsaukšana atbilstošā laikā un funkciju izsaukšana ar atbilstošiem argumentiem (kā rezultātā tiek panākta lielāka precizitāte). ComplexFuncBench audio novērtējumā, kas mēra funkciju izsaukšanas veiktspēju, gpt-realtime ieguva 66,5 %, savukārt mūsu iepriekšējā 2024. gada decembra modeļa rezultāts bija 49,7 %.

Ir veikti uzlabojumi arī asinhronajā funkciju izsaukšanā(atveras jaunā logā). Ilgstoši funkciju izsaukumi vairs netraucē sesijas plūsmu - modelis var turpināt vienmērīgu sarunu, gaidot izsaukuma rezultātus. Šī funkcija jau pamatā ir pieejama gpt-realtime, tāpēc izstrādātājiem nav jāatjaunina viņu kods.

ComplexFuncBench(atveras jaunā logā) mēra, cik labi modeļi tiek galā ar sarežģītiem funkciju izsaukšanas uzdevumiem. Tas novērtē veiktspēju tādos scenārijos kā vairāku soļu izsaukumi, ierobežojumu vai netiešu parametru pamatojums un ļoti ilgu ievades datu apstrāde. Lai izveidotu šo novērtējumu mūsu modelim, mēs pārveidojām sākotnējās teksta uzvednes runā.

Realtime API jaunumi

Attālināts MCP servera atbalsts

Tu vari iespējot MCP atbalstu Realtime API sesijā, tās konfigurācijā ievadot attālā MCP servera vietrādi URL. Pēc savienojuma izveides API automātiski apstrādā rīku izsaukumus, tāpēc nav nepieciešams iestatīt integrācijas manuāli.

Šī iestatīšana atvieglo aģenta paplašināšanu ar jaunām iespējām — vienkārši novirzi sesiju uz citu MCP serveri, un šie rīki uzreiz būs pieejami. Lai uzzinātu vairāk par MCP konfigurēšanu ar Realtime, izlasi šo rokasgrāmatu(atveras jaunā logā).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Attēla ievade

Tagad gpt-realtime tiek atbalstīta attēlu ievade, tāpēc reāllaika API sesijas laikā audio vai teksta ievadei vari pievienot attēlus, fotoattēlus un ekrānuzņēmumus. Tagad modelis var balstīt sarunu uz to, ko lietotājs faktiski redz, ļaujot lietotājiem uzdot tādus jautājumus kā "ko tu redzi?" vai "izlasi tekstu šajā ekrānuzņēmumā".

Tā vietā, lai uztvertu attēlu kā tiešraides videopārraidi, sistēma to vairāk uzskata par attēla pievienošanu sarunai. Tava lietotne var izlemt, kurus attēlus kopīgot ar modeli un kad tos kopīgot. Tādā veidā tu kontrolē, ko modelis redz un kad tas reaģē.

Lai sāktu darbu ar attēlu ievadi, iepazīsties ar mūsu dokumentāciju(atveras jaunā logā).

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Papildu iespējas

Esam pievienojuši vairākas citas funkcijas, lai atvieglotu Realtime API integrēšanu un padarītu to elastīgāku lietošanai ražošanas vidē.

  • Sesijas inicializācijas protokola (SIP) atbalsts: Savieno savas lietotnes ar publisko tālruņu tīklu, PBX sistēmām, tālruņa aparātiem un citiem SIP galapunktiem, izmantojot tiešu Realtime API atbalstu. Iepazīsties ar dokumentāciju.(atveras jaunā logā)
  • Atkārtoti lietojamas uzvednes: Tagad tu vari saglabāt un atkārtoti izmantot uzvednes, kas ietver izstrādātāja paziņojumus, rīkus, mainīgos lielumus un lietotāja/asistenta ziņojumu piemērus dažādās Realtime API sesijās, piemēram, Responses API. Uzzini vairāk dokumentācijā.(atveras jaunā logā)

Drošība un privātums

Realtime API ietver vairākus aizsardzības un risku mazināšanas pasākumus, kas palīdz novērst ļaunprātīgu izmantošanu. Vairāk par mūsu pieeju drošības jautājumiem un sistēmas kartes informāciju vari uzzināt beta paziņojumu emuārā. Mēs izmantojam aktīvus klasifikatorus Realtime API sesijās, kas nozīmē, ka noteiktas sarunas var tikt apturētas, ja tiek konstatēts, ka tās pārkāpj mūsu kaitīga satura vadlīnijas. Izstrādātāji var pievienot arī savus papildu drošības līdzekļus, izmantojot Agents SDK(atveras jaunā logā).

Mūsu lietošanas politika aizliedz pakalpojumu sniegto rezultātu atkārtotu izmantošanu vai izplatīšanu surogātpastam, maldināšanai vai citiem kaitīgiem mērķiem. Izstrādātājiem ir arī skaidri jānorāda lietotājiem, ka viņi mijiedarbojas ar mākslīgo intelektu, ja vien tas jau nav acīmredzams no konteksta. Realtime API izmanto iepriekš iestatītas balsis, lai palīdzētu novērst ļaunprātīgu personu mēģinājumus uzdoties par kādu citu.

Realtime API pilnībā atbalsta ES datu rezidenci(atveras jaunā logā) ES bāzētām lietotnēm, un uz to attiecas mūsu uzņēmuma apņemšanās ievērot konfidencialitāti.

Izcenojums un pieejamība

No šodienas visiem izstrādātājiem tiek piedāvāts vispārēji pieejamais Realtime API un jaunais gpt-realtime modelis. Mēs samazinām gpt-realtime cenas par 20% salīdzinājumā ar gpt-4o-realtime-preview—32 ASV dolāri/1 miljons audio ievades tekstvienību (0,40 ASV dolāri par kešatmiņā saglabātām ievades tekstvienībām) un 64 ASV dolāri/1 miljons audio izvades tekstvienību (skatīt detalizētu cenu plānu(atveras jaunā logā)). Mēs esam pievienojuši precīzi regulējamu sarunas konteksta kontroli, lai izstrādātāji varētu iestatīt inteliģentus marķieru ierobežojumus un vienlaikus saīsināt vairākus gājienus, lai ievērojami samazinātu garu sesiju izmaksas.

Tiešraides atkārtojums

Autors

OpenAI