U bood nuxurka ugu muhiimsan
OpenAI

Agosto 28, 2025

BadeecadShaacin

Soo bandhigista gpt-realtime iyo cusboonaysiinta Realtime API ee wakiillada codka wax-soo-saarka

Waxaan sii deynaynaa nooc hadal illaa hadal oo aad u horumarsan iyo awoodo API oo cusub oo ay ku jiraan taageerada server-ka MCP, gelinta sawirka, iyo taageerada wicitaannada telefoonka SIP.

Isdhexgal qaabaysan oo muujinaya wada-hadal cod. Bartamaha waxa yaal ciyaaryahan maqal oo leydi geeso wareegsan leh, leh muuqaal hirar cod, batoonka ciyaar/hakin, tilmaame xaalad “Wakiil online ah”, iyo waqtiga 00:35. Xariijimo qaloocan oo cad oo dhibco leh ayaa sawirka dhex mara, taasoo muujinaysa maqal toos ah ama dhaqdhaqaaq signal. Asalku waa buluug dhalaalaya oo leh qaabab ubax oo casaanni iyo guduud khafiif ah.
Soo kacaya…

Maanta waxaan ka dhigaynaa Realtime API si guud loo heli karo, anagoo la imaanayna astaamo cusub oo u suuragelinaya horumariyeyaasha iyo shirkadaha inay dhisaan wakiillo cod oo lagu kalsoonaan karo, una diyaarsan wax-soo-saarka. API-gu hadda wuxuu taageeraa server-rada MCP ee fog, gelinta sawirka, iyo wicitaanka telefoonka iyadoo la marayo Session Initiation Protocol (SIP), taasoo wakiillada codka ka dhigaysa kuwo awood badan iyagoo heli kara qalab iyo macne dheeraad ah.

Waxaan sidoo kale sii deynaynaa noockeennii ugu horumarsanaa ee hadal illaa hadal ilaa hadda—gpt-realtime. Nooca cusub wuxuu muujinayaa horumar ku saabsan raacidda tilmaamo adag, u yeerista qalabka si sax ah, iyo soo saarista hadal u dhawaaqaya mid dabiici iyo muujin leh. Wuxuu ka fiican yahay fasiraadda fariimaha siistamka iyo weydiimaha horumariyaha—ha noqoto akhrinta qoraallada afeefka eray-eray wicitaan taageero ah, ku celinta xarfo iyo tirooyin, ama si aan kala go' lahayn ugu kala beddelashada luqadaha dhexda jumladda. Waxaan sidoo kale sii deynaynaa laba cod oo cusub, Cedar iyo Marin, kuwaas oo si gaar ah uga bilaabanaya Realtime API maanta.

Tan iyo markii aan markii ugu horreysay soo bandhignay Realtime API beta dadweyne bishii Oktoobar ee la soo dhaafay, kumannaan horumariye ayaa ku dhisay API-ga waxayna naga caawiyeen qaabeynta horumarrada aan maanta sii deyneyno—kuwaas oo loo habeeyey kalsooni, dib-u-dhac yar, iyo tayo sare si si guul leh loogu daabulo wakiillo cod gudaha wax-soo-saarka. Si ka duwan dhuumaha dhaqameed ee isku xira noocyo badan oo kala mara speech-to-text iyo text-to-speech, Realtime API wuxuu si toos ah u farsameeyaa una soo saaraa maqal isagoo adeegsanaya hal nooc iyo API keliya. Tani waxay yareyneysaa dib-u-dhaca, waxay ilaalisaa xeel-dheeraanta hadalka, waxayna soo saartaa jawaabo ka dabiici badan oo muujin badan.

“Nooca cusub ee hadal illaa hadal ee ku jira Realtime API-ga OpenAI wuxuu muujinayaa caqliyeyn ka xooggan iyo hadal ka dabiici badan—taasoo u oggolaanaysa inuu maareeyo codsiyo adag oo tallaabooyin badan leh sida kala saarista liisaska iyadoo loo eegayo baahiyaha qaab nololeedka ama hagidda wada-hadallada awoodda wax-iibsiga iyadoo la adeegsanayo qalab sida dhibcahayaga BuyAbility. Tani waxay ka dhigi kartaa raadinta guri Zillow ama sahminta ikhtiyaarrada maalgelinta mid u dabiici ah sida wada-hadal saaxiib lala yeesho, taasoo fududaynaysa go'aannada sida iibsashada, iibinta, iyo kiraysashada guri.”

– Josh Weisberg, Madaxa AI ee Zillow

Soo bandhigista gpt-realtime

Nooca cusub ee hadal illaa hadal—gpt-realtime—waa noockeenna cod ee ugu horumarsan, una diyaarsan wax-soo-saarka. Waxaan noocan u tababarnay annagoo si dhow ula shaqeynayna macaamiisha si uu ugu fiicnaado hawlo dunida dhabta ah sida taageerada macaamiisha, kaalmada shakhsiyeed, iyo waxbarashada—annagoo waafajinayna nooca sida horumariyeyayaashu u dhisaan una daabulaan wakiillada codka. Noocku wuxuu muujinayaa horumar dhinacyada tayada maqalka, garaadka, raacidda tilmaamaha, iyo xusida function-ka.

Tayada maqalka

Wada-hadal u dhawaaqaya dabiici wuxuu muhiim u yahay daabulidda wakiillada codka ee dunida dhabta ah. Noocyadu waxay u baahan yihiin inay ku hadlaan lahjad, dareen, iyo xawaare u eg bini'aadam si loo abuuro waayo-aragnimo lagu raaxaysto loona dhiirrigeliyo wada-hadal joogto ah oo lala yeesho isticmaalayaasha. Waxaan u tababarnay gpt-realtime inuu soo saaro hadal tayo sare leh oo u dhawaaqaya mid dabiici ah isla markaana raaci kara tilmaamo faahfaahsan, sida “si degdeg ah oo xirfad leh u hadal” ama “si damqasho leh ugu hadal lahjad Faransiis ah.”

Waxaan ku sii deynaynaa laba cod oo cusub gudaha API-ga, Marin iyo Cedar, kuwaas oo leh horumarka ugu weyn ee hadalka dabiiciga u dhawaaqaya. Waxaan sidoo kale cusboonaysiinaynaa sideeddeenna cod ee jira si ay uga faa'iidaystaan horumarradan.

Tusaale cod - Marin
Tusaale cod - Cedar

Garaad iyo faham

gpt-realtime wuxuu muujinayaa garaad sare wuxuuna si saxnimo badan u fahmi karaa maqal dabiici ah. Noocku wuxuu qaban karaa tilmaamo aan afka ahayn (sida qosol), wuxuu luqadaha ugu beddeli karaa dhexda jumladda, wuxuuna la qabsan karaa codka hadalka (“degdeg ah oo xirfad leh” marka loo eego “naxariis leh oo damqasho badan”). Sida ku cad qiimeynaha gudaha, noocku wuxuu sidoo kale muujiyaa waxqabad sax ah oo dheeraad ah marka la ogaanayo taxanayaal xarfo iyo tirooyin ah (sida lambarro telefoon, VIN-yo, iwm) luqado kale, oo ay ku jiraan Isbaanish, Shiine, Jabaaniis, iyo Faransiis. Qiimeynta Big Bench Audio ee cabbirta awoodaha caqliyeynta, gpt-realtime wuxuu helaa saxnaan dhan 82.8%—wuxuuna ka sarreeyaa noockeennii hore ee Diseembar 2024, kaas oo helay 65.6%.

Big Bench Audio(ku furmaa daaqad cusub) benchmark-ku waa xog-ururin qiimeyn ah oo lagu cabbiro awoodaha caqliyeynta ee noocyada luqadda ee taageera gelinta maqal. Xog-ururintani waxay su'aalaha ka soo qaadatay Big Bench Hard—oo loo doortay tijaabinteeda adag ee caqliyeynta horumarsan—una waafajisay dhanka maqalka.

Raacidda tilmaamaha

Marka la dhisayo barnaamij hadal illaa hadal ah, horumariyeyaashu waxay nooca siiyaan tilmaamo ku saabsan sida uu u dhaqmi doono, oo ay ku jiraan sida uu u hadli doono, waxa uu ku odhan doono xaalad gaar ah, iyo waxa uu samaynayo ama aanu samaynayn. Waxaan diiradda saarnay horumarradeenna u hoggaansanaanta tilmaamahan, si xitaa jihooyinka yaryar ay ugu yeeshaan nooca macne dheeraad ah. Qiimeynta maqalka ee MultiChallenge ee cabbirta saxnaanta raacidda tilmaamaha, gpt-realtime wuxuu helaa 30.5%, taasoo ah horumar weyn marka loo eego noockeennii hore ee Diseembar 2024, kaas oo helay 20.6%.

MultiChallenge(ku furmaa daaqad cusub) waxay qiimeysaa sida wanaagsan ee LLM (Qaabka Luuqadda Ballaaran)-yadu u maareeyaan wada-hadallo wareegyo badan leh oo lala yeesho dadka. Waxay diiradda saartaa afar qaybood oo caqabado dhab ah oo noocyada ugu casriyeysan ee hadda jira ay ku dhibtoonayaan. Caqabadahani waxay uga baahan yihiin noocyada inay isku daraan raacidda tilmaamaha, maamulka macnaha guud, iyo caqliyeynta ku jirta macnaha guud isku mar. Waxaan u beddelnay qayb su'aalaha imtixaanka ka mid ah oo cod-saaxiib ah qoraal-ka-hadal si aan u abuurno nooc maqal ah oo qiimeyntan ah.

Xusida function-ka

Si loo dhiso wakiil cod awood leh oo leh nooc hadal illaa hadal ah, noocku wuxuu u baahan yahay inuu awoodo inuu u yeero qalabka saxda ah waqtiga saxda ah si uu faa'iido ugu yeesho wax-soo-saarka. Waxaan hagaajinnay xusida function-ka saddex jiho: u yeerista functions ku habboon, u yeerista functions waqtiga ku habboon, iyo u yeerista functions doodaha ku habboon leh (taasoo keenta saxnaan sare). Qiimeynta maqalka ee ComplexFuncBench ee cabbirta waxqabadka xusida function-ka, gpt-realtime wuxuu helaa 66.5%, halka noockeennii hore ee Diseembar 2024 uu helay 49.7%.

Waxaan sidoo kale hagaajinnay xusida function-ka ee aan isku mar dhicin(ku furmaa daaqad cusub). Wicitaannada function-ka ee muddada dheer socda mar dambe ma carqaladeyn doonaan socodka kal-fadhiga—noocku wuxuu sii wadi karaa wada-hadal dareere ah isagoo sugaya natiijooyinka. Astaantan si dabiici ah ayaa looga heli karaa gpt-realtime, sidaas darteed horumariyeyaashu uma baahna inay cusboonaysiiyaan koodhkooda.

ComplexFuncBench(ku furmaa daaqad cusub) waxay cabbirtaa sida wanaagsan ee noocyadu u maareeyaan hawlaha adag ee xusida function-ka. Waxay qiimeysaa waxqabadka xaalado ay ka mid yihiin wicitaanno tallaabooyin badan leh, caqliyeynta ku saabsan xaddidaadaha ama doorsoomayaal aan si toos ah loo sheegin, iyo maaraynta gelinno aad u dhaadheer. Waxaan u beddelnay weydiimihii qoraalka ahaa hadal si aan u dhisno qiimeyntan noockayaga.

Waxyaabaha ku cusub Realtime API

Taageerada server-ka MCP ee fog

Waxaad ku hawlgelin kartaa taageerada MCP kal-fadhi Realtime API ah adigoo gelinaya URL-ka server MCP fog gudaha qaabeynta kal-fadhiga. Marka la isku xiro, API-gu si toos ah ayuu kuugu maareeyaa wicitaannada qalabka, sidaas darteed looma baahna in si gacanta ah loo xiro isdhexgalada.

Qaabeyntani waxay fududaynaysaa in wakiilkaaga lagu balaariyo awoodo cusub—kaliya u tilmaam kal-fadhiga server MCP ka duwan, qalabkaasuna isla markiiba way diyaar noqonayaan. Si aad wax badan uga ogaato dejinta MCP ee Realtime, eeg hagahan(ku furmaa daaqad cusub).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Gelinta sawirka

Iyadoo gelinta sawirka hadda lagu taageerayo gpt-realtime, waxaad ku dari kartaa sawirro, sawir-gacmeedyo, iyo shaashad-qaadisyo oo ay la socdaan maqal ama qoraal kal-fadhi Realtime API ah. Hadda noocku wuxuu wada-hadalka ku saleyn karaa waxa isticmaaluhu dhab ahaantii arkayo, taasoo u suuragelinaysa isticmaalayaasha inay weydiiyaan su'aalo sida “maxaad arkaysaa?” ama “akhri qoraalka ku jira shaashad-qaadistan.”

Halkii sawir loogu qaadan lahaa sida qulqul muuqaal toos ah, siistamku wuxuu ula dhaqmaa sidii in sawir lagu darayo wada-hadalka. App-kaagu wuxuu go'aansan karaa sawirrada lala wadaagayo nooca iyo goorta lala wadaagayo. Sidaas ayaad gacanta ugu haysaa waxa noocku arko iyo goorta uu jawaabayo.

Fiiri dukumentiyadayada(ku furmaa daaqad cusub) si aad ugu bilowdo gelinta sawirka.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Awoodo dheeraad ah

Waxaan ku darnay dhowr astaamood oo kale si Realtime API uu ugu fududaado isdhexgalinta uguna dabacsanaado isticmaalka wax-soo-saarka.

  • Taageerada Session Initiation Protocol (SIP): Ku xidh app-yadaada shabakadda telefoonka dadweynaha, nidaamyada PBX, telefoonada miiska, iyo bar-dhammaadka SIP kale adigoo adeegsanaya taageero toos ah oo ku jirta Realtime API. Ka akhri dukumentiyada.(ku furmaa daaqad cusub)
  • Weydiimo dib loo adeegsan karo: Hadda waxaad kaydin kartaa oo dib u adeegsan kartaa weydiimo—kuwaas oo ka kooban fariimaha horumariyaha, qalabka, doorsoomayaasha, iyo tusaalooyinka fariimaha isticmaalaha/kaaliyaha—kal-fadhiyo Realtime API oo kala duwan, sida ku jirta Responses API. Wax badan ka baro dukumentiyada.(ku furmaa daaqad cusub)

Badbaado & asturnaan

Realtime API wuxuu ka kooban yahay lakabyo badan oo ilaalin iyo yarayn ah si looga hortago si xun u isticmaalka. Waxaad wax badan ka baran kartaa habka badbaadadayada iyo faahfaahinta kaarka siistamka ee ku jira baloogga ku dhawaaqista beta. Waxaan isticmaalnaa kala-soocayaal firfircoon oo dul socda kal-fadhiyada Realtime API, taasoo ka dhigan in wada-hadallo gaar ah la joojin karo haddii lagu ogaado inay jebinayaan tilmaamahayaga waxyaabaha waxyeellada leh. Horumariyeyaashu sidoo kale si fudud ayay ugu dari karaan xayndaabyo badbaado oo dheeraad ah iyagoo adeegsanaya Agents SDK(ku furmaa daaqad cusub).

Siyaasadahayaga isticmaalka waxay mamnuucaan dib-u-isticmaalka ama qaybinta wax-soo-saarka adeegyadeenna loogu talagalay spam, khiyaano, ama ujeeddooyin kale oo waxyeello leh. Horumariyeyaashu sidoo kale waa inay si cad ugu sheegaan isticmaalayaasha dhammaadka marka ay la falgalayaan AI, haddii aanay hore uga muuqan macnaha guud. Realtime API wuxuu adeegsadaa codad horay loo dejiyay si looga hortago in dad xun ay isu ekeeysiiyaan kuwa kale.

Realtime API wuxuu si buuxda u taageeraa Hoyga xogta ee EU(ku furmaa daaqad cusub) ee barnaamijyada ku salaysan EU, waxaana daboolaya ballanqaadyadayada asturnaanta shirkadaha.

Qiimeyn & helitaan

Realtime API-ga si guud loo heli karo iyo nooca cusub ee gpt-realtime ayaa maanta laga heli karaa dhammaan horumariyeyaasha. Waxaan qiimaha gpt-realtime hoos ugu dhignay 20% marka loo eego gpt-4o-realtime-preview—$32 / 1M token maqal gelin ah ($0.40 token gelin kaydsan ah) iyo $64 / 1M token maqal soo saar ah (eeg qiimeynta faahfaahsan(ku furmaa daaqad cusub)). Waxaan sidoo kale ku darnay xakameyn faahfaahsan oo ku saabsan macnaha guud ee wada-hadalka si horumariyeyaashu u dejiyaan xadadka token-ka ee caqliga leh oo ay u gaabiyaan wareegyo badan hal mar, taasoo si weyn u dhimaysa kharashka kal-fadhiyada dhaadheer.

Dib-u-daawashada baahinta tooska ah

Qoraa

OpenAI