Ruka hadi kwenye maudhui kuu
OpenAI

28 Agosti 2025

ProductToa

Tunakuletea gpt-realtime na sasisho za API ya Wakati Halisi kwa Mawakala wa Sauti ya Uzalishaji.

Tunatoa muundo wa hali ya juu zaidi wa hotuba hadi hotuba na uwezo mpya wa API ikijumuisha usaidizi wa seva ya MCP, ingizo la picha na usaidizi wa kupiga simu kwa SIP.

Kiolesura cha mtindo kinachoonyesha mwingiliano wa sauti. Katikati kuna kicheza sauti cha mstatili kilichozungushwa chenye taswira ya mawimbi, kitufe cha kucheza/kusitisha, kiashirio cha hali ya “Wakala mtandaoni” na alama ya muda ya 00:35. Mistari myeupe iliyopinda yenye nukta inapita kwenye picha, ikionyesha sauti ya moja kwa moja au mwendo wa mawimbi. Mandharinyuma ni bluu angavu na maumbo ya maua yaliyofifia katika rangi za waridi na zambarau.
Inapakia…

Leo tunafanya API ya Wakati Halisi ipatikane kwa ujumla na vipengele vipya vinavyowasha wasanidi programu na makampuni kuunda mawakala wa sauti wanaotegemeka, tayari kwa uzalishaji. API sasa inasaidia seva za mbali za MCP, ingizo za picha, na kupiga simu kupitia Itifaki ya Kuanzisha Kikao (SIP), na kufanya mawakala wa sauti kuwa na uwezo zaidi kupitia ufikiaji wa zana za ziada na muktadha.

Pia tunatoa muundo wetu wa hali ya juu zaidi wa usemi-kwa-usemi hadi sasa—gpt-realtime. Muundo mpya unaonyesha maboresho katika kufuata maagizo changamano, kutumia zana kwa usahihi na kutoa matamshi ambayo yanasikika asili zaidi na ya kueleza hisia. Ni bora katika kutafsiri ujumbe wa mfumo na dokeza za msanidi programu—iwe ni kusoma hati za kanusho neno kwa neno kwenye simu ya usaidizi, kurudia alfanumeriki au kubadili bila mshono kati ya lugha katikati ya sentensi. Pia tunatoa sauti mbili mpya, Cedar na Marin, ambazo zinapatikana pekee katika API ya Wakati Halisi kuanzia leo.

Tangu tulipoanzisha API ya Realtime katika toleo la Beta la umma Oktoba mwaka jana, maelfu ya wasanidi programu wameunda kwa kutumia API na kusaidia kuunda maboresho tunayotoa leo—iliyoboreshwa kwa kutegemewa, ufichwaji wa chini na ubora wa juu ili kusambaza mawakala wa sauti kwa ufanisi katika uzalishaji. Tofauti na njia za jadi zinazounganisha miundo mingi kati ya hotuba-kwa-maandishi na maandishi-kwa-hotuba, API ya Wakati Halisi inachakata na kuzalisha sauti moja kwa moja kupitia muundo mmoja na API. Hii inapunguza ufichwaji, huhifadhi nyongeza katika hotuba, na hutoa majibu ya asili zaidi na ya kuelezea.

"Muundo mpya wa hotuba hadi hotuba katika API ya Wakati Halisi ya OpenAI unaonyesha uwezo wa hoja zenye nguvu na usemi wa asili zaidi—ukiiruhusu kushughulikia maombi changamano, ya hatua nyingi kama vile kupunguza orodha kulingana na mahitaji ya mtindo wa maisha au kuongoza majadiliano ya uwezo wa kumudu kwa zana kama vile alama yetu ya BuyAbility Hii inaweza kufanya kutafuta nyumba kwenye Zillow au kugundua chaguzi za ufadhili kuhisi kuwa jambo la kawaida kama mazungumzo na rafiki, kusaidia kurahisisha maamuzi kama vile kununua, kuuza na kukodisha nyumba.

– Josh Weisberg, Mkuu wa AI katika Zillow

Tunakuletea gpt-realtime

Muundo mpya wa hotuba kwa hotuba—gpt-realtime—ni muundo wetu wa sauti wa hali ya juu zaidi, tayari kwa uzalishaji. Tulifundisha muundo huo kwa kushirikiana kwa karibu na wateja ili kufanikiwa katika shughuli halisi za ulimwengu kama vile usaidizi wa wateja, usaidizi wa kibinafsi, na elimu—kulinganisha muundo na jinsi wasanidi programu wanavyojenga na kutumia mawakala wa sauti. Muundo huo unaonyesha maboresho katika ubora wa sauti, akili, ufuatiliaji wa maagizo, na kupiga simu kwa kazi.

Ubora wa sauti

Mazungumzo yanayosikika kama ya asili ni muhimu kwa kupeleka mawakala katika ulimwengu halisi. Miundo inahitaji kuzungumza kwa kiimbo, hisia, na kasi ya mwanadamu ili kuunda uzoefu wa kufurahisha na kuhimiza mazungumzo endelevu na watumiaji. Tulizoeza gpt-realtime kutoa matamshi ya hali ya juu ambayo yanasikika ya asili zaidi na yanaweza kufuata maagizo ya kina, kama vile "zungumza haraka na kwa ustadi" au "zungumza kwa huruma kwa lafudhi ya Kifaransa."

Tunatoa sauti mbili mpya kwenye API, Marin na Cedar, zikiwa na maboresho makubwa zaidi kwa sauti inayosikika kiasili. Pia tunasasisha sauti zetu nane zilizopo ili kufaidika na maboresho haya.

Sampuli ya sauti - Marin
Sampuli ya sauti - Mwerezi

Akili na ufahamu

gpt-realtime inaonyesha akili ya juu na inaweza kuelewa sauti asilia kwa usahihi zaidi. Muundo huo unaweza kunasa viashiria visivyo vya maneno (kama vile kucheka), kubadilisha lugha katikati ya sentensi, na kurekebisha toni (“changamfu na kitaaluma” dhidi ya “mwenye fadhili na huruma”). Kulingana na tathmini za ndani, muundo huo pia unaonyesha utendakazi sahihi zaidi katika kugundua mfuatano wa alphanumeric (kama vile nambari za simu, VIN, n.k) katika lugha nyingine, zikiwemo Kihispania, Kichina, Kijapani na Kifaransa. Katika tathmini ya Sauti ya Bench Kubwa inayopima uwezo wa kufikiri, gpt-realtime imepata usahihi wa 82.8%—ikizidi muundo wetu wa awali kutoka Desemba 2024, ambao ulipata alama 65.6%.

Kipimo cha Big Bench Audio(fungua katika dirisha jipya) ni seti ya data ya tathmini ya kutathmini uwezo wa kufikiri wa miundo ya lugha inayotoa usaidizi kwa Ingizo la sauti. Seti hii ya data inarekebisha maswali kutoka Big Bench Hard—iliyoteuliwa kwa ajili ya majaribio yake makali ya uwazaji wa hali ya juu—kwenye kikoa cha sauti.

Kufuata maagizo

Wakati wa kujenga programu ya hotuba kwa hotuba, wasanidi programu wanatoa seti ya maagizo kwa muundo kuhusu jinsi ya kujiendesha, ikiwa ni pamoja na jinsi ya kuzungumza, nini cha kusema katika hali fulani na nini cha kufanya au kutofanya. Tumeweka mkazo kwenye maboresho yetu kwa kufuata maagizo haya, ili hata maelekezo madogo yatoe ishara zaidi kwa muundo. Kwenye kiwango cha sauti cha MultiChallenge cha kupima usahihi wa kufuata maagizo, gpt-realtime inapata 30.5%, uboreshaji mkubwa kuliko muundo wetu wa awali kutoka Desemba 2024, ambao unapata 20.6%.

MultiChallenge(fungua katika dirisha jipya) hutathmini jinsi LLM zinavyoshughulikia mazungumzo ya mizunguko mingi na wanadamu. Inalenga katika makundi manne ya changamoto halisi ambazo miundo ya sasa ya mipaka inakumbana nazo. Changamoto hizi zinahitaji miundo kuchanganya ufuatiliaji wa maagizo, usimamizi wa muktadha, na hoja katika muktadha kwa wakati mmoja. Tulibadilisha sehemu ndogo ya maswali ya jaribio inayofaa kwa sauti kutoka maandishi hadi hotuba ili unda toleo la sauti la tathmini hii.

Kupiga simu kwa kazi

Ili kuunda wakala mwenye uwezo wa sauti na muundo wa hotuba-kwa-hotuba, muundo unahitaji kuwa na uwezo wa kutumia zana zinazofaa kwa wakati unaofaa ili kuwa muhimu katika uzalishaji. Tumeboresha kupigia vitendakazi katika vipengele vitatu: kupigia vitendakazi husika, kupiga vitendakazi kwa wakati unaofaa, na kupiga vitendakazi kwa hoja zinazofaa (inayosababisha usahihi wa juu zaidi). Katika tathmini ya ComplexFuncBench ya utendakazi wa kupiga simu, gpt-realtime inapata alama 66.5%, huku muundo wetu wa awali wa Desemba 2024 ukipata alama 49.7%.

Pia tumefanya maboresho ya kuita kazi kwa njia isiyo ya moja kwa moja(fungua katika dirisha jipya). Simu za kazi za muda mrefu hazitavuruga tena mtiririko wa kikao—muundo unaweza kuendelea na mazungumzo ya ufasaha wakati wa kusubiri matokeo. Kipengele hiki kinapatikana kiasili katika GPT‑realtime, kwa hivyo wasanidi programu hawana haja ya kusasisha misimbo yao.

ComplexFuncBench(fungua katika dirisha jipya) hupima jinsi miundo inavyoshughulikia vyema shughuli ngumu za kupiga simu za kazi. Inatathmini utendakazi katika hali kama vile simu za hatua nyingi, kufikiria kuhusu vikwazo au vigezo visivyo dhahiri na kushughulikia ingizo ndefu sana. Tulibadilisha dokezo asili kuwa hotuba ili kujenga tathmini hii kwa ajili ya muundo wetu.

Mpya katika API ya Realtime

Usaidizi wa seva ya mbali ya MCP

Unaweza kuwasha usaidizi wa MCP katika kikao cha API ya Wakati Halisi kwa kupitisha URL ya seva ya mbali ya MCP kwenye usanidi wa kikao. Mara tu unapounganishwa, API hushughulikia kiotomatiki simu za zana kwa ajili yako, kwa hivyo hakuna haja ya kuunganisha miunganisho kwa mikono.

Usanidi huu hurahisisha kupanua wakala wako kwa uwezo mpya—elekeza tu kikao kwenye seva tofauti ya MCP na zana hizo zitapatikana mara moja. Ili kujifunza zaidi kuhusu kusanidi MCP na Realtime, tafadhali angalia mwongozo huu(fungua katika dirisha jipya).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Ingizo la picha

Kwa kuwa viingizo vya picha sasa vinasaidiwa katika GPT‑realtime, unaweza kuongeza picha, picha za kawaida, na picha za skrini pamoja na sauti au maandishi kwenye kikao cha API cha Wakati Halisi. Sasa muundo unaweza kuweka msingi wa mazungumzo katika kile ambacho mtumiaji anaona, na kuwawezesha watumiaji kuuliza maswali kama vile "unaona nini?" au "soma maandishi katika picha hii ya skrini."

Badala ya kuchukulia picha kama mtiririko wa video wa moja kwa moja, mfumo huichukulia zaidi kama kuongeza picha kwenye mazungumzo. Programu yako inaweza kuamua ni picha zipi za kushiriki na muundo na lini kuzishiriki. Kwa njia hii, unakaa katika udhibiti wa kile ambacho muundo unaona na wakati unajibu.

Tazama docs(fungua katika dirisha jipya) zetu ili uanze na ingizo la picha.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Uwezo wa ziada

Tumeongeza vipengele vingine kadhaa ili kufanya Realtime API iwe rahisi kuunganishwa na kunyumbulika zaidi kwa matumizi ya uzalishaji.

  • Usaidizi wa Itifaki ya Kuanza Kikao (SIP): Unganisha programu zako kwenye mtandao wa simu za umma, mifumo ya PBX, simu za mezani na vituo vingine vya mwisho vya SIP kwa usaidizi wa moja kwa moja katika API ya Wakati Halisi. Soma kuhusu hilo katika hati.(fungua katika dirisha jipya)
  • Vidokezo vinavyoweza kutumika tena: Sasa unaweza kuhifadhi na kutumia tena vidokezo—vinavyojumuisha ujumbe wa msanidi programu, zana, vigeu, na ujumbe wa mfano wa mtumiaji/msaidizi—katika vikao vya API vya Wakati Halisi, kama ilivyo katika API ya Majibu. Jifunze zaidi katika hati.(fungua katika dirisha jipya)

Usalama na faragha

API ya Realtime inajumuisha tabaka nyingi za ulinzi na hatua za kupunguza ili kusaidia kuzuia matumizi mabaya. Unaweza kujifunza zaidi kuhusu mbinu yetu ya usalama na maelezo ya kadi ya mfumo katika blogu ya tangazo la beta. Tunatumia waainishaji amilifu kwenye vikao vya API ya Wakati Halisi, kumaanisha kuwa mazungumzo fulani yanaweza kusimamishwa iwapo yatatambuliwa kuwa yanakiuka miongozo yetu ya maudhui hatari. Wasanidi programu wanaweza pia kuongeza kwa urahisi ulinzi wao wa ziada wa usalama kwa kutumia SDK ya Wakala(fungua katika dirisha jipya).

Sera zetu za matumizi zinakataza kutumia tena au kusambaza matokeo kutoka kwa huduma zetu kwa barua taka, udanganyifu au madhumuni mengine hatari. Wasanidi programu lazima pia wafanye iwe wazi kwa watumiaji wa mwisho wanapowasiliana na AI, isipokuwa kama tayari ni dhahiri kutoka kwa muktadha. API ya Wakati Halisi hutumia sauti zilizowekwa awali ili kusaidia kuzuia wahusika hasidi wasijifanye kuwa wengine.

API ya Wakati Halisi inatoa usaidizi kamili kwa Ukaazi wa Data ya Umoja wa Ulaya(fungua katika dirisha jipya) kwa programu zinazotegemea EU na inashughulikiwa na ahadi zetu za faragha za biashara.

Uwekaji bei na upatikanaji

API ya Realtime inayopatikana kwa ujumla na muundo mpya GPT‑realtime unapatikana kwa wasanidi programu wote kuanzia leo. Tunapunguza bei za gpt-realtime kwa 20% ikilinganishwa na gpt-4o-realtime-preview—$32 / 1M tokeni za sauti za ingizo ($0.40 kwa tokeni ya ingizo iliyofichwa) na $64 / 1M tokeni za sauti za kitolewa (tazama uwekaji bei(fungua katika dirisha jipya)). Pia tumeongeza udhibiti wa kina wa muktadha wa mazungumzo ili kuwaruhusu wasanidi programu kuweka mipaka ya tokeni yenye akili na kukata zamu nyingi kwa wakati mmoja, hivyo kupunguza kwa kiasi kikubwa gharama ya vikao virefu.

Rudia matangazo ya moja kwa moja

Mwandishi

OpenAI