Aqbeż għall-kontenut prinċipali
OpenAI

7 ta’ Mejju 2026

ProdottRilaxx

Navvanzaw l-intelliġenza tal-vuċi b'mudelli ġodda fl-API

Ġenerazzjoni ġdida ta’ mudelli tal-vuċi f’realtime li jistgħu jagħmlu raġunament, jittraduċu u jittraskrivu waqt li n-nies jitkellmu.

Qed jillowdja…

Qed nintroduċu tliet mudelli awdjo fl-API li jiftħu klassi ġdida ta’ apps tal-vuċi għall-iżviluppaturi. B’dawn il-mudelli, l-iżviluppaturi jistgħu jibnu esperjenzi tal-vuċi li jħossuhom aktar naturali, jirrispondu b’mod aktar intelliġenti, u jieħdu azzjoni f’ħin reali:

  • GPT‑Realtime‑2, l-ewwel mudell tal-vuċi tagħna b’raġunament tal-klassi GPT‑5 li jista’ jimmaniġġja talbiet aktar diffiċli u jmexxi l-konversazzjoni ’l quddiem b’mod naturali.
  • GPT‑Realtime‑Translate, mudell ġdid ta’ traduzzjoni live li jittraduċi diskors minn aktar minn 70 lingwa ta’ input għal 13-il lingwa ta’ output filwaqt li jżomm il-pass mal-kelliem.
  • GPT‑Realtime‑Whisper, mudell ġdid ta’ speech-to-text streaming li jittraskrivi d-diskors live waqt li l-kelliem ikun qed jitkellem.

Ipprova GPT-Realtime-2

Ibda s-sessjoni, imbagħad tkellem b’mod naturali ma’ GPT-Realtime-2.
X'nista' nistaqsi?

Wara li tibda s-sessjoni, ipprova għid waħda minn dawn:

  • Qed norganizza ikla tal-aħħar minuta għal llejla. Għandi 30 minuta, żewġt iħbieb veġetarjani, persuna waħda li ma tħobbx il-faqqiegħ u kċina żgħira. Għinni nippjana menù sempliċi.
  • Qed nilqa’ mistednin għal avveniment live fil-Ġappun. Għid merħba mill-qalb u naturali bil-Ġappuniż — bħal ospitant li qed jagħti bidu għal xi ħaġa speċjali.
  • In-numru tal-ordni tiegħi huwa Orbit-742Q. Irrepetih lura b'mod ċar sabiex inkun nista' nikkonferma li hu korrett.
  • Għinni nipprattika kif ngħid lit-tim tiegħi li lħaqna t-tragward tat-tnedija tagħna. L-ewwel għidha b’kunfidenza kwieta, imbagħad b’aktar entużjażmu.
  • Qed nippjana kwizz ta’ trivia għal vjaġġ bil-karozza. Agħtini tliet mistoqsijiet b’nassa li jinstemgħu sempliċi b’mod qarrieqi, imbagħad spjega kull tweġiba f’sentenza waħda.

Din id-demo għandha limitu ta’ żmien. Billi tużah, inti taqbel mat-Termini ta’ OpenAI u tirrikonoxxi l-Politika tal-Privatezza tagħna.

Il-vuċi qed issir waħda mill-aktar modi naturali biex in-nies jużaw is-software. Tħalli lil xi ħadd jitlob għajnuna waqt is-sewqan, ibiddel pjan ta’ vjaġġ waqt li jkun għaddej minn ajruport, jikseb appoġġ fil-lingwa preferuta tiegħu, jew iwettaq kompitu mingħajr ma jieqaf jittajpja.

Iżda biex tibni prodotti tal-vuċi utli hemm bżonn aktar minn skambju mgħaġġel jew vuċi li tinstema’ naturali. Aġent tal-vuċi jeħtieġ jifhem xi jfisser persuna, iżomm kont tal-kuntest, jirkupra meta talba tinbidel, juża għodod waqt li l-konversazzjoni tkompli, u jirrispondi b’mod li jħossu adattat għall-mument.

Flimkien, il-mudelli li qed invaraw iċaqalqu l-awdjo f’realtime minn sempliċi sejħa u tweġiba lejn interfaces tal-vuċi li tassew jistgħu jagħmlu xogħol: jisimgħu, jagħmlu raġunament, jittraduċu, jittraskrivu, u jieħdu azzjoni hekk kif tiżvolġi konversazzjoni.

Il-vuċi bħala interface bejn in-nies u l-prodotti

Hekk kif il-vuċi ssir mod aktar naturali biex jintuża s-software, qed naraw lill-iżviluppaturi jibnu madwar tliet xejriet emerġenti fl-AI tal-vuċi:

  • Vuċi għal azzjoni, fejn in-nies jistgħu jiddeskrivu x’għandhom bżonn u s-sistema tista’ tagħmel raġunament fuq it-talba, tuża għodod, u tlesti l-kompitu. Pereżempju, Zillow qed tibni assistent li jista’ jisma’, jagħmel raġunament, u jaġixxi fuq talbiet bħal: “sibli djar fil-limitu tal-BuyAbility tiegħi, evita toroq traffikużi, u skeda żjara għas-Sibt.”
  • Sistemi għal vuċi, fejn is-software jista’ jibdel il-kuntest fi gwida mitkellma live. Pereżempju, app tal-ivvjaġġar tista’ tgħid b’mod proattiv lil vjaġġatur: “It-titjira li biha se tasal ġiet ittardjata, imma xorta tista’ taqbad il-konnessjoni tiegħek. Sibt il-bieb il-ġdid, immappejt l-aktar rotta mgħaġġla mit-terminal, u l-bagalja tiegħek għadha mistennija tiġi trasferita.”
  • Vuċi għal vuċi, fejn l-AI tista’ tgħin konversazzjonijiet live jkomplu bejn lingwi, kompiti, jew kuntest li jinbidel. Pereżempju, Deutsche Telekom qed tibni esperjenzi ta’ appoġġ bil-vuċi fejn il-klijenti jistgħu jitkellmu fil-lingwa li fiha jħossuhom l-aktar komdi, filwaqt li l-mudell jittraduċi l-konversazzjoni f’ħin reali.
Dijagramma li turi tliet flussi tax-xogħol tal-AI tal-vuċi: vuċi għal azzjoni li tgħaqqad id-diskors ma’ apps bħal code u dev, xiri, fil-karozza u għodod ta’ skedar; sistemi għal vuċi li jgħaqqdu apps, kalendarji, CRM u dashboards ta’ appoġġ mad-diskors; u vuċi għal vuċi li tgħaqqad żewġ aġenti tal-vuċi.

Dawn ix-xejriet jistgħu jaħdmu wkoll flimkien. Priceline qed taħdem lejn futur fejn il-vjaġġaturi jistgħu jimmaniġġjaw vjaġġi sħaħ bil-vuċi: ifittxu titjiriet u lukandi b’mod konversazzjonali, jimmaniġġjaw bidliet bħall-aġġustament ta’ riservazzjoni ta’ lukanda wara dewmien ta’ titjira jew jiksbu aġġornamenti f’ħin reali dwar il-ħinijiet ta’ stennija tat-TSA, u jittraduċu konversazzjonijiet ladarba l-vjaġġaturi jkunu waslu.

Vuċi f’realtime: ngħinu lill-mudelli tal-vuċi jagħmlu raġunament u jieħdu azzjoni

GPT‑Realtime‑2 huwa mibni għal interazzjonijiet live bil-vuċi fejn il-mudell iżomm il-konversazzjoni miexja waqt li jagħmel raġunament fuq talba, isejjaħ għodod, jimmaniġġja korrezzjonijiet jew interruzzjonijiet, u jirrispondi b’mod li jaqbel mal-mument.

  • Preambles: L-iżviluppaturi jistgħu jippermettu frażijiet qosra qabel tweġiba prinċipali, bħal “ħallini niċċekkja dak” jew “mument wieħed waqt li nħares lejn dan,” sabiex l-utenti jkunu jafu li l-aġent qed jaħdem fuq it-talba.
  • Sejħiet ta’ għodod paralleli u trasparenza tal-għodod: Il-mudell jista’ jsejjaħ diversi għodod f’daqqa u jagħmel dawn l-azzjonijiet jinstemgħu b’frażijiet bħal “qed niċċekkja l-kalendarju tiegħek” jew “qed infittex dan issa,” u b’hekk jgħin lill-aġenti jibqgħu reattivi waqt li jlestu kompiti.
  • Imġiba ta’ rkupru aktar b’saħħitha: Il-mudell jista’ jirkupra b’mod aktar grazzjuż billi jgħid affarijiet bħal “Bħalissa qed ikolli diffikultà b’dan,” minflok ifalli fis-skiet jew ikisser il-konversazzjoni.
  • Kuntest itwal għal flussi tax-xogħol aġentiċi: Qed inżidu t-tieqa tal-kuntest minn 32K għal 128K biex nappoġġjaw sessjonijiet itwal u aktar koerenti u flussi ta’ kompiti aktar kumplessi.
  • Fehim aktar b’saħħtu tad-dominju: Il-mudell iżomm aħjar terminoloġija speċjalizzata, ismijiet proprji, termini tas-Saħħa, u vokabularju ieħor li hu importanti f’ambjenti ta’ produzzjoni.
  • Tonalità u twassil aktar kontrollabbli: Il-mudell jista’ jaġġusta aħjar it-ton tiegħu—jitkellem bil-kalma waqt li jsolvi kwistjoni, b’empatija meta utent ikun frustrat, jew b’ferħ meta jikkonferma azzjoni li rnexxiet.
  • Sforz tar-raġunament aġġustabbli: L-iżviluppaturi issa jistgħu jagħżlu minn livelli ta’ raġunament minimal, low, medium, high, and xhigh, b’low as the default, biex jibbilanċjaw latency aktar baxxa għal interazzjonijiet sempliċi ma’ raġunament aktar deliberat għal talbiet kumplessi.

Dan it-titjib jidher f’evalwazzjonijiet awdjo li jixbhu mill-qrib lill-aġenti tal-vuċi fil-produzzjoni: GPT‑Realtime‑2 (high) jikseb punteġġ 15.2% ogħla fuq Big Bench Audio għall-intelliġenza awdjo minn GPT‑Realtime‑1.5. GPT‑Realtime‑2 (xhigh) jikseb punteġġ 13.8% ogħla fuq Audio MultiChallenge għas-segwitu tal-istruzzjonijiet, b’titjib fuq GPT‑Realtime‑1.5 u b’raġunament, ġestjoni tal-kuntest, u kontroll aktar b’saħħithom f’konversazzjonijiet live.

Big Bench Audio jevalwa kapaċitajiet ta’ raġunament diffiċli f’mudelli tal-lingwa li jappoġġjaw input awdjo. Audio MultiChallenge(jinfetaħ f’tieqa ġdida) jevalwa l-intelliġenza konversazzjonali b’ħafna dawriet fis-sistemi ta’ djalogu mitkellem, inklużi s-segwitu tal-istruzzjonijiet, l-integrazzjoni tal-kuntest, il-konsistenza interna, u l-immaniġġjar ta’ korrezzjonijiet naturali fid-diskors.

Il-maġija ta’ GPT‑Realtime‑2 tidher f’varjetà ta’ każijiet ta’ użu differenti:

Qiegħed jitgħabba eżempju f’ħin reali…

Waqt l-ittestjar bikri, in-negozji użaw GPT‑Realtime‑2 biex jibnu aġenti tal-vuċi li jgħinu lill-klijenti u lill-impjegati jwettqu l-kompiti permezz ta’ konversazzjoni naturali:

“Dawk li jibnu jridu progress kontinwu, mhux iterazzjoni bla tmiem. GPT-5.5 ikisser il-ħitan li n-nies normalment jolqtu fuq kompiti aktar kumplessi, bħal flows ta’ awtentikazzjoni u syncing f’ħin reali, f’ħafna inqas dawriet. Il-mudell verament jiddi meta x-xogħol isir iebes, billi jimmaniġġja kompiti diffiċli b’ħafna inqas botta u risposta.”
— Fabian Hedin, CTO u Ko-fundatur f’Lovable

Traduzzjoni f’realtime: ibni esperjenzi live tal-vuċi multilingwi

GPT‑Realtime‑Translate jgħin lill-iżviluppaturi jibnu esperjenzi live tal-vuċi multilingwi fejn kull persuna tista’ titkellem fil-lingwa preferuta tagħha u tisma’ l-konversazzjoni tradotta f’ħin reali u taqra t-traskrizzjonijiet f’ħin reali. Jappoġġja aktar minn 70 lingwa ta’ input u 13-il lingwa ta’ output, u dan jagħmlu utli għall-appoġġ lill-klijenti, bejgħ transkonfinali, edukazzjoni, avvenimenti, media, u pjattaformi għall-ħallieqa li jaqdu udjenzi globali.

Għall-iżviluppaturi, it-traduzzjoni live trid tippreserva t-tifsira filwaqt li żżomm il-pass mal-kelliem, anke meta n-nies jitkellmu b’mod naturali, ibiddlu l-kuntest, jew jużaw pronunzja reġjonali u lingwa speċifika għad-dominju. Pereżempju, Deutsche Telekom qed tittestja l-mudell għal interazzjonijiet bil-vuċi multilingwi, fejn latency aktar baxxa u fluwidità aktar b’saħħitha jistgħu jagħmlu l-konversazzjonijiet bejn lingwi differenti jħossuhom aktar naturali.

F’dan il-vidjo, Vimeo turi kif GPT‑Realtime‑Translate jista’ jittraduċi vidjo edukattiv dwar prodott live waqt li jkun qed jindaqq, sabiex klijenti globali jkunu jistgħu jisimgħu aġġornamenti fil-lingwa preferuta tagħhom mingħajr ma jistennew verżjoni prodotta separatament.

“Li tibni AI tal-vuċi għall-Indja jfisser li trid timmaniġġja fonetika reġjonali diversa. Fl-evalwazzjonijiet tagħna fuq il-Ħindi, it-Tamil u t-Telugu, GPT-Realtime-Translate ta Rati ta’ Żball fil-Kliem 12.5% aktar baxxi minn kwalunkwe mudell ieħor li ttestjajna, flimkien ma’ rati ta’ fallback aktar baxxi, tlestija tal-kompiti ogħla, u latency li żammet konversazzjoni naturali. Qed jistabbilixxi standard ġdid għall-AI tal-vuċi multilingwi.”
— Prateek Sachan, Ko-fundatur u CTO f’BolnaAI

Traskrizzjoni f’realtime: ibni esperjenzi ta’ traskrizzjoni b’latency baxxa

GPT‑Realtime‑Whisper huwa mudell ġdid ta’ traskrizzjoni streaming mibni għal speech-to-text b’latency baxxa. Jittraskrivi l-awdjo hekk kif in-nies jitkellmu, sabiex prodotti live jkunu jistgħu jħossuhom aktar veloċi, aktar reattivi, u aktar naturali—minn captions li jidhru fil-mument, sa noti tal-laqgħat li jlaħħqu mal-konversazzjoni.

Il-mudell jagħmel id-diskors live użabbli ġewwa flussi tax-xogħol tan-negozju hekk kif iseħħ. It-timijiet jistgħu jagħtu saħħa lil captions għal laqgħat, klassijiet, xandiriet u avvenimenti; jiġġeneraw noti u sommarji waqt li l-konversazzjonijiet ikunu għadhom għaddejjin; jibnu aġenti tal-vuċi li jeħtieġu jifhmu lill-utenti b’mod kontinwu; u joħolqu flussi tax-xogħol ta’ segwitu aktar mgħaġġla għall-appoġġ lill-klijenti, is-Saħħa, il-bejgħ, ir-reklutaġġ, u interazzjonijiet oħra mitkellma b’volum għoli.

Sikurezza

L-API Realtime tinkorpora diversi saffi ta’ salvagwardji u mitigazzjonijiet biex tgħin tipprevjeni l-użu ħażin. Aħna nużaw klassifikaturi attivi fuq sessjonijiet tal-API Realtime, li jfisser li ċerti konversazzjonijiet jistgħu jitwaqqfu jekk jiġi identifikat li qed jiksru l-linji gwida tagħna dwar kontenut dannuż. L-iżviluppaturi jistgħu wkoll faċilment iżidu salvagwardji addizzjonali ta’ sikurezza tagħhom stess bl-użu tal-Agents SDK⁠.(jinfetaħ f’tieqa ġdida)

Il-politiki ta’ użu⁠ tagħna jipprojbixxu l-użu mill-ġdid jew id-distribuzzjoni ta’ outputs mis-servizzi tagħna għal spam, qerq, jew skopijiet oħra ta’ ħsara. L-iżviluppaturi jridu wkoll jagħmluha ċara lill-utenti finali meta jkunu qed jinteraġixxu ma’ AI, sakemm dan ma jkunx diġà ovvju mill-kuntest.

L-API Realtime tappoġġja bis-sħiħ EU Data Residency⁠(jinfetaħ f’tieqa ġdida) għal applikazzjonijiet ibbażati fl-UE u hija koperta mill-impenji tagħna dwar il-privatezza tal-intrapriżi⁠.

Ipprezzar u disponibbiltà

GPT‑Realtime‑2, GPT‑Realtime‑Translate u GPT‑Realtime‑Whisper huma disponibbli fl-API Realtime. GPT‑Realtime‑2 għandu prezz ta’ $32 / 1M tokens ta’ input awdjo ($0.40 għal tokens ta’ input fil-cache) u $64 / 1M tokens ta’ output awdjo. GPT‑Realtime‑Translate għandu prezz ta’ $0.034 kull minuta. GPT‑Realtime‑Whisper għandu prezz ta’ $0.017 kull minuta.

Ibda

Tista’ tittestja l-mudelli l-ġodda tal-vuċi f’realtime fil-Playground(jinfetaħ f’tieqa ġdida).

Biex tibda tibni, iftaħ dan il-prompt f’Codex biex iżżid GPT‑Realtime‑2 ma’ app eżistenti jew tibda waħda ġdida. Jekk għad m’għandekx Codex, niżżel l-app Codex l-ewwel.