Kalo te përmbajtja kryesore
OpenAI

28 gusht 2025

ProduktiPublikimi

Prezantimi i gpt-realtime dhe përditësimeve të Realtime API për agjentët zanorë të prodhimit

Po prezantojmë një model më të avancuar të konvertimit të të folurit dhe aftësi të reja të API-t, duke përfshirë mbështetjen për serverin MCP, vendosjen e imazhit dhe mbështetjen për thirrjet telefonike SIP.

Ndërfaqe e stilizuar që shfaq një ndërveprim zanor. Në qendër është një lexues audio drejtkëndor i rrumbullakët me një vizualizim të formës së valës, buton luaj/pauzë, tregues të statusit “agjent në linjë” dhe pullë kohore 00:35. Vija të bardha të lakuara me pika rrjedhin nëpër imazh, duke sugjeruar lëvizje të audios së drejtpërdrejtë ose të sinjalit. Sfondi është një blu e gjallë me forma të mjegullta lulesh në nuanca rozë dhe vjollcë.
Duke ngarkuar…

Sot po e bëjmë Realtime API përgjithësisht të disponueshëm me veçori të reja që u mundësojnë zhvilluesve dhe kompanive të ndërtojnë agjentë zanorë të besueshëm dhe të gatshëm për prodhim. API tani mbështet serverët MCP në distancë, vendosjen e imazheve dhe thirrjet telefonike përmes Protokollit të Inicimit të Sesionit (SIP), duke i bërë agjentët zanorë më të aftë përmes qasjes në mjete dhe kontekst shtesë.

Gjithashtu, po publikojmë modelin tonë të të folurit më të avancuar deri më tani—gpt-realtime. Modeli i ri tregon përmirësime në ndjekjen e udhëzimeve komplekse, thirrjen e mjeteve me saktësi dhe prodhimin e të folurit që tingëllon më natyral dhe shprehës. Është më i mirë në interpretimin e mesazheve të sistemit dhe kërkesave të zhvilluesve—qoftë duke lexuar skriptet e mohimit të përgjegjësisë fjalë për fjalë gjatë një telefonate mbështetëse, duke përsëritur alfanumerikët ose duke kaluar pa probleme midis gjuhëve në mes të fjalisë. Gjithashtu po lëshojmë dy zëra të rinj, Cedar dhe Marin, të cilët janë të disponueshëm ekskluzivisht në Realtime API duke filluar nga sot.

Që kur prezantuam për herë të parë Realtime API në versionin beta publik tetorin e kaluar, mijëra zhvillues kanë ndërtuar me API-n dhe kanë ndihmuar në formësimin e përmirësimeve që po publikojmë sot—të optimizuara për besueshmëri, vonesë të ulët dhe cilësi të lartë për të vendosur me sukses agjentë zanorë në prodhim. Ndryshe nga kanalet tradicionale që lidhin së bashku modele të shumta përmes konvertimit të të folurit në tekst dhe tekstit në të folur, Realtime API përpunon dhe gjeneron audio direkt përmes një modeli dhe API-je të vetme. Kjo zvogëlon vonesën, ruan nuancat në të folur dhe prodhon përgjigje më natyrale dhe ekspresive.

“Modeli i ri i konvertimit të të folurit në Realtime API të OpenAI tregon arsyetim më të fortë dhe të folur më natyrale, duke e lejuar të trajtojë kërkesa komplekse me shumë hapa, si ngushtimi i listave sipas nevojave të stilit të jetesës ose drejtimi i diskutimeve mbi përballueshmërinë me mjete si rezultati ynë BuyAbility.” Kjo mund ta bëjë kërkimin për një shtëpi në Zillow ose eksplimin e opsioneve të financimit të ndihet po aq natyral sa një bisedë me një mik, duke ndihmuar në thjeshtimin e vendimeve si blerja, shitja dhe marrja me qira e një shtëpie.

– Josh Weisberg, drejtues i AI në Zillow

Prezantojmë gpt-realtime

Modeli i ri i konvertimit të të folurit—gpt-realtime—është modeli ynë më i avancuar i zërit, i gatshëm për prodhim. Ne e trajnuam modelin në bashkëpunim të ngushtë me klientët për të shkëlqyer në detyrat e botës reale si mbështetja e klientit, asistenca personale dhe edukimi—duke përafruar modelin me mënyrën se si zhvilluesit ndërtojnë dhe vendosin agjentët zanorë. Modeli tregon përmirësime në cilësinë e audios, inteligjencën, ndjekjen e udhëzimeve dhe thirrjen e funksionit.

Cilësia e audios

Biseda që tingëllon natyrale është thelbësore për vendosjen e agjentëve zanorë në botën reale. Modelet duhet të flasin me intonacionin, emocionin dhe ritmin e një njeriu për të krijuar një përvojë të këndshme dhe për të inkurajuar bisedë të vazhdueshme me përdoruesit. Ne trajnuam gpt-realtime për të prodhuar të folur me cilësi më të lartë që tingëllon më natyrale dhe mund të ndjekë udhëzime të imta, të tilla si "fol shpejt dhe profesionalisht" ose "fol me ndjeshmëri me theks francez".

Po publikojmë dy zëra të rinj në API, Marin dhe Cedar, me përmirësimet më të rëndësishme në të folurën me tingull natyral. Ne po përditësojmë gjithashtu tetë zërat tanë ekzistues për të përfituar nga këto përmirësime.

Mostra e zërit - Marin
Mostra e zërit - Cedar

Inteligjenca dhe të kuptuarit

gpt-realtime tregon inteligjencë më të lartë dhe mund ta kuptojë audion vendase me saktësi më të madhe. Modeli mund të kapë sinjale joverbale (si të qeshurat), të ndërrojë gjuhë në mes të fjalisë dhe të përshtatë tonin (“i shpejtë dhe profesional” kundrejt “i sjellshëm dhe empatik”). Sipas vlerësimeve të brendshme, modeli gjithashtu tregon performancë më të saktë në zbulimin e sekuencave alfanumerike (si numrat e telefonit, VIN-et, etj.) në gjuhë të tjera, duke përfshirë spanjishten, kinezishten, japonishten dhe frëngjishten. Në vlerësimin Big Bench Audio që mat aftësitë e arsyetimit, gpt-realtime arrin një saktësi prej 82.8%—duke mposhtur modelin tonë të mëparshëm nga dhjetori 2024, i cili arrin 65.6%.

Grupi i të dhënave të vlerësimit Big Bench Audio(hapet në një dritare të re) është një grup të dhënash për vlerësimin e aftësive arsyetuese të modeleve model gjuhe që kanë mbështetje për hyrje audio. Ky grup të dhënash përshtat pyetjet nga Big Bench Hard—i zgjedhur për testimin rigoroz të arsyetimit të avancuar—në domenin audio.

Ndjekja e udhëzimeve

Kur ndërtojnë një aplikacion të të folurit, zhvilluesit i japin modelit një sërë udhëzimesh se si të sillet, përfshirë mënyrën e të folurit, çfarë të thotë në një situatë të caktuar dhe çfarë të bëjë ose të mos bëjë. Ne kemi përqendruar përmirësimet tona në respektimin e këtyre udhëzimeve, në mënyrë që edhe udhëzimet e vogla të kenë më shumë ndikim për modelin. Në testin audio të MultiChallenge që mat saktësinë e ndjekjes së udhëzimeve, gpt-realtime shënon 30.5%, një përmirësim i ndjeshëm krahasuar me modelin tonë të mëparshëm nga dhjetori 2024, i cili shënon 20.6%.

MultiChallenge(hapet në një dritare të re) vlerëson se sa mirë LLM-të i përballojnë bisedat me shumë kthesa me njerëzit. Ai përqendrohet në katër kategori sfidash realiste me të cilat përballen modelet aktuale pararojë. Këto sfida kërkojnë që modelet të kombinojnë ndjekjen e udhëzimeve, menaxhimin e kontekstit dhe arsyetimin brenda kontekstit njëkohësisht. Ne konvertuam një nëngrup të pyetjeve të testit që janë të përshtatshme për audio nga teksti në të folur për të krijuar një version audio të këtij vlerësimi.

Thirrja e funksionit

Për të ndërtuar një agjent zëri të aftë me një model të të folurit, modeli duhet të jetë në gjendje të përdorë mjetet e duhura në kohën e duhur për të qenë i dobishëm në prodhim. Ne kemi përmirësuar thirrjen e funksioneve në tre aspekte: thirrjen e funksioneve të rëndësishme, thirrjen e funksioneve në kohën e duhur dhe thirrjen e funksioneve me argumente të përshtatshme (duke rezultuar në saktësi më të lartë). Në vlerësimin audio ComplexFuncBench që mat performancën e thirrjes së funksionit, gpt-realtime shënon 66.5%, ndërsa modeli ynë i mëparshëm nga dhjetori 2024 shënon 49.7%.

Ne gjithashtu kemi bërë përmirësime në thirrjen e funksioneve asinkrone(hapet në një dritare të re). Thirrjet e gjata të funksioneve nuk do të ndërpresin më rrjedhën e një sesioni–modeli mund të vazhdojë një bisedë të rrjedhshme ndërsa pret rezultatet. Kjo veçori është e disponueshme në mënyrë natyrale në gpt-realtime, kështu që zhvilluesit nuk kanë nevojë të përditësojnë kodin e tyre.

ComplexFuncBench(hapet në një dritare të re) mat se sa mirë modelet përballojnë detyrat sfiduese të thirrjes së funksioneve. Ai vlerëson performancën në skenarë të ndryshëm si thirrjet me shumë hapa, arsyetimi rreth kufizimeve ose parametrave implicite, trajtimi i Hyrjet shumë të gjata. Ne i konvertuam kërkesat origjinale të tekstit në të folur për të ndërtuar këtë vlerësim për modelin tonë.

Risia në Realtime API

Mbështetje për serverin MCP në distancë

Mund të aktivizosh mbështetjen MCP në një sesion API në kohë reale duke kaluar URL-në e një serveri të largët MCP në konfigurimin e sesionit. Pasi të lidhesh, API-ja i përpunon automatikisht thirrjet e mjeteve për ty, kështu që nuk ka nevojë të lidhësh integrimet manualisht.

Ky konfigurim e bën të lehtë zgjerimin e agjentit tënd me aftësi të reja—thjesht drejto sesionin në një server tjetër MCP dhe ato mjete bëhen të disponueshme menjëherë. Për të mësuar më shumë rreth konfigurimit të MCP me Realtime, shiko këtë udhëzues(hapet në një dritare të re).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Vendosja a e imazhit

Me vendosjen e imazheve që tani mundësohen në gpt-realtime, mund të shtosh imazhe, foto dhe pamje të ekranit së bashku me audio ose tekst në një sesion API në kohë reale. Tani modeli mund të bazojë bisedën në atë që përdoruesi në të vërtetë po sheh, duke u mundësuar përdoruesve të bëjnë pyetje si “çfarë sheh?” ose “lexo tekstin në këtë pamje ekrani.”

Në vend që ta trajtojë një imazh si një transmetim videoje të drejtpërdrejtë, sistemi e trajton atë më shumë si të shtosh një fotografi në bisedë. Aplikacioni yt mund të vendosë se cilat imazhe të ndajë me modelin dhe kur t'i ndajë ato. Në këtë mënyrë, ti qëndron në kontroll të asaj që modeli sheh dhe kur përgjigjet.

Shiko dokumentet(hapet në një dritare të re) tona për të filluar me vendosjen e imazheve.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Aftësi shtesë

Kemi shtuar disa veçori të tjera për ta bërë Realtime API më të lehtë për t'u integruar dhe më fleksibël për përdorim në prodhim.

Siguria dhe privatësia

Realtime API përfshin disa shtresa mbrojtjeje dhe zbutjeje për të ndihmuar në parandalimin e keqpërdorimit. Mund të mësosh më shumë rreth qasjes sonë të sigurisë dhe detajeve të kartës së sistemit në blogun e njoftimeve për versionin beta. Ne përdorim klasifikues aktivë gjatë sesioneve të Realtime API, që do të thotë se biseda të caktuara mund të ndalohen nëse zbulohet se shkelin udhëzimet tona për përmbajtje të dëmshme. Zhvilluesit gjithashtu mund të shtojnë lehtësisht mbrojtjet e tyre shtesë të sigurisë duke përdorur Agents SDK(hapet në një dritare të re).

Politikat tona të përdorimit ndalojnë ripërdorimin ose shpërndarjen e rezultateve nga shërbimet tona për spam, mashtrim ose qëllime të tjera të dëmshme. Zhvilluesit gjithashtu duhet t'ua bëjnë të qartë përdoruesve fundorë kur po ndërveprojnë me AI, përveçse nëse është tashmë e qartë nga konteksti. Realtime API përdor zëra të paracaktuar për të ndihmuar në parandalimin e aktorëve keqdashës që të imitojnë të tjerët.

Realtime API mbështet plotësisht EU Data Residency(hapet në një dritare të re) për aplikacionet me bazë në BE dhe është e mbuluar nga angazhimet tona për privatësinë e kompanive.

Çmimet dhe disponueshmëria

Realtime API dhe modeli i ri i gpt-realtime që janë përgjithësisht të disponueshëm, janë në dispozicion për të gjithë zhvilluesit duke filluar nga sot. Ne po ulim çmimet për gpt-realtime me 20% krahasuar me GPT‑4o‑realtime‑preview—$32 për 1 milion kodet e hyrjes audio ($0.40 për kodet e hyrjes të ruajtura në memorien specifike) dhe $64 për 1 milion kodet e daljes audio (shih çmimet e detajuara(hapet në një dritare të re)). Ne kemi shtuar gjithashtu kontroll të detajuar për kontekstin e bisedës për t'u lejuar zhvilluesve të vendosin kufij inteligjentë të tokenave dhe të shkurtojnë disa kthesa njëherësh, duke ulur ndjeshëm koston për sesione të gjata.

Ritransmetim i drejtpërdrejtë

Autor

OpenAI