28 օգոստոսի, 2025 թ.

Ներկայացնում ենք GPT‑realtime և Realtime API թարմացումները արտադրական ձայնային ագենտների համար։

Մենք թողարկում ենք ավելի առաջադեմ խոսքից խոսքի մոդել և նոր API հնարավորություններ, ներառյալ MCP սերվերի աջակցումը, պատկերի մուտքագրումը և SIP հեռախոսազանգերի աջակցումը։

Ձայնային փոխազդեցություն ցուցադրող ոճավորված ինտերֆեյս։ Կենտրոնացված է կլորացված ուղղանկյուն աուդիո նվագարկիչ՝ ալիքի ձևի վիզուալիզացիայով, նվագարկման/դադարի կոճակով, «Ագենտը առցանց է» կարգավիճակի ցուցիչով և 00:35 ժամանակային դրոշմանիշով։ Սպիտակ կոր գծերը կետերով հոսում են պատկերի վրայով՝ ենթադրելով կենդանի աուդիո կամ ազդանշանի շարժում։ Ետին պլանը վառ կապույտ է՝ վարդագույն և մանուշակագույն երանգներով մշուշված ծաղիկների ձևերով։

Բեռնվում է…

Այսօր մենք Realtime API-ը դարձնում ենք ընդհանուր հասանելի՝ նոր հնարավորություններով, որոնք թույլ են տալիս ծրագրավորողներին և ձեռնարկություններին ստեղծել հուսալի, արտադրության համար պատրաստ ձայնային գործակալներ։ API-ն այժմ աջակցում է հեռակա MCP սերվերներին, պատկերի մուտքագրմանը և հեռախոսազանգերին՝ Session Initiation Protocol (SIP) միջոցով, ինչը ձայնային գործակալներին դարձնում է ավելի կարողունակ՝ լրացուցիչ գործիքներին և համատեքստին հասանելիության շնորհիվ։

Մենք նաև թողարկում ենք մեր մինչ օրս ամենաառաջադեմ խոսքից խոսքի մոդելը՝GPT‑realtime։ Նոր մոդելը ցույց է տալիս բարելավումներ բարդ հրահանգներին հետևելու, գործիքները ճշգրիտ օգտագործելու և ավելի բնական ու արտահայտիչ հնչող խոսք ստեղծելու մեջ։ Այն ավելի լավ է մեկնաբանում համակարգային հաղորդագրությունները և մշակողների հուշումները՝ լինի դա հրաժարման սկրիպտները բառացի կարդալը աջակցության ծառայության զանգի ժամանակ, տառատառերը կրկնելը, թե նախադասության կեսից լեզուների միջև անխափան անցումը։ Մենք նաև թողարկում ենք երկու նոր ձայն՝ Cedar և Marin, որոնք հասանելի են բացառապես Realtime API-ում՝ սկսած այսօրվանից։

Անցյալ տարվա հոկտեմբերին Realtime API-ը հանրային բետա տարբերակով ներկայացնելուց ի վեր, հազարավոր ծրագրավորողներ աշխատել են API-ի միջոցով և օգնել են ձևավորել այսօր թողարկվող բարելավումները՝ օպտիմալացված հուսալիության, ցածր լատենտության և բարձր որակի համար՝ ձայնային գործակալները հաջողությամբ արտադրական փուլում տեղակայելու համար։ Ի տարբերություն ավանդական խողովակաշարերի, որոնք համատեղում են բազմաթիվ մոդելներ՝ խոսքը տեքստի և տեքստը խոսքի փոխակերպելու համար, Realtime API-ը մշակում և ստեղծում է աուդիո անմիջապես մեկ մոդելի և API-ի միջոցով։ Սա նվազեցնում է հապաղումը, պահպանում է խոսքի նրբերանգները և ստեղծում ավելի բնական, արտահայտիչ պատասխաններ։

«OpenAI-ի Realtime API-ի խոսքից խոսքի նոր մոդելը ցուցադրում է ավելի ուժեղ տրամաբանություն և ավելի բնական խոսք՝ հնարավորություն տալով նրան մշակել բարդ, բազմաքայլ հարցումներ, ինչպիսիք են ապրելակերպի կարիքներով ցուցակների նեղացումը կամ մատչելիության քննարկումների ուղղորդումը այնպիսի գործիքներով, ինչպիսիք են մեր BuyAbility գնահատականը։ Սա կարող է Zillow-ում տուն փնտրելը կամ ֆինանսավորման տարբերակների ուսումնասիրությունը դարձնել նույնքան բնական, որքան ընկերոջ հետ զրույցը, ինչը կօգնի պարզեցնել այնպիսի որոշումներ, ինչպիսիք են տուն գնելը, վաճառելը և վարձակալելը։

— Ջոշ Վայսբերգ,Zillow-ի ԱԲ բաժնի ղեկավար

Ներկայացնում ենք gpt-realtime-ը

Նոր խոսքից խոսքի մոդելը՝ GPT‑realtime, մեր ամենաառաջադեմ, արտադրության համար պատրաստ ձայնային մոդելն է։ Մենք մոդելը ուսուցանել ենք հաճախորդների հետ սերտ համագործակցությամբ՝ գերազանցելու իրական աշխարհի առաջադրանքները, ինչպիսիք են հաճախորդների աջակցումը, անձնական օգնականությունը և կրթությունը՝ մոդելը համապատասխանեցնելով այն բանին, թե ինչպես են ծրագրավորողները կառուցում և տեղակայում ձայնային ագենտները։ Մոդելը ցույց է տալիս բարելավումներ ձայնի որակի, ինտելեկտի, հրահանգների հետևման և ֆունկցիաների կանչման մեջ։

Աուդիո որակ

Բնական հնչող խոսակցությունը կարևոր է իրական աշխարհում ձայնային ագենտների տեղակայման համար։ Մոդելները պետք է խոսեն մարդու ինտոնացիայով, զգացմունքներով և տեմպով՝ ստեղծելու համար հաճելի փորձառություն և խրախուսելու շարունակական խոսակցություն օգտատերերի հետ։ Մենք վերապատրաստել ենք gpt-realtime -ը՝ ավելի բնական հնչող բարձրորակ խոսք ստեղծելու համար, որը կարող է հետևել մանրամասն հրահանգների, ինչպիսիք են՝ «արագ և պրոֆեսիոնալ խոսել» կամ «կարեկցանքով խոսել ֆրանսիական առոգանությամբ»։

Մենք թողարկում ենք API-ում երկու նոր ձայն՝ Marin և Cedar, որոնք ունեն բնական հնչողության ամենամեծ բարելավումները։ Մենք նաև թարմացնում ենք մեր առկա ութ ձայները՝ այս բարելավումներից օգտվելու նպատակով։

Ձայնի նմուշ - Marin

Ձայնային նմուշ - Cedar

Բանականություն և ըմբռնում

gpt-realtime-ը ցույց է տալիս ավելի բարձր բանականություն և կարող է ավելի մեծ ճշգրտությամբ ընկալել բնօրինակ աուդիոն։ Մոդելը կարող է ֆիքսել ոչ վերբալ ազդանշանները (օրինակ՝ ծիծաղը), նախադասության կեսին փոխել լեզուն և հարմարեցնել տոնը («արագ և պրոֆեսիոնալ» և «բարի և կարեկից»): Ներքին գնահատումների համաձայն, մոդելը նաև ավելի ճշգրիտ է աշխատում այլ լեզուներով, այդ թվում՝ իսպաներեն, չինարեն, ճապոներեն և ֆրանսերեն, ալֆանվտանգային հաջորդականությունները (օրինակ՝ հեռախոսահամարներ, VIN-ներ և այլն) հայտնաբերելու հարցում։ Big Bench Audio-ի վրա դատողության հնարավորությունները չափող գնահատման ժամանակ gpt-realtime-ը ցույց է տալիս 82,8% ճշգրտություն՝ գերազանցելով մեր նախորդ մոդելը 2024 թվականի դեկտեմբերից, որը ցույց էր տվել 65,6% ճշգրտություն։

Big Bench Audio⁠(բացվում է նոր պատուհանում) չափանիշը գնահատման տվյալների հավաքածու է, որը նախատեսված է աուդիո մուտքագրումն աջակցող լեզվի մոդելների տրամաբանական կարողությունները գնահատելու համար։ Այս տվյալների հավաքածուն հարմարեցնում է Big Bench Hard-ի հարցերը, որոնք ընտրվել են առաջադեմ հիմնավորումների խիստ փորձարկման համար, աուդիո տիրույթում։

Հրահանգի հետևում

Երբ կառուցում են խոսքից խոսք հավելված, ծրագրավորողները մոդելին տալիս են հրահանգների մի շարք, թե ինչպես վարվել, ներառյալ՝ ինչպես խոսել, ինչ ասել որոշակի իրավիճակում և ինչ անել կամ չանել։ Մենք մեր բարելավումները կենտրոնացրել ենք այս հրահանգների պահպանման վրա, որպեսզի նույնիսկ աննշան ուղղություններն ավելի շատ ազդանշան կրեն մոդելի համար։ MultiChallenge աուդիո չափանիշում, որը չափում է հրահանգներին հետևելու ճշգրտությունը, gpt-realtime-ը ստանում է 30,5% արդյունք, ինչը զգալի բարելավում է մեր նախորդ՝ 2024 թվականի դեկտեմբերի մոդելի համեմատ, որը ստանում է 20,6% արդյունք։

MultiChallenge-ը⁠(բացվում է նոր պատուհանում) գնահատում է, թե որքանով լավ են LLM-ները հաղթահարում մարդկանց հետ բազմակողմանի խոսակցությունները: Այն կենտրոնանում է իրատեսական մարտահրավերների չորս կատեգորիայի վրա, որոնց հետ պայքարում են ներկայիս առաջատար մոդելները։ Այս մարտահրավերները պահանջում են, որ մոդելները միաժամանակ համատեղեն հրահանգներին հետևելը, համատեքստի կառավարումը և համատեքստում հիմնավորումը։ Մենք տեքստից խոսք փոխակերպեցինք թեստի հարցերի աուդիո-հարմարավետ ենթաբազմությունը՝ այս գնահատման աուդիո տարբերակը ստեղծելու համար։

ֆունկցիայի կանչ

Խոսքից խոսքի մոդելով ունակ ձայնային ագենտ կառուցելու համար մոդելը պետք է կարողանա ճիշտ ժամանակին կանչել ճիշտ գործիքները, որպեսզի օգտակար լինի արտադրության մեջ։ Մենք բարելավել ենք ֆունկցիաների կանչը երեք ուղղություններով՝ համապատասխան ֆունկցիաների կանչ, ֆունկցիաների կանչ համապատասխան ժամանակին և համապատասխան արգումենտներով ֆունկցիաների կանչ (արդյունքում ստացվում է ավելի բարձր ճշգրտություն): ComplexFuncBench աուդիո գնահատման վրա, որը չափում է ֆունկցիաների կանչի արդյունավետությունը, GPT‑realtime -ը ստանում է 66,5% արդյունք, մինչդեռ մեր նախորդ՝ 2024 թվականի դեկտեմբերի մոդելը՝ 49,7% արդյունք։

Մենք նաև կատարել ենք բարելավումներ ասինխրոն ֆունկցիաների կանչման⁠(բացվում է նոր պատուհանում) մեջ։ Երկարատև ֆունկցիաների կանչերը այլևս չեն խաթարի աշխատաշրջանի հոսքը. մոդելը կարող է շարունակել սահուն զրույցը՝ արդյունքների սպասելիս։ Այս գործառույթը հասանելի է բնիկ կերպով gpt-realtime-ում, ուստի ծրագրավորողները կարիք չունեն թարմացնելու իրենց կոդը։

ComplexFuncBench⁠(բացվում է նոր պատուհանում)-ը չափում է, թե որքան լավ են մոդելները կատարում բարդ ֆունկցիաների կանչման առաջադրանքները։ Այն գնահատում է կատարողականը այնպիսի սցենարներում, ինչպիսիք են բազմաքայլ զանգերը, սահմանափակումների կամ անուղղակի պարամետրերի վերաբերյալ հիմնավորումը, շատ երկար մուտքագրումների մշակումը։ Մենք սկզբնական տեքստային հարցումները վերածեցինք խոսքի՝ մեր մոդելի համար այս գնահատումը ստեղծելու համար։

Նորություն Realtime API- ում

Հեռակա MCP սերվերի աջակցում

Դուք կարող եք միացնել MCP աջակցությունը Realtime API աշխատաշրջանում՝ աշխատաշրջանի կարգավորման մեջ փոխանցելով հեռակա MCP սերվերի URL-ը։ Միանալուց հետո API-ն ավտոմատ կերպով մշակում է գործիքի կանչերը ձեզ համար, ուստի անհրաժեշտ չէ ձեռքով միացնել ինտեգրացիաները։

Այս կարգավորումը հեշտացնում է ձեր ագենտի ընդլայնումը նոր հնարավորություններով՝ պարզապես ուղղորդեք աշխատանքային շրջանը դեպի այլ MCP սերվեր, և այդ գործիքները անմիջապես հասանելի կդառնան։ MCP-ը Realtime-ով կարգավորելու մասին ավելին իմանալու համար ծանոթացեք այս ուղեցույցին⁠(բացվում է նոր պատուհանում)։

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

Պատկերների մուտքագրում

gpt-realtime-ում այժմ աջակցվող պատկերների մուտքագրումների շնորհիվ, դուք կարող եք Realtime API աշխատաշրջանին ավելացնել պատկերներ, լուսանկարներ և էկրանի նկարներ՝ ձայնի կամ տեքստի հետ մեկտեղ։ Այժմ մոդելը կարող է խոսակցությունը հիմնել այն բանի վրա, ինչ օգտատերը իրականում տեսնում է՝ հնարավորություն տալով օգտատերերին հարցեր տալ, ինչպիսիք են՝ «Ի՞նչ եք տեսնում» կամ «Կարդացեք այս էկրանի նկարում գտնվող տեքստը»։

Պատկերը ուղիղ տեսահոսքի պես դիտարկելու փոխարեն, համակարգը այն ավելի շատ դիտարկում է որպես խոսակցությանը նկար ավելացնելու։ Ձեր հավելվածը կարող է որոշել, թե որ պատկերները կիսել մոդելի հետ և երբ դրանք կիսել։ Այսպիսով, դուք վերահսկում եք, թե ինչ է տեսնում մոդելը և երբ է այն արձագանքում։

Պատկերների մուտքագրումը սկսելու համար ծանոթացեք մեր փաստաթղթերին⁠(բացվում է նոր պատուհանում) ։

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

Լրացուցիչ հնարավորություններ

Մենք ավելացրել ենք մի քանի այլ գործառույթներ՝ Realtime API-ը ավելի հեշտ ինտեգրելու և արտադրական օգտագործման համար ավելի ճկուն դարձնելու նպատակով։

Աշխատաշրջան նախաձեռնման պրոտոկոլի (SIP) աջակցում: Կապեք ձեր հավելվածները հանրային հեռախոսային ցանցին, PBX համակարգերին, սեղանի հեռախոսներին և այլ SIP վերջնակետերին՝ իրական ժամանակի API-ում անմիջական աջակցությամբ: Կարդացեք դրա մասին փաստաթղթերում։⁠(բացվում է նոր պատուհանում)
Վերաօգտագործելի հարցումներ։ Այժմ դուք կարող եք պահպանել և վերաօգտագործել հարցումները՝ բաղկացած ծրագրավորողի հաղորդագրություններից, գործիքներից, փոփոխականներից և օգտատիրոջ/օգնականի օրինակելի հաղորդագրություններից՝ Realtime API աշխատաշրջանների ընթացքում, ինչպես օրինակ՝ Responses API-ում: Իմացեք ավելին փաստաթղթերում։⁠(բացվում է նոր պատուհանում)

Անվտանգություն և գաղտնիություն

Realtime API-ն ներառում է պաշտպանության և մեղմացման բազմաթիվ շերտեր՝ չարաշահումը կանխելու համար։ Դուք կարող եք ավելին իմանալ մեր անվտանգության մոտեցման և համակարգային քարտի մանրամասների մասին բետա հայտարարությունների բլոգում⁠։ Մենք օգտագործում ենք ակտիվ դասակարգիչներ իրական ժամանակի API աշխատանքաշրջանների ընթացքում, ինչը նշանակում է, որ որոշ խոսակցություններ կարող են դադարեցվել, եթե դրանք հայտնաբերվեն որպես մեր վնասակար բովանդակության ուղեցույցները խախտող։ Ծրագրավորողները կարող են նաև հեշտությամբ ավելացնել իրենց սեփական լրացուցիչ անվտանգության միջոցառումները՝ օգտագործելով Agents SDK-ն⁠(բացվում է նոր պատուհանում)։

Մեր օգտագործման կանոններ⁠ արգելում են մեր ծառայություններից ստացված արդյունքների վերաօգտագործումը կամ տարածումը սպամի, խաբեության կամ այլ վնասակար նպատակներով։ Ծրագրավորողները պետք է նաև վերջնական օգտատերերին հստակեցնեն, թե երբ են նրանք փոխազդում արհեստական բանականության հետ, եթե դա արդեն ակնհայտ չէ համատեքստից։ Realtime API-ն օգտագործում է նախապես սահմանված ձայներ՝ չարամիտ անձանց կողմից ուրիշներին կեղծել թույլ չտալու համար։

Realtime API-ն ամբողջությամբ աջակցում է ԵՄ տվյալների պահպանման⁠(բացվում է նոր պատուհանում) համար ԵՄ-ում գործող հավելվածներին և ընդգրկված է մեր ձեռնարկության գաղտնիության պարտավորությունների⁠ շրջանակում։

Գներ և հասանելիություն

Այսօրվանից բոլոր ծրագրավորողները կարող են օգտվել ընդհանուր հասանելի Realtime API-ից և նոր gpt-realtime մոդելից։ Մենք նվազեցնում ենք gpt-realtime -ի գները 20%-ով՝ համեմատած gpt-4o-realtime-preview-ի հետ, որը կազմում է $32 / 1 միլիոն աուդիո մուտքի տոկենն ($0,40 քեշավորված մուտքային թոքենների համար) և $64 / 1 միլիոն աուդիո արտածման թոքեն (տե՛ս մանրամասն գներ⁠(բացվում է նոր պատուհանում)ը): Մենք նաև ավելացրել ենք զրույցի համատեքստի մանրակրկիտ կառավարում, որը թույլ է տալիս ծրագրավորողներին սահմանել ինտելեկտուալ տոկենների սահմանափակումներ և միաժամանակ կրճատել մի քանի հերթափոխ, զգալիորեն կրճատելով երկար աշխատաշրջանների արժեքը։

Սկսելու համար այցելեք մեր Realtime API փաստաթղթերը⁠(բացվում է նոր պատուհանում), փորձարկեք նոր մոդելը Playground⁠(բացվում է նոր պատուհանում)-ում և դիտեք մեր Realtime API հարցումների ուղեցույցը⁠(բացվում է նոր պատուհանում)։

Ուղիղ եթերի կրկնություն

2025

Հեղինակ

OpenAI

Շարունակել կարդալ

Դիտել բոլորը

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6-ը Microsoft 365 Copilot-ում այժմ նախընտրելի մոդելն է

Արտադրանք9 հլս, 2026 թ.

GPT-5.6: առաջադեմ բանականություն, որը զարգանում է ձեր հավակնությունների հետ

Արտադրանք9 հլս, 2026 թ.

ChatGPT-ն այժմ գործընկեր է ձեր ամենահավակնոտ աշխատանքի համար

Արտադրանք9 հլս, 2026 թ.