
Այսօր մենք Realtime API-ը դարձնում ենք ընդհանուր հասանելի՝ նոր հնարավորություններով, որոնք թույլ են տալիս ծրագրավորողներին և ձեռնարկություններին ստեղծել հուսալի, արտադրության համար պատրաստ ձայնային գործակալներ։ API-ն այժմ աջակցում է հեռակա MCP սերվերներին, պատկերի մուտքագրմանը և հեռախոսազանգերին՝ Session Initiation Protocol (SIP) միջոցով, ինչը ձայնային գործակալներին դարձնում է ավելի կարողունակ՝ լրացուցիչ գործիքներին և համատեքստին հասանելիության շնորհիվ։
Մենք նաև թողարկում ենք մեր մինչ օրս ամենաառաջադեմ խոսքից խոսքի մոդելը՝GPT‑realtime։ Նոր մոդելը ցույց է տալիս բարելավումներ բարդ հրահանգներին հետևելու, գործիքները ճշգրիտ օգտագործելու և ավելի բնական ու արտահայտիչ հնչող խոսք ստեղծելու մեջ։ Այն ավելի լավ է մեկնաբանում համակարգային հաղորդագրությունները և մշակողների հուշումները՝ լինի դա հրաժարման սկրիպտները բառացի կարդալը աջակցության ծառայության զանգի ժամանակ, տառատառերը կրկնելը, թե նախադասության կեսից լեզուների միջև անխափան անցումը։ Մենք նաև թողարկում ենք երկու նոր ձայն՝ Cedar և Marin, որոնք հասանելի են բացառապես Realtime API-ում՝ սկսած այսօրվանից։
Անցյալ տարվա հոկտեմբերին Realtime API-ը հանրային բետա տարբերակով ներկայացնելուց ի վեր, հազարավոր ծրագրավորողներ աշխատել են API-ի միջոցով և օգնել են ձևավորել այսօր թողարկվող բարելավումները՝ օպտիմալացված հուսալիության, ցածր լատենտության և բարձր որակի համար՝ ձայնային գործակալները հաջողությամբ արտադրական փուլում տեղակայելու համար։ Ի տարբերություն ավանդական խողովակաշարերի, որոնք համատեղում են բազմաթիվ մոդելներ՝ խոսքը տեքստի և տեքստը խոսքի փոխակերպելու համար, Realtime API-ը մշակում և ստեղծում է աուդիո անմիջապես մեկ մոդելի և API-ի միջոցով։ Սա նվազեցնում է հապաղումը, պահպանում է խոսքի նրբերանգները և ստեղծում ավելի բնական, արտահայտիչ պատասխաններ։
«OpenAI-ի Realtime API-ի խոսքից խոսքի նոր մոդելը ցուցադրում է ավելի ուժեղ տրամաբանություն և ավելի բնական խոսք՝ հնարավորություն տալով նրան մշակել բարդ, բազմաքայլ հարցումներ, ինչպիսիք են ապրելակերպի կարիքներով ցուցակների նեղացումը կամ մատչելիության քննարկումների ուղղորդումը այնպիսի գործիքներով, ինչպիսիք են մեր BuyAbility գնահատականը։ Սա կարող է Zillow-ում տուն փնտրելը կամ ֆինանսավորման տարբերակների ուսումնասիրությունը դարձնել նույնքան բնական, որքան ընկերոջ հետ զրույցը, ինչը կօգնի պարզեցնել այնպիսի որոշումներ, ինչպիսիք են տուն գնելը, վաճառելը և վարձակալելը։
— Ջոշ Վայսբերգ,Zillow-ի ԱԲ բաժնի ղեկավար
Նոր խոսքից խոսքի մոդելը՝ GPT‑realtime, մեր ամենաառաջադեմ, արտադրության համար պատրաստ ձայնային մոդելն է։ Մենք մոդելը ուսուցանել ենք հաճախորդների հետ սերտ համագործակցությամբ՝ գերազանցելու իրական աշխարհի առաջադրանքները, ինչպիսիք են հաճախորդների աջակցումը, անձնական օգնականությունը և կրթությունը՝ մոդելը համապատասխանեցնելով այն բանին, թե ինչպես են ծրագրավորողները կառուցում և տեղակայում ձայնային ագենտները։ Մոդելը ցույց է տալիս բարելավումներ ձայնի որակի, ինտելեկտի, հրահանգների հետևման և ֆունկցիաների կանչման մեջ։
Բնական հնչող խոսակցությունը կարևոր է իրական աշխարհում ձայնային ագենտների տեղակայման համար։ Մոդելները պետք է խոսեն մարդու ինտոնացիայով, զգացմունքներով և տեմպով՝ ստեղծելու համար հաճելի փորձառություն և խրախուսելու շարունակական խոսակցություն օգտատերերի հետ։ Մենք վերապատրաստել ենք gpt-realtime -ը՝ ավելի բնական հնչող բարձրորակ խոսք ստեղծելու համար, որը կարող է հետևել մանրամասն հրահանգների, ինչպիսիք են՝ «արագ և պրոֆեսիոնալ խոսել» կամ «կարեկցանքով խոսել ֆրանսիական առոգանությամբ»։
Մենք թողարկում ենք API-ում երկու նոր ձայն՝ Marin և Cedar, որոնք ունեն բնական հնչողության ամենամեծ բարելավումները։ Մենք նաև թարմացնում ենք մեր առկա ութ ձայները՝ այս բարելավումներից օգտվելու նպատակով։
gpt-realtime-ը ցույց է տալիս ավելի բարձր բանականություն և կարող է ավելի մեծ ճշգրտությամբ ընկալել բնօրինակ աուդիոն։ Մոդելը կարող է ֆիքսել ոչ վերբալ ազդանշանները (օրինակ՝ ծիծաղը), նախադասության կեսին փոխել լեզուն և հարմարեցնել տոնը («արագ և պրոֆեսիոնալ» և «բարի և կարեկից»): Ներքին գնահատումների համաձայն, մոդելը նաև ավելի ճշգրիտ է աշխատում այլ լեզուներով, այդ թվում՝ իսպաներեն, չինարեն, ճապոներեն և ֆրանսերեն, ալֆանվտանգային հաջորդականությունները (օրինակ՝ հեռախոսահամարներ, VIN-ներ և այլն) հայտնաբերելու հարցում։ Big Bench Audio-ի վրա դատողության հնարավորությունները չափող գնահատման ժամանակ gpt-realtime-ը ցույց է տալիս 82,8% ճշգրտություն՝ գերազանցելով մեր նախորդ մոդելը 2024 թվականի դեկտեմբերից, որը ցույց էր տվել 65,6% ճշգրտություն։
Big Bench Audio(բացվում է նոր պատուհանում) չափանիշը գնահատման տվյալների հավաքածու է, որը նախատեսված է աուդիո մուտքագրումն աջակցող լեզվի մոդելների տրամաբանական կարողությունները գնահատելու համար։ Այս տվյալների հավաքածուն հարմարեցնում է Big Bench Hard-ի հարցերը, որոնք ընտրվել են առաջադեմ հիմնավորումների խիստ փորձարկման համար, աուդիո տիրույթում։
Երբ կառուցում են խոսքից խոսք հավելված, ծրագրավորողները մոդելին տալիս են հրահանգների մի շարք, թե ինչպես վարվել, ներառյալ՝ ինչպես խոսել, ինչ ասել որոշակի իրավիճակում և ինչ անել կամ չանել։ Մենք մեր բարելավումները կենտրոնացրել ենք այս հրահանգների պահպանման վրա, որպեսզի նույնիսկ աննշան ուղղություններն ավելի շատ ազդանշան կրեն մոդելի համար։ MultiChallenge աուդիո չափանիշում, որը չափում է հրահանգներին հետևելու ճշգրտությունը, gpt-realtime-ը ստանում է 30,5% արդյունք, ինչը զգալի բարելավում է մեր նախորդ՝ 2024 թվականի դեկտեմբերի մոդելի համեմատ, որը ստանում է 20,6% արդյունք։
MultiChallenge-ը(բացվում է նոր պատուհանում) գնահատում է, թե որքանով լավ են LLM-ները հաղթահարում մարդկանց հետ բազմակողմանի խոսակցությունները: Այն կենտրոնանում է իրատեսական մարտահրավերների չորս կատեգորիայի վրա, որոնց հետ պայքարում են ներկայիս առաջատար մոդելները։ Այս մարտահրավերները պահանջում են, որ մոդելները միաժամանակ համատեղեն հրահանգներին հետևելը, համատեքստի կառավարումը և համատեքստում հիմնավորումը։ Մենք տեքստից խոսք փոխակերպեցինք թեստի հարցերի աուդիո-հարմարավետ ենթաբազմությունը՝ այս գնահատման աուդիո տարբերակը ստեղծելու համար։
Խոսքից խոսքի մոդելով ունակ ձայնային ագենտ կառուցելու համար մոդելը պետք է կարողանա ճիշտ ժամանակին կանչել ճիշտ գործիքները, որպեսզի օգտակար լինի արտադրության մեջ։ Մենք բարելավել ենք ֆունկցիաների կանչը երեք ուղղություններով՝ համապատասխան ֆունկցիաների կանչ, ֆունկցիաների կանչ համապատասխան ժամանակին և համապատասխան արգումենտներով ֆունկցիաների կանչ (արդյունքում ստացվում է ավելի բարձր ճշգրտություն): ComplexFuncBench աուդիո գնահատման վրա, որը չափում է ֆունկցիաների կանչի արդյունավետությունը, GPT‑realtime -ը ստանում է 66,5% արդյունք, մինչդեռ մեր նախորդ՝ 2024 թվականի դեկտեմբերի մոդելը՝ 49,7% արդյունք։
Մենք նաև կատարել ենք բարելավումներ ասինխրոն ֆունկցիաների կանչման(բացվում է նոր պատուհանում) մեջ։ Երկարատև ֆունկցիաների կանչերը այլևս չեն խաթարի աշխատաշրջանի հոսքը. մոդելը կարող է շարունակել սահուն զրույցը՝ արդյունքների սպասելիս։ Այս գործառույթը հասանելի է բնիկ կերպով gpt-realtime-ում, ուստի ծրագրավորողները կարիք չունեն թարմացնելու իրենց կոդը։
ComplexFuncBench(բացվում է նոր պատուհանում)-ը չափում է, թե որքան լավ են մոդելները կատարում բարդ ֆունկցիաների կանչման առաջադրանքները։ Այն գնահատում է կատարողականը այնպիսի սցենարներում, ինչպիսիք են բազմաքայլ զանգերը, սահմանափակումների կամ անուղղակի պարամետրերի վերաբերյալ հիմնավորումը, շատ երկար մուտքագրումների մշակումը։ Մենք սկզբնական տեքստային հարցումները վերածեցինք խոսքի՝ մեր մոդելի համար այս գնահատումը ստեղծելու համար։
Դուք կարող եք միացնել MCP աջակցությունը Realtime API աշխատաշրջանում՝ աշխատաշրջանի կարգավորման մեջ փոխանցելով հեռակա MCP սերվերի URL-ը։ Միանալուց հետո API-ն ավտոմատ կերպով մշակում է գործիքի կանչերը ձեզ համար, ուստի անհրաժեշտ չէ ձեռքով միացնել ինտեգրացիաները։
Այս կարգավորումը հեշտացնում է ձեր ագենտի ընդլայնումը նոր հնարավորություններով՝ պարզապես ուղղորդեք աշխատանքային շրջանը դեպի այլ MCP սերվեր, և այդ գործիքները անմիջապես հասանելի կդառնան։ MCP-ը Realtime-ով կարգավորելու մասին ավելին իմանալու համար ծանոթացեք այս ուղեցույցին(բացվում է նոր պատուհանում)։
gpt-realtime-ում այժմ աջակցվող պատկերների մուտքագրումների շնորհիվ, դուք կարող եք Realtime API աշխատաշրջանին ավելացնել պատկերներ, լուսանկարներ և էկրանի նկարներ՝ ձայնի կամ տեքստի հետ մեկտեղ։ Այժմ մոդելը կարող է խոսակցությունը հիմնել այն բանի վրա, ինչ օգտատերը իրականում տեսնում է՝ հնարավորություն տալով օգտատերերին հարցեր տալ, ինչպիսիք են՝ «Ի՞նչ եք տեսնում» կամ «Կարդացեք այս էկրանի նկարում գտնվող տեքստը»։
Պատկերը ուղիղ տեսահոսքի պես դիտարկելու փոխարեն, համակարգը այն ավելի շատ դիտարկում է որպես խոսակցությանը նկար ավելացնելու։ Ձեր հավելվածը կարող է որոշել, թե որ պատկերները կիսել մոդելի հետ և երբ դրանք կիսել։ Այսպիսով, դուք վերահսկում եք, թե ինչ է տեսնում մոդելը և երբ է այն արձագանքում։
Պատկերների մուտքագրումը սկսելու համար ծանոթացեք մեր փաստաթղթերին(բացվում է նոր պատուհանում) ։
Մենք ավելացրել ենք մի քանի այլ գործառույթներ՝ Realtime API-ը ավելի հեշտ ինտեգրելու և արտադրական օգտագործման համար ավելի ճկուն դարձնելու նպատակով։
- Աշխատաշրջան նախաձեռնման պրոտոկոլի (SIP) աջակցում: Կապեք ձեր հավելվածները հանրային հեռախոսային ցանցին, PBX համակարգերին, սեղանի հեռախոսներին և այլ SIP վերջնակետերին՝ իրական ժամանակի API-ում անմիջական աջակցությամբ: Կարդացեք դրա մասին փաստաթղթերում։(բացվում է նոր պատուհանում)
- Վերաօգտագործելի հարցումներ։ Այժմ դուք կարող եք պահպանել և վերաօգտագործել հարցումները՝ բաղկացած ծրագրավորողի հաղորդագրություններից, գործիքներից, փոփոխականներից և օգտատիրոջ/օգնականի օրինակելի հաղորդագրություններից՝ Realtime API աշխատաշրջանների ընթացքում, ինչպես օրինակ՝ Responses API-ում: Իմացեք ավելին փաստաթղթերում։(բացվում է նոր պատուհանում)
Realtime API-ն ներառում է պաշտպանության և մեղմացման բազմաթիվ շերտեր՝ չարաշահումը կանխելու համար։ Դուք կարող եք ավելին իմանալ մեր անվտանգության մոտեցման և համակարգային քարտի մանրամասների մասին բետա հայտարարությունների բլոգում։ Մենք օգտագործում ենք ակտիվ դասակարգիչներ իրական ժամանակի API աշխատանքաշրջանների ընթացքում, ինչը նշանակում է, որ որոշ խոսակցություններ կարող են դադարեցվել, եթե դրանք հայտնաբերվեն որպես մեր վնասակար բովանդակության ուղեցույցները խախտող։ Ծրագրավորողները կարող են նաև հեշտությամբ ավելացնել իրենց սեփական լրացուցիչ անվտանգության միջոցառումները՝ օգտագործելով Agents SDK-ն(բացվում է նոր պատուհանում)։
Մեր օգտագործման կանոններ արգելում են մեր ծառայություններից ստացված արդյունքների վերաօգտագործումը կամ տարածումը սպամի, խաբեության կամ այլ վնասակար նպատակներով։ Ծրագրավորողները պետք է նաև վերջնական օգտատերերին հստակեցնեն, թե երբ են նրանք փոխազդում արհեստական բանականության հետ, եթե դա արդեն ակնհայտ չէ համատեքստից։ Realtime API-ն օգտագործում է նախապես սահմանված ձայներ՝ չարամիտ անձանց կողմից ուրիշներին կեղծել թույլ չտալու համար։
Realtime API-ն ամբողջությամբ աջակցում է ԵՄ տվյալների պահպանման(բացվում է նոր պատուհանում) համար ԵՄ-ում գործող հավելվածներին և ընդգրկված է մեր ձեռնարկության գաղտնիության պարտավորությունների շրջանակում։
Այսօրվանից բոլոր ծրագրավորողները կարող են օգտվել ընդհանուր հասանելի Realtime API-ից և նոր gpt-realtime մոդելից։ Մենք նվազեցնում ենք gpt-realtime -ի գները 20%-ով՝ համեմատած gpt-4o-realtime-preview-ի հետ, որը կազմում է $32 / 1 միլիոն աուդիո մուտքի տոկենն ($0,40 քեշավորված մուտքային թոքենների համար) և $64 / 1 միլիոն աուդիո արտածման թոքեն (տե՛ս մանրամասն գներ(բացվում է նոր պատուհանում)ը): Մենք նաև ավելացրել ենք զրույցի համատեքստի մանրակրկիտ կառավարում, որը թույլ է տալիս ծրագրավորողներին սահմանել ինտելեկտուալ տոկենների սահմանափակումներ և միաժամանակ կրճատել մի քանի հերթափոխ, զգալիորեն կրճատելով երկար աշխատաշրջանների արժեքը։
Սկսելու համար այցելեք մեր Realtime API փաստաթղթերը(բացվում է նոր պատուհանում), փորձարկեք նոր մոդելը Playground(բացվում է նոր պատուհանում)-ում և դիտեք մեր Realtime API հարցումների ուղեցույցը(բացվում է նոր պատուհանում)։


