Негізгі мазмұнға өту
OpenAI

2025 ж. 28 тамыз

ӨнімШығарылым

Өндірістік дауыс агенттеріне арналған gpt-realtime және Realtime API жаңартуларын таныстыру

Біз неғұрлым жетілдірілген Сөз сөйлеуден сөз сөйлеуге моделін және MCP серверін қолдау, кескін кірісі және SIP телефон қоңырауларын қолдау сияқты жаңа API мүмкіндіктерін шығарып жатырмыз.

Дауыстық өзара әрекеттесуді көрсететін стильдендірілген интерфейс. Ортасында толқын пішінінің визуализациясы, ойнату/кідірту түймесі, “Агент желіде” күй көрсеткіші және 00:35 уақыт белгісі бар дөңгелек бұрышты тікбұрышты аудиоплеер орналасқан. Нүктелері бар ақ иілген сызықтар кескін бойымен ағып, тікелей аудио не сигнал қозғалысын меңзейді. Фон ашық көк, онда қызғылт және күлгін реңктегі бұлдыр гүл пішіндері бар.
Жүктелуде…

Бүгін біз әзірлеушілер мен кәсіпорындарға сенімді, өндіріске дайын дауыс агенттерін құруға мүмкіндік беретін жаңа мүмкіндіктермен бірге Realtime API-ді жалпыға қолжетімді етеміз. Енді API қашықтағы MCP серверлерін, кескін кірістерін және Session Initiation Protocol (SIP) арқылы телефон қоңырауларын қолдайды, бұл дауыс агенттерін қосымша құралдар мен контекстке қол жеткізу арқылы анағұрлым қабілетті етеді.

Сонымен қатар біз бүгінге дейінгі ең озық Сөз сөйлеуден сөз сөйлеуге моделімізді — gpt-realtime — шығарып жатырмыз. Жаңа модель күрделі нұсқауларды орындауда, құралдарды дәл шақыруда және анағұрлым табиғи, мәнерлі естілетін сөйлеуді шығаруда жақсарғанын көрсетеді. Ол жүйелік хабарламалар мен әзірлеуші көмексөздерін жақсырақ түсіндіреді — мейлі бұл қолдау қоңырауында ескертпе мәтінін сөзбе-сөз оқу, әріп-сан тіркестерін қайталау немесе сөйлем ортасында тілдер арасында кедергісіз ауысу болсын. Сондай-ақ біз бүгіннен бастап тек Realtime API-де қолжетімді болатын Cedar және Marin атты екі жаңа дауысты ұсынамыз.

Былтыр қазанда Realtime API-ді алғаш рет ашық бета ретінде таныстырғанымыздан бері мыңдаған әзірлеуші API-мен жұмыс істеп, бүгін шығарып отырған жақсартуларды қалыптастыруға көмектесті — олар өндірісте дауыс агенттерін сәтті енгізу үшін сенімділікке, төмен кідіріске және жоғары сапаға оңтайландырылған. Сөйлеуді мәтінге және мәтінді сөйлеуге айналдыру үшін бірнеше модельді тізбектейтін дәстүрлі құбырлардан айырмашылығы, Realtime API аудионы бір модель мен API арқылы тікелей өңдеп, жасайды. Бұл кідірісті азайтады, сөйлеудегі реңкті сақтайды және табиғи, мәнерлі жауаптар береді.

«OpenAI-дың Realtime API-індегі жаңа Сөз сөйлеуден сөз сөйлеуге моделі күштірек ой қорыту мен табиғи сөйлеуді көрсетеді — соның арқасында өмір салтына сай тізімдерді нақтылау немесе BuyAbility бағасы сияқты құралдармен қолжетімділікті талқылауды бағыттау секілді күрделі, көпқадамды сұрауларды орындай алады. Бұл Zillow-да үй іздеуді немесе қаржыландыру нұсқаларын қарастыруды досыңызбен әңгімелескендей табиғи етіп, үй сатып алу, сату және жалға алу сияқты шешімдерді жеңілдетуге көмектесуі мүмкін.»

Zillow компаниясындағы AI бөлімінің басшысы Джош Вайсберг

gpt-realtime таныстыруы

Жаңа Сөз сөйлеуден сөз сөйлеуге моделі — gpt-realtime — біздің ең озық, өндіріске дайын дауыс моделіміз. Біз модельді тұтынушылармен тығыз ынтымақтастықта оқытып, клиенттерді қолдау, жеке көмек және білім беру сияқты нақты өмірлік тапсырмаларда үздік болатындай жасадық — модельді әзірлеушілер дауыс агенттерін қалай құрып, енгізетініне сәйкестендірдік. Модель аудио сапасы, интеллект, нұсқауларды орындау және функция шақыру бойынша жақсарғанын көрсетеді.

Аудио сапасы

Табиғи естілетін әңгіме нақты әлемде дауыс агенттерін енгізу үшін аса маңызды. Пайдаланушыларға жағымды тәжірибе беру және үздіксіз әңгімеге ынталандыру үшін модельдер адамға тән интонациямен, эмоциямен және қарқынмен сөйлеуі керек. Біз gpt-realtime моделін табиғи естілетін жоғары сапалы сөйлеу шығаратындай және «тез әрі кәсіби сөйле» немесе «француз акцентімен жанашырлықпен сөйле» сияқты ұсақ-түйек нұсқауларды орындай алатындай етіп үйреттік.

Біз API-де табиғи естілетін сөйлеуді ең көп жақсартқан Marin және Cedar деген екі жаңа дауысты шығарып жатырмыз. Сонымен қатар осы жақсартулардың пайдасын көруі үшін қолданыстағы сегіз дауысымызды да жаңартып жатырмыз.

Дауыс үлгісі - Marin
Дауыс үлгісі - Cedar

Интеллект және түсіну

gpt-realtime жоғарырақ интеллект көрсетіп, түпнұсқа аудионы дәлірек түсіне алады. Модель вербалды емес белгілерді (мысалы, күлкіні) ұстай алады, сөйлем ортасында тіл ауыстырады және үн реңкін бейімдейді («шапшаң әрі кәсіби» немесе «мейірімді әрі жанашыр»). Ішкі бағалауларға сәйкес, модель басқа тілдердегі, соның ішінде испан, қытай, жапон және француз тілдеріндегі әріп-сан тізбектерін (мысалы, телефон нөмірлері, VIN және т.б.) анықтауда да дәлірек нәтиже көрсетеді. Ой қорыту қабілеттерін өлшейтін Big Bench Audio бағалауында gpt-realtime 82,8% дәлдікке жетті — бұл 2024 жылғы желтоқсандағы алдыңғы моделіміздің 65,6% нәтижесінен жоғары.

Big Bench Audio(жаңа терезеде ашылады) бенчмаркі — аудио кірісін қолдайтын тілдік модельдердің ой қорыту қабілеттерін бағалауға арналған деректер жиыны. Бұл деректер жиыны Big Bench Hard сұрақтарын — терең ой қорыту сынақтарының қатаңдығы үшін таңдалған — аудио саласына бейімдейді.

Нұсқауларды орындау

Сөз сөйлеуден сөз сөйлеуге қолданбасын жасағанда, әзірлеушілер модельге өзін қалай ұстау керегін, оның ішінде қалай сөйлеу, белгілі бір жағдайда не айту және не істеу не істемеу керегін түсіндіретін нұсқаулар жиынтығын береді. Біз жақсартуларымызды осы нұсқауларды ұстануға бағыттадық, сондықтан тіпті кішігірім бағыттаулардың өзі модель үшін көбірек сигнал береді. Нұсқауларды орындау дәлдігін өлшейтін MultiChallenge аудио бенчмаркі бойынша gpt-realtime 30,5% жинайды, бұл 2024 жылғы желтоқсандағы 20,6% көрсеткен алдыңғы моделімізден едәуір жоғары.

MultiChallenge(жаңа терезеде ашылады) LLM (үлкен тілдік модель) жүйелерінің адамдармен көпкезеңді әңгімелерді қаншалықты жақсы жүргізетінін бағалайды. Ол қазіргі озық модельдер қиналатын шынайы қиындықтардың төрт санатына назар аударады. Бұл қиындықтар модельдерден нұсқауларды орындауды, контексті басқаруды және контекст ішіндегі ой қорыту қабілетін бір уақытта біріктіруді талап етеді. Біз осы бағалаудың аудио нұсқасын жасау үшін тест сұрақтарының аудиоға ыңғайлы ішкі жиынын text-to-speech арқылы түрлендірдік.

Функция шақыру

Сөз сөйлеуден сөз сөйлеуге моделі бар қабілетті дауыс агентін құру үшін модель өндірісте пайдалы болуы үшін дұрыс құралдарды дұрыс уақытта шақыра алуы керек. Біз функция шақыруды үш бағыт бойынша жақсарттық: тиісті функцияларды шақыру, функцияларды орынды уақытта шақыру және функцияларды дұрыс аргументтермен шақыру (нәтижесінде дәлдік жоғарылайды). Функция шақыру өнімділігін өлшейтін ComplexFuncBench аудио бағалауында gpt-realtime 66,5% алады, ал 2024 жылғы желтоқсандағы алдыңғы моделіміз 49,7% көрсетеді.

Біз сондай-ақ асинхронды функция шақыру(жаңа терезеде ашылады) мүмкіндігін жақсарттық. Ұзақ орындалатын функция шақырулары енді сессия ағынын бұзбайды — модель нәтижелерді күтіп тұрғанда да еркін әңгімені жалғастыра алады. Бұл мүмкіндік gpt-realtime ішінде жергілікті түрде қолжетімді, сондықтан әзірлеушілерге кодын жаңарту қажет емес.

ComplexFuncBench(жаңа терезеде ашылады) модельдердің күрделі функция шақыру тапсырмаларын қаншалықты жақсы орындайтынын өлшейді. Ол көпқадамды шақырулар, шектеулер немесе жасырын параметрлер туралы ой қорыту, өте ұзын кірістерді өңдеу сияқты сценарийлердегі өнімділікті бағалайды. Біз осы бағалауды моделіміз үшін құру мақсатында бастапқы мәтіндік көмексөздерді сөйлеуге түрлендірдік.

Realtime API-дегі жаңалықтар

Қашықтағы MCP серверін қолдау

Сессия конфигурациясына қашықтағы MCP серверінің URL мекенжайын беру арқылы Realtime API сессиясында MCP қолдауын қоса аласыз. Қосылғаннан кейін API құрал шақыруларын автоматты түрде өзі өңдейді, сондықтан интеграцияларды қолмен жалғаудың қажеті жоқ.

Бұл баптау агентіңізді жаңа мүмкіндіктермен кеңейтуді жеңілдетеді — сессияны басқа MCP серверіне бағыттасаңыз болды, сол құралдар бірден қолжетімді болады. Realtime-пен MCP конфигурациясы туралы көбірек білу үшін осы нұсқаулықты(жаңа терезеде ашылады) қараңыз.

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Кескін кірісі

Енді gpt-realtime ішінде кескін кірістері қолдауға ие болғандықтан, Realtime API сессиясына аудио немесе мәтінмен қатар суреттерді, фотоларды және скриншоттарды қоса аласыз. Енді модель әңгімені пайдаланушының шынымен не көріп тұрғанына байланыстыра алады, бұл пайдаланушыларға «не көріп тұрсың?» немесе «осы скриншоттағы мәтінді оқы» сияқты сұрақтар қоюға мүмкіндік береді.

Жүйе кескінді тікелей бейне ағыны сияқты қарастырудың орнына, оны әңгімеге сурет қосқандай қабылдайды. Қолданбаңыз модельмен қай кескіндерді және қашан бөлісуді өзі шеше алады. Осылайша сіз модельдің нені көретінін және қашан жауап беретінін бақылауда ұстайсыз.

Кескін кірісімен жұмысты бастау үшін біздің құжаттаманы(жаңа терезеде ашылады) қараңыз.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Қосымша мүмкіндіктер

Realtime API-ді біріктіруді жеңілдету және оны өндірістік қолдануға икемдірек ету үшін тағы бірнеше мүмкіндік қостық.

Қауіпсіздік және құпиялылық

Realtime API теріс пайдаланудың алдын алуға көмектесетін бірнеше қорғаныс және азайту қабаттарын қамтиды. Қауіпсіздік тәсіліміз бен жүйе картасы туралы толығырақ бета жариялау блогынан біле аласыз. Біз Realtime API сессияларына белсенді жіктеуіштерді қолданамыз, яғни зиянды контент жөніндегі нұсқаулықтарымызды бұзады деп танылған кейбір әңгімелер тоқтатылуы мүмкін. Әзірлеушілер Agents SDK(жаңа терезеде ашылады) көмегімен өздерінің қосымша қауіпсіздік шектеулерін де оңай қоса алады.

Біздің пайдалану саясаттарымыз қызметтеріміздің нәтижелерін спам, алдау немесе басқа зиянды мақсаттар үшін қайта пайдалануға не таратуға тыйым салады. Сондай-ақ әзірлеушілер соңғы пайдаланушыларға олардың AI-мен әрекеттесіп жатқанын анық көрсетуі керек, егер бұл контекстен онсыз да түсінікті болмаса. Realtime API зиянкестердің басқа біреудің атынан сөйлеуіне жол бермеуге көмектесу үшін алдын ала орнатылған дауыстарды пайдаланады.

Баға және қолжетімділік

Жалпыға қолжетімді Realtime API және жаңа gpt-realtime моделі бүгіннен бастап барлық әзірлеушілер үшін қолжетімді. Біз gpt-4o-realtime-preview моделіне қарағанда gpt-realtime бағасын 20%-ға төмендетіп жатырмыз — 1M аудио кіріс токеніне $32 ($0.40 — кэштелген кіріс токендері үшін) және 1M аудио шығыс токеніне $64 (қараңыз: толық баға(жаңа терезеде ашылады)). Сондай-ақ біз әзірлеушілерге ақылды токен шектерін орнатуға және бірнеше айналымды бірден қысқартуға мүмкіндік беретін әңгіме контекстін ұсақ деңгейде басқаруды қостық, бұл ұзақ сессиялар құнын айтарлықтай азайтады.

Тікелей эфир жазбасы

Автор

OpenAI