Біз API-ге әзірлеушілер үшін дауыс қолданбаларының жаңа класын ашатын үш аудио модельді ұсынып отырмыз. Осы модельдердің көмегімен әзірлеушілер табиғиырақ сезілетін, ақылдырақ жауап беретін және нақты уақытта әрекет ететін дауыс тәжірибелерін жасай алады:
- GPT‑Realtime‑2, күрделірек сұрауларды орындай алатын және әңгімені табиғи түрде жалғастыра алатын GPT‑5 деңгейіндегі ой қорытуы бар алғашқы дауыс моделіміз.
- GPT‑Realtime‑Translate, сөйлеушімен қатар ілесіп, 70-тен астам кіріс тілінен 13 шығыс тіліне сөйлеуді аударатын жаңа тікелей аударма моделі.
- GPT‑Realtime‑Whisper, сөйлеуші сөйлеп тұрған кезде сөйлеуді тікелей транскрипциялайтын жаңа ағындық speech-to-text моделі.
GPT-Realtime-2 қолданып көріңіз
Мен не сұрай аламын?
Сессияны бастаған соң, мыналардың бірін айтып көріңіз:
- Мен бүгін кешке аяқасты кешкі ас ұйымдастырып жатырмын. Менде 30 минут уақыт, екі вегетариандық досым, саңырауқұлақты жек көретін бір адам және шағын ғана асүй бар. Маған қарапайым ас мәзірін жоспарлауға көмектес.
- Жапонияда тікелей өтетін іс-шараға қонақтарды қарсы алып жатырмын. Жапон тілінде жылы әрі табиғи қарсы алу сөзін айтыңыз — ерекше бір нәрсені бастап жатқан жүргізуші сияқты.
- Менің тапсырыс нөмірім — Orbit-742Q. Оны анық қайталап айт, сонда мен оның дұрыс екенін растай аламын.
- Маған командама іске қосу межесіне жеткенімізді айтуды жаттықтыруға көмектес. Алдымен оны сабырлы сенімділікпен, содан кейін көбірек құлшыныспен жеткіз.
- Мен жолсапарға арналған сұрақ-жауап ойынын әзірлеп жатырмын. Маған өте оңай болып көрінетін үш айлакер сұрақты бер, содан кейін әрқайсысының жауабын бір сөйлеммен түсіндір.
Бұл демо-нұсқаның уақыты шектеулі. Оны пайдалану арқылы сіз OpenAI Шарттарымен келісесіз және біздің Жекелік саясатымызбен танысқаныңызды растайсыз.
Дауыс адамдардың бағдарламалық жасақтаманы қолдануының ең табиғи тәсілдерінің біріне айналып келеді. Ол адамға көлік жүргізіп келе жатып көмек сұрауға, әуежайдан өтіп бара жатып сапар жоспарын өзгертуге, өзіне ыңғайлы тілде қолдау алуға немесе теруді тоқтатпай-ақ тапсырманы орындауға мүмкіндік береді.
Бірақ пайдалы дауыс өнімдерін жасау үшін тек жылдам кезектесу немесе табиғи естілетін дауыс жеткіліксіз. Дауыс агенті адамның нені меңзегенін түсінуі, контексті қадағалауы, сұрау өзгергенде бейімделуі, әңгіме жалғасып жатқанда құралдарды қолдануы және сәтке сай жауап беруі керек.
Біз іске қосып жатқан модельдер бірге нақты уақыттағы аудионы қарапайым сұрақ-жауаптан шын мәнінде жұмыс істей алатын дауыс интерфейстеріне қарай жылжытады: тыңдау, ой қорыту, аудару, транскрипциялау және әңгіме өрбіген сайын әрекет ету.
Дауыс бағдарламалық жасақтаманы қолданудың табиғи тәсіліне айналған сайын, біз әзірлеушілердің voice AI саласында қалыптасып келе жатқан үш үлгі төңірегінде өнім жасап жатқанын көріп отырмыз:
- Voice-to-action, мұнда адамдар өздеріне не керегін сипаттай алады, ал жүйе сұрауды ой елегінен өткізіп, құралдарды қолданып, тапсырманы орындай алады. Мысалы, Zillow мынадай сұрауларды тыңдап, ой қорытып, орындай алатын көмекші жасап жатыр: «маған BuyAbility шегімдегі үйлерді тап, қарбалас көшелерден аулақ болсын және сенбіге тур жоспарла».
- Systems-to-voice, мұнда бағдарламалық жасақтама контексті тірі ауызша нұсқаулыққа айналдыра алады. Мысалы, саяхат қолданбасы жолаушыға алдын ала былай дей алады: «Сіздің келу рейсіңіз кешігіп жатыр, бірақ сіз әлі де келесі рейске үлгересіз. Мен жаңа қақпаны таптым, терминал арқылы ең жылдам маршрутты белгіледім және багажыңыздың ауыстырылуы әлі де күтілуде.»
- Voice-to-voice, мұнда AI тірі сөйлесулердің тілдер, тапсырмалар немесе өзгермелі контекст арасында жалғасуына көмектесе алады. Мысалы, Deutsche Telekom клиенттер өздеріне ең ыңғайлы тілде сөйлей алатын, ал модель сөйлесуді нақты уақытта аударатын дауыстық қолдау тәжірибелерін жасап жатыр.
Бұл үлгілер бірге де жұмыс істей алады. Priceline саяхатшылар бүкіл сапарын дауыспен басқара алатын болашаққа қарай жұмыс істеп жатыр: рейстер мен қонақүйлерді сөйлесу арқылы іздеу, рейс кешіккеннен кейін қонақүй бронін өзгерту сияқты өзгерістерді басқару немесе TSA күту уақыты бойынша нақты уақыттағы жаңартуларды алу, сондай-ақ саяхатшылар межелі жерге жеткеннен кейін сөйлесулерді аудару.
GPT‑Realtime‑2 тірі дауыстық өзара әрекеттесулер үшін жасалған, мұнда модель сұрауды ой елегінен өткізіп, құралдарды шақырып, түзетулерді немесе үзілістерді өңдеп және сәтке сай жауап бере отырып, әңгімені жалғастырып отырады.
- Кіріспе сөздер: Әзірлеушілер негізгі жауаптың алдында «соны тексеріп көрейін» немесе «қарап шыққанша бір сәт» сияқты қысқа тіркестерді қоса алады, сонда пайдаланушылар агенттің сұраумен жұмыс істеп жатқанын біледі.
- Параллель құрал шақырулары және құрал ашықтығы: Модель бірнеше құралды бірден шақыра алады және бұл әрекеттерді «күнтізбеңізді тексеріп жатырмын» немесе «қазір соны қарап жатырмын» сияқты тіркестермен естірте алады, осылайша агенттер тапсырмаларды орындап жатып та жауап бергіш болып қалады.
- Күштірек қалпына келу мінез-құлқы: Модель үнсіз тоқтап қалудың немесе әңгімені бұзудың орнына «қазір соған қатысты қиындық туып тұр» сияқты сөздермен анағұрлым сыпайы түрде қалпына келе алады.
- Агенттік жұмыс ағындары үшін ұзағырақ контекст: Біз ұзағырақ, біріздірек сессиялар мен күрделірек тапсырма ағындарын қолдау үшін контекст терезесін 32K-дан 128K-ға дейін ұлғайтып жатырмыз.
- Күштірек домендік түсінік: Модель өндірістік ортада маңызды болатын арнайы терминологияны, жалқы есімдерді, денсаулық сақтау терминдерін және басқа сөздік қорын жақсырақ сақтайды.
- Басқаруға икемдірек реңк пен жеткізу: Модель өз реңкін жақсырақ бейімдей алады — мәселені шешіп жатқанда сабырлы сөйлеу, пайдаланушының көңілі толмағанда жанашырлық таныту немесе сәтті әрекетті растағанда көтеріңкі сөйлеу.
- Реттелетін ой қорыту күші: Әзірлеушілер енді minimal, low, medium, high, and xhigh ой қорыту деңгейлерінің ішінен таңдай алады, мұнда low әдепкі мән болып табылады, бұл қарапайым өзара әрекеттесулер үшін төмен кідіріс пен күрделі сұраулар үшін мұқият ой қорытудың тепе-теңдігін сақтайды.
Бұл жетістіктер өндірістегі дауыс агенттеріне тығыз сәйкес келетін аудио бағалауларда көрінеді: GPT‑Realtime‑2 (high) аудио интеллект бойынша Big Bench Audio бағалауында GPT‑Realtime‑1.5‑тен 15.2% жоғары ұпай жинайды. GPT‑Realtime‑2 (xhigh) нұсқауларды орындау бойынша Audio MultiChallenge бағалауында GPT‑Realtime‑1.5‑тен 13.8% жоғары ұпай жинап, тірі сөйлесулерде күштірек ой қорыту, контексті басқару және бақылау қабілетін көрсетеді.
Big Bench Audio аудио енгізуді қолдайтын тіл модельдеріндегі күрделі ой қорыту қабілеттерін бағалайды. Audio MultiChallenge(жаңа терезеде ашылады) ауызша диалог жүйелеріндегі көп айналымды сөйлесу интеллектін, соның ішінде нұсқауларды орындауды, контексті біріктіруді, ішкі сәйкестікті және сөйлеудегі табиғи түзетулерді өңдеуді бағалайды.
GPT‑Realtime‑2‑нің артықшылығы әртүрлі қолдану жағдайларында көрінеді:
Ерте тестілеу кезінде кәсіпорындар GPT‑Realtime‑2 көмегімен клиенттер мен қызметкерлерге табиғи әңгіме арқылы істерін бітіруге көмектесетін дауыс агенттерін жасады:
«Жасаушыларға шексіз итерация емес, үздіксіз ілгерілеу керек. GPT-5.5 аутентификация ағындары мен нақты уақыттағы синхрондау сияқты күрделірек тапсырмаларда адамдар әдетте тірелетін қабырғаларды әлдеқайда аз айналымда бұзып өтеді. Жұмыс қиындағанда модель шын мәнінде жарқырайды, күрделі тапсырмаларды әлдеқайда аз әрі-берімен орындайды.»
GPT‑Realtime‑Translate әзірлеушілерге әр адам өзіне ыңғайлы тілде сөйлеп, сөйлесудің нақты уақытта аударылған нұсқасын естіп, нақты уақыттағы транскрипцияларды оқи алатын тірі көптілді дауыстық тәжірибелерді жасауға көмектеседі. Ол 70-тен астам кіріс тілін және 13 шығыс тілін қолдайды, сондықтан клиенттерді қолдау, шекарааралық сату, білім беру, іс-шаралар, медиа және жаһандық аудиторияға қызмет көрсететін автор платформалары үшін пайдалы.
Әзірлеушілер үшін тірі аударма мағынаны сақтай отырып, сөйлеушінің қарқынына ілесуі керек, тіпті адамдар табиғи сөйлегенде, контексті ауыстырғанда немесе өңірлік айтылым мен салаға тән тілді қолданғанда да. Мысалы, Deutsche Telekom модельді көптілді дауыстық өзара әрекеттесулер үшін сынап жатыр, мұнда төмен кідіріс пен жоғары еркіндік әртүрлі тілдегі сөйлесулерді табиғиырақ ете алады.
Бұл бейнеде Vimeo GPT‑Realtime‑Translate өнімді оқытуға арналған бейнені ойнатылып жатқан сәтте тікелей қалай аудара алатынын көрсетеді, осылайша жаһандық клиенттер жаңартуларды бөлек дайындалған нұсқаны күтпей-ақ өздеріне ыңғайлы тілде ести алады.
«Үндістан үшін voice AI жасау әртүрлі өңірлік фонетиканы өңдеуді білдіреді. Хинди, тамил және телугу тілдері бойынша бағалауларымызда GPT-Realtime-Translate біз сынаған кез келген басқа модельге қарағанда Word Error Rate көрсеткішін 12.5% төмен көрсетті, сонымен қатар fallback деңгейі төмен, тапсырманы орындау деңгейі жоғары және табиғи сөйлесуді сақтайтын кідіріс ұсынды. Бұл көптілді voice AI үшін жаңа стандарт орнатады.»
GPT‑Realtime‑Whisper — төмен кідірісті speech-to-text үшін жасалған жаңа ағындық транскрипция моделі. Ол адамдар сөйлеп тұрған кезде аудионы транскрипциялайды, сондықтан тірі өнімдер жылдамырақ, жауап бергіштеу және табиғиырақ сезіледі — сол сәтте пайда болатын субтитрлерден бастап, әңгімеге ілесіп отыратын жиналыс жазбаларына дейін.
Модель тірі сөйлеуді бизнес жұмыс ағындарының ішінде дәл сол сәтте пайдалануға жарамды етеді. Командалар жиналыстар, сыныптар, хабар тарату және іс-шаралар үшін субтитрлер қоса алады; сөйлесулер әлі жүріп жатқанда жазбалар мен қысқаша түйіндер жасай алады; пайдаланушыларды үздіксіз түсінуі керек дауыс агенттерін құра алады; және клиенттерді қолдау, денсаулық сақтау, сату, жалдау және көлемі жоғары басқа да ауызша өзара әрекеттесулер үшін жылдамырақ кейінгі жұмыс ағындарын жасай алады.
Realtime API теріс пайдаланудың алдын алуға көмектесетін бірнеше қорғаныс және әлсірету қабаттарын қамтиды. Біз Realtime API сессияларына белсенді жіктеуіштерді қолданамыз, яғни кейбір сөйлесулер зиянды контент жөніндегі нұсқауларымызды бұзады деп анықталса, тоқтатылуы мүмкін. Әзірлеушілер сондай-ақ Agents SDK.(жаңа терезеде ашылады) көмегімен өздерінің қосымша қауіпсіздік шектеулерін оңай қоса алады.
Біздің пайдалану саясатымыз қызметтеріміздің нәтижелерін спам, алдау немесе өзге де зиянды мақсаттар үшін қайта пайдалануға не таратуға тыйым салады. Әзірлеушілер сондай-ақ соңғы пайдаланушыларға AI-мен өзара әрекеттесіп жатқанын анық көрсетуі керек, егер бұл контекстен онсыз да айқын болмаса.
Realtime API ЕО-дағы қолданбалар үшін EU Data Residency(жаңа терезеде ашылады) қызметін толық қолдайды және біздің корпоративтік құпиялылық міндеттемелерімізбен қамтылған.
GPT‑Realtime‑2, GPT‑Realtime‑Translate және GPT‑Realtime‑Whisper Realtime API ішінде қолжетімді. GPT‑Realtime‑2 бағасы 1M аудио енгізу токеніне $32 ($0.40 — кэштелген енгізу токендері үшін) және 1M аудио шығару токеніне $64. GPT‑Realtime‑Translate бағасы минутына $0.034. GPT‑Realtime‑Whisper бағасы минутына $0.017.
Жаңа нақты уақыттағы дауыс модельдерін сынақ алаңында(жаңа терезеде ашылады) тексере аласыз.
Құрастыруды бастау үшін осы көмексөзді Codex ішінде ашыңыз, сонда GPT‑Realtime‑2‑ні бар қолданбаға қоса аласыз немесе жаңасын бастай аласыз. Егер сізде әлі Codex болмаса, алдымен Codex қолданбасын жүктеп алыңыз.


