
Денеска го правиме Realtime API општо достапен со нови функции што им овозможуваат на развивачите на софтвер и претпријатијата да создаваат сигурни, подготвени за производство гласовни агенти. API сега поддржува далечински MCP сервери, внесувања на слики и телефонски повици преку Протокол за иницирање на сесија (SIP), што ги прави гласовните агенти поспособни преку пристап до дополнителни алатки и контекст.
Исто така, го објавуваме нашиот најнапреден модел за претворање на говор во говор досега—gpt-realtime. Новиот модел покажува подобрувања во следењето на сложени инструкции, прецизно повикување на алатки и создавање говор што звучи поприродно и поекспресивно. Подобро е во толкување на системски пораки и промпти од развивач на софтвер — без разлика дали тоа е читање на скрипти за одрекување збор по збор на повик за поддршка, повторување на алфанумерички знаци или беспрекорно менување помеѓу јазици среде реченица. Исто така, пуштаме два нови гласа, Cedar и Marin, кои се достапни ексклузивно во Realtime API почнувајќи од денес.
Откако првпат го воведовме Realtime API во јавна бета верзија минатиот октомври, илјадници развивачи на софтвер градеа со API и помогнаа во обликувањето на подобрувањата што ги објавуваме денеска—оптимизирани за сигурност, ниска латентност и висок квалитет за успешно распоредување на гласовни агенти што се подготвени за употреб. За разлика од традиционалните цевководи кои поврзуваат повеќе модели за претворање на говор во текст и текст во говор, Realtime API обработува и генерира аудио директно преку еден модел и API. Ова ја намалува латентноста, ги зачувува нијансите во говорот и произведува поприродни, експресивни одговори.
Новиот модел за претворање говор во говор во Realtime API на OpenAI покажува подобро размислување и поприроден говор—што му овозможува да се справува со сложени, повеќестепени барања како стеснување на листи според потребите на животниот стил или водење дискусии за достапност со алатки како нашиот BuyAbility рејтинг. „Ова би можело да го направи пребарувањето на дом на Zillow или истражи опциите за финансирање да изгледаат природно како разговор со пријател, помагајќи да се поедностават одлуките како купување, продажба и изнајмување на дом“.
– Џош Вајсберг, раководител на одделот за вештачка интелигенција во Zillow
Новиот модел за претворање на говор во говор—gpt-realtime—е нашиот најнапреден, подготвен за употреба гласовен модел. Моделот го обучувавме во тесна соработка со клиентите за да се истакне во реални задачи како корисничка поддршка, лична асистенција и едукација — усогласувајќи го моделот со начинот на кој развивачи на софтвер градат и имплементираат гласовни агенти. Моделот покажува подобрувања во квалитетот на звукот, интелигенцијата, следењето на инструкции и повикувањето на функции.
Природниот разговор е клучен за распоредување на гласовни агенти во реалниот свет. Моделите треба да зборуваат со интонација, емоција и ритам на човек за да креираат пријатно искуство и да поттикнат континуиран разговор со корисниците. Го обучивме gpt-realtime да произведува говор со повисок квалитет кој звучи поприродно и може да следи прецизни инструкции, како „зборувај брзо и професионално“ или „зборувај емпатично со француски акцент“.
Објавуваме два нови гласа во API-то, Marin и Cedar, со најзначајни подобрувања во природноста на говорот. Исто така ги ажурираме нашите постоечки осум гласови за да имаат корист од овие подобрувања.
gpt-realtime покажува повисока интелигенција и може да разбере изворен аудио со поголема точност. Моделот може да долови невербални знаци (како смеење), да менува јазици во средината на реченицата и да го приспособи тонот („брз и професионален“ наспроти „љубезен и емпатичен“). Според внатрешните евалуации, моделот исто така покажува попрецизни перформанси во откривање на алфанумерички секвенци (како телефонски броеви, VIN и сл.) на други јазици, вклучувајќи шпански, кинески, јапонски и француски. На евалуацијата Big Bench Audio за мерење на способностите за расудување, gpt-realtime постигнува точност од 82,8% - надминувајќи го нашиот претходен модел од декември 2024 година, кој постигнува точност од 65,6%.
Бенчмаркот Big Bench Audio(се отвора во нов прозорец) е збир на податоци за евалуација за проценка на способностите за расудување на јазичните модели што поддржуваат внесување на аудио. Оваа база на податоци ги приспособува прашањата од Big Bench Hard—избрани за неговото ригорозно тестирање на напредно расудување—во аудио домен.
Кога се гради апликација за претворање на говор во говор, развивачи на софтвер даваат сет на инструкции на моделот за тоа како да се однесува, вклучувајќи како да зборува, што да каже во одредена ситуација и што да прави или не прави. Ги насочивме нашите подобрувања кон почитувањето на овие инструкции, така што дури и малите насоки даваат повеќе сигнал за моделот. На аудио бенчмаркот MultiChallenge за мерење на точноста на следење на инструкции, gpt-realtime постигнува 30.5%, што е значително подобрување во однос на нашиот претходен модел од декември 2024, кој постигнува 20.6%.
MultiChallenge(се отвора во нов прозорец) оценува колку добро LLM-ите се справуваат со повеќекратни разговори со луѓе. Се фокусира на четири категории реални предизвици со кои се соочуваат сегашните најсовремени модели. Овие предизвици бараат моделите истовремено да комбинираат следење на инструкции, управување со контекст и расудување во контекст. Конвертиравме аудио-пријателска подгрупа од тест прашањата од текст во говор за да креираме аудио верзија на оваа евалуација.
За да се изгради способен гласовен агент со модел за говор во говор, моделот треба да може да ги повика вистинските алатки во вистинско време за да биде корисен при употребата. Го подобривме повикувањето на функции на три начини: повикување на релевантни функции, повикување на функции во соодветно време и повикување на функции со соодветни аргументи (што резултира со поголема точност). На аудио евалуацијата ComplexFuncBench што ги мери перформансите на повикување функции, gpt-realtime постигнува 66,5%, додека нашиот претходен модел од декември 2024 година постигнува 49,7%.
Исто така, направивме подобрувања во асинхроното повикување на функции(се отвора во нов прозорец). Долготрајните повици на функции повеќе нема да го нарушуваат текот на сесија - моделот може да продолжи со непрекинат разговор додека чека резултати. Оваа функција е достапна нативно во GPT‑realtime, така што развивачите на софтвер не мора да го ажурираат својот код.
ComplexFuncBench(се отвора во нов прозорец) мери колку добро моделите се справуваат со сложени задачи за повикување функции. Ги оценува перформансите низ сценарија како повици во повеќе чекори, расудување за ограничувања или имплицитни параметри, ракување со многу долги внесувања. Ги претворивме оригиналните текстуални индикации во говор за да ја изградиме оваа евалуација за нашиот модел.
Може да овозможите поддршка за MCP во Realtime API сесија со пренесување на URL-референца на далечен MCP сервер во конфигурацијата на сесијата. Откако ќе се поврзете, API-то автоматски ги обработува повиците од алатките за вас, така што нема потреба рачно да ги поврзувате интеграциите.
Оваа поставка го олеснува проширувањето на вашиот агент со нови можности - само насочetте ја сесијата на друг MCP сервер и тие алатки стануваат достапни веднаш. За да дознаете повеќе за конфигурирање на MCP со Realtime, погледнете го овој водич(се отвора во нов прозорец).
Со поддршка за внесување на слики во gpt-realtime, можеш да додадете слики, фотографии и фотографии од екранот заедно со аудио или текст во Realtime API сесија. Сега моделот може да го темели разговорот на она што корисникот навистина го гледа, овозможувајќи им на корисниците да поставуваат прашања како „што гледаш?“ или „прочитај го текстот на оваа фотографија од екранот“.
Наместо да ја третирате сликата како пренос во живо, системот ја третира повеќе како додавање слика во разговорот. Вашата апликација може да одлучи кои слики да ги сподели со моделот и кога да ги сподели. На овој начин, и понатаму имате контрола врз тоа што моделот гледа и кога реагира.
Проверете ги нашите документи(се отвора во нов прозорец) за да започнете со внесување слики.
Додадовме неколку други функции за да го направиме Realtime API полесен за интеграција и пофлексибилен за во употреба во вистинскиот живот.
- Поддршка на протокол за иницирање на сесии (SIP): Поврзете ги вашите апликации со јавната телефонска мрежа, PBX системи, десктоп телефони и други SIP критериуми за оценување со директна поддршка во Realtime API. Прочитајте за тоа во документите.(се отвора во нов прозорец)
- Индикации за повеќекратна употреба: Сега може да зачувате и повторно да користите индикации - кои се состојат од пораки од развивачи на софтвер, алатки, променливи и пораки со пример од корисници/асистенти - низ сесии на Realtime API, како во Responses API. Дознајте повеќе во документацијата.(се отвора во нов прозорец)
Realtime API вклучува повеќе слоеви на заштита и мерки за ублажување за да помогне во спречување на злоупотреба. Може да дознаете повеќе за нашиот безбедносен пристап и деталите за системската картичка во бета блогот за објавување. Користиме активни класификатори преку Realtime API сесии, што значи дека одредени разговори може да бидат прекинати ако се открие дека ги прекршуваат нашите упатства за штетна содржина. Развивачите на софтвер исто така може лесно да додадат свои дополнителни безбедносни мерки користејќи го Agents SDK(се отвора во нов прозорец).
Нашите политики на користење забрануваат пренамена или дистрибуција на излези од нашите услуги за спам, измама или други штетни цели. Развивачите на софтвер мора исто така да им објаснат на крајните корисници кога комуницираат со вештачка интелигенција, освен ако тоа не е веќе очигледно од контекстот. Realtime API користи однапред поставени гласови за да помогне во спречување на злонамерни актери да се претставуваат како други.
API-то во реално време целосно ја поддржува EU Data Residency(се отвора во нов прозорец) за апликации базирани во ЕУ и е покриено со нашите обврски за приватност на претпријатијата.
Општо достапниот Realtime API и новиот gpt-realtime модел се достапни за сите развивачи на софтвер почнувајќи од денеска. Ги намалуваме цените за gpt-realtime за 20% во споредба со gpt-4o-realtime-preview—$32 / 1M аудио токени за внесување ($0,40 за кеширани токени за внесување) и $64 / 1M аудио токени за резултат (видете детални цени(се отвора во нов прозорец)). Исто така, додадовме прецизна контрола за контекстот на разговорот за да им овозможиме на развивачи на софтвер да постават интелигентни ограничувања на токени и да скратат повеќе чекори одеднаш, значително намалувајќи ги трошоците за долги сесии.
За да започнете, посетете ја нашата документација за Realtime API(се отвора во нов прозорец), тестирајте го новиот модел во Playground(се отвора во нов прозорец) и погледнете го нашиот водич за Realtime API индикации(се отвора во нов прозорец).


