Представяне на gpt-realtime и актуализации на API за реално време за производствени гласови агенти
Пускаме на пазара по-усъвършенстван модел за преобразуване на речта и нови възможности на API, включително поддръжка на MCP сървър, въвеждане на изображения и поддръжка на SIP телефонни разговори.

Днес предоставяме общодостъпен Realtime API с нови функции, които позволяват на разработчиците и предприятията да създават надеждни гласови агенти, готови за работа. API вече поддържа отдалечени MCP сървъри, входове за изображения и телефонни обаждания чрез протокол за иницииране на сесия (SIP), което прави гласовите агенти по-способни чрез достъп до допълнителни инструменти и контекст.
Също така пускаме най-усъвършенствания ни модел за преобразуване на реч в реч досега—gpt-realtime. Новият модел показва подобрения в следването на сложни инструкции, прецизното извикване на инструменти и създаването на по-естествена и изразителна реч. Той е по-добър в интерпретирането на системните съобщения и подканите на разработчиците – независимо дали става дума за дословно четене на скриптове за отказ от отговорност при обаждане за поддръжка, повтаряне на буквено-цифрови символи или плавно превключване между езици по средата на изречението. Пускаме и два нови гласа – Cedar и Marin, които от днес са достъпни единствено в Realtime API.
Откакто за първи път представихме Realtime API в публична бета-версия през октомври миналата година, хиляди разработчици създадоха приложения с API и помогнаха да се оформят подобренията, които пускаме днес – оптимизирани за надеждност, ниско забавяне и високо качество за успешно внедряване на гласови агенти в производството. За разлика от традиционните конвейери, които обединяват множество модели за преобразуване на реч в текст и текст в реч, Realtime API обработва и генерира аудио директно чрез един модел и API. Това намалява забавянето, запазва нюансите в речта и води до по-естествени, изразителни отговори.
„Новият модел за преобразуване на реч в реч в Realtime API на OpenAI показва по-силно разсъждение и по-естествена реч, което му позволява да обработва сложни, многоетапни заявки, като например стесняване на списъците според нуждите на начина на живот или насочване на дискусиите за достъпност с инструменти като нашата оценка BuyAbility. Това може да направи търсенето на дом в Zillow или изследването на възможности за финансиране толкова естествено, колкото разговор с приятел, като помага за опростяване на решения като покупка, продажба и наемане на дом.“
– Джош Вайсберг, ръководител на отдела за ИИ в Zillow
Новият модел за преобразуване на реч в реч—gpt-realtime—е нашият най-усъвършенстван, готов за производство гласов модел. Обучихме модела в тясно сътрудничество с клиенти, за да се справя отлично с реални задачи като поддръжка на клиенти, лична помощ и обучение – привеждайки модела в съответствие с начина, по който разработчиците създават и внедряват гласови агенти. Моделът показва подобрения в качеството на звука, интелигентността, следването на инструкции и извикването на функции.
Естествено звучащият разговор е от решаващо значение за внедряването на гласови агенти в реалния свят. Моделите трябва да говорят с интонацията, емоциите и темпото на човек, за да създадат приятно изживяване и да насърчат непрекъснат разговор с потребителите. Обучихме gpt-realtime да произвежда реч с по-високо качество, която звучи по-естествено и може да следва прецизни инструкции, като например „говори бързо и професионално“ или „говори емпатично с френски акцент“.
Пускаме два нови гласа в API – Marin и Cedar, с най-значителните подобрения в естественото звучене на речта. Също така актуализираме съществуващите осем гласа, за да се възползват от тези подобрения.
gpt-realtime показва по-висока интелигентност и може да възприема родното аудио с по-голяма точност. Моделът може да улавя невербални сигнали (като смях), да сменя езика по средата на изречението и да адаптира тона („остроумен и професионален“ срещу „мил и съпричастен“). Според вътрешни оценки, моделът също така показва по-точна производителност при откриване на алфанумерични последователности (като телефонни номера, VIN и др.) на други езици, включително испански, китайски, японски и френски. В оценката на Big Bench Audio за измерване на възможностите за разсъждение, gpt-realtime постига точност от 82,8% – надминавайки предишния ни модел от декември 2024 г., който постига 65,6%.
Еталонът Big Bench Audio(отваря се в нов прозорец) е набор от данни за оценка на възможностите за разсъждаване на езикови модели, които поддържат аудио въвеждане. Този набор от данни адаптира въпроси от Big Bench Hard – избрани заради строгото тестване на напреднало разсъждаване – в аудио домейна.
При изграждането на приложение за преобразуване на реч в реч, разработчиците дават набор от инструкции на модела как да се държи, включително как да говори, какво да каже в дадена ситуация и какво да прави или да не прави. Фокусирахме подобренията си върху спазването на тези инструкции, така че дори дребните указания да носят повече сигнали за модела. В аудио еталона MultiChallenge, измерващ точността на следване на инструкции, gpt-realtime постига 30,5%, което е значително подобрение спрямо предишния ни модел от декември 2024 г., който постига 20,6%.
MultiChallenge(отваря се в нов прозорец) оценява колко добре големите езикови модели се справят с многократни разговори с хора. Той се фокусира върху четири категории реалистични предизвикателства, с които се сблъскват настоящите водещи модели. Тези предизвикателства изискват модели, които да комбинират следване на инструкции, управление на контекста и разсъждение в контекста едновременно. Преобразувахме аудио-съвместима подгрупа от тестовите въпроси от текст в реч, за да създадем аудио версия на тази оценка.
За да изградите способен гласов агент с модел за преобразуване на реч в реч, моделът трябва да може да извиква правилните инструменти в точното време, за да бъде полезен в производството. Подобрихме извикването на функции по три направления: извикване на релевантни функции, извикване на функции в подходящия момент и извикване на функции с подходящи аргументи (което води до по-висока точност). При оценката ComplexFuncBench за аудио, измерваща производителността при извикване на функции, gpt-realtime постига 66,5%, докато предишният ни модел от декември 2024 г. постига 49,7%.
Също така направихме подобрения в асинхронното извикване на функции(отваря се в нов прозорец). Дълго изпълняващите се извиквания на функции вече няма да нарушават потока на сесията – моделът може да продължи плавен разговор, докато чака резултатите. Тази функция е налична нативно в gpt-realtime, така че разработчиците не е необходимо да актуализират кода си.
ComplexFuncBench(отваря се в нов прозорец) измерва колко добре моделите се справят с предизвикателни задачи за извикване на функции. Той оценява производителността в сценарии като многостъпкови извиквания, разсъждаване относно ограничения или имплицитни параметри, обработка на много дълги въвеждания. Преобразувахме оригиналните текстови подкани в реч, за да изградим тази оценка за нашия модел.
Можете да активирате поддръжката на MCP в сесия на Realtime API, като подадете URL адреса на отдалечен MCP сървър в конфигурацията на сесията. След като се свържете, API автоматично обработва извикванията на инструмента вместо вас, така че няма нужда да свързвате интеграциите ръчно.
Тази настройка улеснява разширяването на агента с нови възможности – просто насочете сесията към друг MCP сървър и тези инструменти ще станат достъпни веднага. За да научите повече за конфигурирането на MCP с Realtime, разгледайте това ръководство(отваря се в нов прозорец).
Сега, когато въвеждането на изображения се поддържа в gpt-realtime, можете да добавяте изображения, снимки и екранни снимки заедно със звук или текст към сесия на Realtime API. Сега моделът може да свърже разговора с това, което потребителят всъщност вижда, позволявайки на потребителите да задават въпроси като „какво виждате?“ или „прочетете текста на тази екранна снимка“.
Вместо да третира изображението като видеопоток на живо, системата го третира по-скоро като добавяне на снимка в разговора. Вашето приложение може да реши кои изображения да сподели с модела и кога да ги сподели. По този начин вие запазвате контрола върху това какво вижда моделът и кога реагира.
Разгледайте нашата документация(отваря се в нов прозорец) за да започнете работа с въвеждането на изображения.
Добавихме няколко други функции, за да направим Realtime API по-лесен за интегриране и по-гъвкав за използване в производствени условия.
- Поддръжка на протокол за иницииране на сесия (SIP): Свържете вашите приложения към обществената телефонна мрежа, PBX системи, настолни телефони и други SIP крайни точки с директна поддръжка в Realtime API. Прочетете за това в документацията.(отваря се в нов прозорец)
- Подкани за многократна употреба: Вече можете да записвате и използвате повторно подкани, състоящи се от съобщения за разработчици, инструменти, променливи и примерни съобщения за потребители/асистенти, в сесии на Realtime API, както в API за отговори. Научете повече в документацията.(отваря се в нов прозорец)
Realtime API включва множество слоеве от предпазни мерки и смекчаващи действия, за да помогне за предотвратяване на злоупотреба. Можете да научите повече за нашия подход за безопасност и подробности за картата на системата в блога за обявяване на бета-версия. Ние използваме активни класификатори върху сесии на Realtime API, което означава, че определени разговори могат да бъдат спрени, ако бъдат открити като нарушаващи нашите указания за вредно съдържание. Разработчиците могат също така лесно да добавят свои собствени допълнителни ограничения с помощта на Agents SDK(отваря се в нов прозорец).
Нашите политики за използване забраняват повторното използване или разпространение на резултати от нашите услуги за спам, измама или други вредни цели. Разработчиците също трябва да направят ясно на крайните потребители, когато взаимодействат с ИИ, освен ако това вече не е очевидно от контекста. Realtime API използва предварително зададени гласове, за да предотврати злонамерени лица да се представят за други.
Realtime API напълно поддържа пребиваване на данни в ЕС(отваря се в нов прозорец) за приложения, базирани в ЕС, и е обхванат от нашите ангажименти за поверителност на предприятията.
Общодостъпният Realtime API и новият gpt-realtime модел са достъпни за всички разработчици, започвайки от днес. Намаляваме цените за gpt-realtime с 20% в сравнение с gpt-4o-realtime-preview— 32 USD / 1M аудио входящи токени ($0,40 за кеширани входящи токени) и 64 USD / 1M аудио изходящи токени (вижте подробно ценообразуване(отваря се в нов прозорец)). Също така добавихме прецизен контрол върху контекста на разговорите, за да позволим на разработчиците да задават интелигентни ограничения за токените и да съкращават няколко хода едновременно, което значително намалява разходите за дълги сесии.
За да започнете, посетете нашата документация за Realtime API(отваря се в нов прозорец), тествайте новия модел в Playground(отваря се в нов прозорец) и разгледайте нашето ръководство за подкани за Realtime API(отваря се в нов прозорец).


