Переход к основному контенту
OpenAI

28 августа 2025 г.

ТоварРелиз

Представляем обновления gpt-realtime и Realtime API для голосовых агентов в производственной среде.

Мы выпускаем более продвинутую модель преобразования речи в речь и новые возможности API, включая поддержку серверов MCP, ввод изображений и поддержку звонков по SIP.

Stylized interface showing a voice interaction. Centered is a rounded rectangular audio player with a waveform visualization, play/pause button, “Agent online” status indicator, and timestamp of 00:35. White curved lines with dots flow across the image, suggesting live audio or signal movement. The background is a vivid blue with blurred flower shapes in pink and purple tones.
Загрузка…

Сегодня мы делаем API Realtime общедоступным с новыми функциями, которые позволяют разработчикам и предприятиям создавать надёжные, готовые к работе голосовые агенты. API теперь поддерживает удалённые MCP-серверы, загрузку изображений и телефонные звонки через протокол инициации сессии (SIP), делая голосовые агенты более эффективными благодаря доступу к дополнительным инструментам и контексту.

Мы также выпускаем нашу самую продвинутую на сегодняшний день модель преобразования речи в речь —gpt-realtime. Новая модель демонстрирует улучшения в следовании сложным инструкциям, точном использовании инструментов и создании речи, которая звучит более естественно и выразительно. Он лучше интерпретирует системные сообщения и подсказки разработчиков — будь то чтение скриптов отказа от ответственности слово в слово во время звонка в поддержку, повторение алфавитно-цифровых символов или плавное переключение между языками в середине предложения. Мы также выпускаем два новых голоса, Cedar и Marin, которые с сегодняшнего дня доступны исключительно в Realtime API.

С тех пор, как в октябре прошлого года мы впервые представили Realtime API в публичной бета-версии, тысячи разработчиков работали с этим API и помогли сформировать улучшения, которые мы выпускаем сегодня — оптимизированные для надежности, низкой задержки и высокого качества для успешного развертывания голосовых агентов в производственной среде. В отличие от традиционных конвейеров, которые объединяют несколько моделей для преобразования речи в текст и текста в речь, Realtime API обрабатывает и формирует аудио напрямую через единую модель и API. Это уменьшает задержку, сохраняет нюансы в речи и обеспечивает более естественные и выразительные ответы.

“The new speech-to-speech model in OpenAI's Realtime API shows stronger reasoning and more natural speech—allowing it to handle complex, multi-step requests like narrowing listings by lifestyle needs or guiding affordability discussions with tools like our BuyAbility score. This could make searching for a home on Zillow or exploring financing options feel as natural as a conversation with a friend, helping simplify decisions like buying, selling, and renting a home.”

– Josh Weisberg, Head of AI at Zillow

Представляем gpt-realtime

Новая модель преобразования речи в речь—gpt-realtime—является нашей самой передовой и готовой к рабочему использованию голосовой моделью. Мы обучали модель в тесном сотрудничестве с клиентами, чтобы она превосходно справлялась с реальными задачами, такими как поддержка клиентов, персональная помощь и образование, согласовывая модель с тем, как разработчики создают и внедряют голосовых агентов. Модель демонстрирует улучшения в качестве звука, интеллектуальных способностях, следовании инструкциям и вызове функций.

Качество звука

Естественное звучание обсуждений имеет решающее значение для развертывания голосовых агентов в реальном мире. Модели должны говорить с интонацией, эмоцией и темпом человека, чтобы создать приятный опыт и поощрять непрерывное обсуждение с пользователями. Мы обучили gpt-realtime создавать более качественную речь, которая звучит более естественно и может следовать чётким инструкциям, таким как «говори быстро и профессионально» или «говори с эмпатией и французским акцентом».

Мы выпускаем два новых голоса в API, Marin и Cedar, с наиболее значительными улучшениями в естественном звучании речи. Мы также обновляем наши существующие восемь голосов, чтобы они могли воспользоваться этими улучшениями.

Voice sample - Marin
Voice sample - Cedar

Интеллект и понимание

gpt-realtime демонстрирует более высокий интеллект и может воспринимать нативное аудио с большей точностью. Модель может улавливать невербальные сигналы (например, смех), переключать языки в середине предложения и адаптировать тон («резкий и профессиональный» или «добрый и чуткий»). Согласно внутренним оценкам, модель также демонстрирует более точную работу при обнаружении буквенно-цифровых последовательностей (таких как телефонные номера, VIN и т. д.) на других языках, включая испанский, китайский, японский и французский. В тесте Big Bench Audio eval, измеряющем способности к рассуждению, gpt-realtime показывает точность 82,8%, что превышает точность нашей предыдущей модели от декабря 2024 года, которая показала 65,6%.

The Big Bench Audio(открывается в новом окне) benchmark is an evaluation dataset for assessing the reasoning capabilities of language models that support audio input. This dataset adapts questions from Big Bench Hard—chosen for its rigorous testing of advanced reasoning—into the audio domain.

Следование инструкции

При создании приложения для преобразования речи в речь разработчики дают модели набор инструкций о том, как себя вести, включая то, как говорить, что сказать в определенной ситуации и что делать или не делать. Мы сосредоточили наши улучшения на соблюдении этих инструкций, чтобы даже незначительные указания несли больше информации для модели. В аудиобенчмарке MultiChallenge, измеряющем точность следования инструкциям, gpt-realtime набирает 30,5%, что является значительным улучшением по сравнению с нашей предыдущей моделью декабря 2024 года, которая набрала 20,6%.

MultiChallenge(открывается в новом окне) evaluates how well LLMs handle multi-turn conversations with humans. It focuses on four categories of realistic challenges that current frontier models struggle with. These challenges require models to combine instruction-following, context management, and in-context reasoning simultaneously. We converted an audio-friendly subset of the test questions from text-to-speech to create an audio version of this evaluation.

Вызов функций

Чтобы создать эффективного голосового агента с моделью преобразования речи в речь, модель должна уметь вызывать нужные инструменты в нужное время, чтобы быть полезной в эксплуатации. Мы улучшили вызов функций по трём направлениям: вызов релевантных функций, вызов функций в нужное время и вызов функций с соответствующими аргументами (что приводит к более высокой точности). В рамках аудиооценки ComplexFuncBench, измеряющей производительность вызова функций, gpt-realtime набирает 66,5%, в то время как наша предыдущая модель от декабря 2024 года набирает 49,7%.

Мы также внесли улучшения в асинхронный вызов функций(открывается в новом окне). Длительные вызовы функций больше не будут нарушать ход сеанса — модель может продолжить плавное обсуждение, ожидая результатов. Эта функция доступна по умолчанию в gpt-realtime, так что разработчикам не требуется обновлять свой код.

ComplexFuncBench(открывается в новом окне) measures how well models handle challenging function calling tasks. It evaluates performance across scenarios like multi-step calls, reasoning about constraints or implicit parameters, handling very long inputs. We converted the original text prompts into speech to build this evaluation for our model.

Нововведения в Realtime API

Удаленная поддержка MCP-сервера

Вы можете включить поддержку MCP в сеансе Realtime API, передав URL-адрес удаленного сервера MCP в конфигурацию сеанса. После подключения API автоматически обрабатывает вызовы инструментов за вас, поэтому нет необходимости вручную подключать интеграции.

Эта настройка позволяет легко расширить возможности вашего агента: просто направьте сеанс на другой сервер MCP, и эти инструменты станут доступны немедленно. Чтобы узнать больше о настройке MCP с Realtime, ознакомьтесь с этим руководством(открывается в новом окне).

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

Ввод изображения

Теперь, когда в gpt-realtime поддерживается ввод изображений, вы можете добавлять изображения, фотографии и скриншоты вместе со звуком или текстом в сеанс Realtime API. Теперь модель может основывать обсуждение на том, что пользователь видит, позволяя пользователям задавать такие вопросы, как «что ты видишь?» или «прочитай текст на этом скриншоте».

Вместо того чтобы рассматривать изображение как прямую видеотрансляцию, система рассматривает его скорее как добавление изображения в обсуждение. Ваше приложение может решать, какими изображениями делиться с моделью и когда ими делиться. Так вы контролируете, что модель видит и когда она реагирует.

Ознакомьтесь с нашей документацией(открывается в новом окне), чтобы начать работу со вводом изображений.

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

Дополнительные возможности

Мы добавили несколько других функций, чтобы сделать Realtime API более простым для интеграции и более гибким для использования в рабочих условиях.

Безопасность и конфиденциальность

Realtime API включает несколько уровней защиты и мер по предотвращению неправомерного использования. Вы можете узнать больше о нашем подходе к безопасности и деталях системной карты в блоге с анонсом бета-версии. Мы используем активные классификаторы в сеансах Realtime API, что означает, что определённые обсуждения могут быть остановлены, если они будут обнаружены как нарушающие наши правила по вредному контенту. Разработчики также могут легко добавлять собственные дополнительные меры защиты с помощью Agents SDK(открывается в новом окне).

Наши политики использования запрещают повторное использование или распространение результатов наших услуг для спама, обмана или других вредоносных целей. Разработчики также должны чётко информировать конечных пользователей о том, когда они взаимодействуют с ИИ, если это не очевидно из контекста. Realtime API использует предустановленные голоса, чтобы предотвратить попытки злоумышленников выдавать себя за других людей.

Realtime API обеспечивает полную поддержку локализации персональных данных в ЕС(открывается в новом окне) для приложений, работающих в ЕС, а также на него распространяются наши корпоративные обязательства по защите конфиденциальности.

Цена и доступ

Общедоступный Realtime API и новая модель gpt-realtime доступны всем разработчикам, начиная с сегодняшнего дня. Мы снижаем цены на gpt-realtime на 20% по сравнению с gpt-4o-realtime-preview— 32 долл. США / 1 млн входных аудиотокенов (0,40 долл. США за кэшированные входные токены) и 64 долл. США / 1 млн выходных аудиотокенов (см. подробную информацию о ценах(открывается в новом окне)). Мы также добавили детальный контроль над контекстом обсуждения, чтобы позволить разработчикам устанавливать интеллектуальные ограничения на токены и обрезать несколько ходов за раз, что значительно снижает затраты на длительные сеансы.

Повтор трансляции в прямом эфире

Автор

OpenAI