
Сьогодні ми робимо Realtime API загальнодоступним і додаємо нові функції, які дозволяють розробникам і підприємствам створювати надійних, готових до продакшену голосових агентів. API тепер підтримує віддалені MCP-сервери, введення зображень і телефонні дзвінки через Session Initiation Protocol (SIP), надаючи голосовим агентам більше можливостей завдяки доступу до додаткових інструментів і контексту.
Ми також випускаємо нашу найсучаснішу модель перетворення мовлення в мовлення на сьогодні—gpt-realtime. Нова модель демонструє покращення у виконанні складних інструкцій, точному виклику інструментів і створенні мови, що звучить більш природно та виразно. Вона краще інтерпретує системні повідомлення та запити розробників — чи то читання скриптів відмови від відповідальності слово в слово під час дзвінка в службу підтримки, повторення алфавітно-цифрових записів або плавне перемикання між мовами посеред речення. Ми також випускаємо два нові голоси — Cedar і Marin, які вже з сьогоднішнього дня доступні виключно в Realtime API.
З моменту випуску першої публічної бета-версії Realtime API минулого жовтня тисячі розробників працювали з API та допомагали формувати покращення, які ми випускаємо сьогодні — оптимізовані для надійності, низької затримки та високої якості для успішного розгортання голосових агентів у продакшені. На відміну від традиційних конвеєрів, які об'єднують кілька моделей для перетворення мовлення в текст і тексту в мовлення, Realtime API обробляє та створює аудіо безпосередньо через одну модель та API. Це зменшує затримку, зберігає нюанси мовлення та створює більш природні, виразні відповіді.
«Нова модель перетворення мовлення в мовлення в Realtime API від OpenAI демонструє сильніші навички логічного мислення та більш природне мовлення, що дозволяє їй обробляти складні, багатокрокові запити, такі як звуження списків за потребами або ведення обговорень доступності за допомогою інструментів, таких як наш рейтинг BuyAbility. Це може зробити пошук житла на Zillow або ознайомлення з варіантами купівлі таким же природним, як розмова з другом, що допоможе спростити такі рішення, як купівля, продаж і оренда житла.»
— Джош Вайсберг, керівник відділу штучного інтелекту в Zillow
Нова модель перетворення мовлення в мовлення —gpt-realtime— це наша найсучасніша, готова до роботи голосова модель. Ми навчали модель у тісній співпраці з клієнтами, щоб вона могла досягати успіху в реальних завданнях, таких як підтримка клієнтів, особиста допомога та освіта — узгоджуючи модель із тим, як розробники створюють і впроваджують голосових агентів. Модель демонструє покращення у якості звуку, інтелекту, дотриманні інструкцій та виклику функцій.
Природне звучання розмови є критично важливим для розгортання голосових агентів у реальному світі. Моделі повинні говорити з інтонацією, емоцією та темпом людини, щоб створити приємний досвід і заохотити безперервну розмову з користувачами. Ми навчили gpt-realtime створювати більш якісну мову, яка звучить природніше і може виконувати детальні інструкції, такі як «говори швидко і професійно» або «говори емпатійно з французьким акцентом».
Ми випускаємо два нових голоси в API — Marin і Cedar, з найсуттєвішими покращеннями природного звучання мови. Ми також оновлюємо наші існуючі вісім голосів, щоб скористатися перевагами цих покращень.
gpt-realtime демонструє вищий інтелект і може з більшою точністю розуміти нативне аудіо. Модель може захоплювати невербальні сигнали (наприклад, сміх), змінювати мову посеред речення та адаптувати тон («різкий і професійний», або ж «добрий і емпатичний»). Згідно з внутрішніми оцінками, модель також демонструє більшу точність та ефективність у виявленні алфавітно-цифрових послідовностей (таких як телефонні номери, VIN тощо) іншими мовами, включаючи іспанську, китайську, японську та французьку. У рамках оцінки Big Bench Audio, що вимірює здатності до міркування, gpt-realtime досягає точності 82,8% — перевершуючи нашу попередню модель грудня 2024 року, яка досягла 65,6%.
Бенчмарк Big Bench Audio(відкривається у новому вікні) — це набір даних для оцінювання здатності мовних моделей до аргументації, якщо вони підтримують аудіовведення. Цей набір даних адаптує запитання з Big Bench Hard — обраного завдяки його строгій перевірці складної аргументації — до аудіоформату.
Створюючи програму мовлення-в-мовлення, розробники задають моделі інструкції про те, як вона має поводитися — як говорити, що відповідати в певній ситуації, а також що робити чи не робити. Ми зосередили вдосконалення на точності дотримання цих інструкцій, щоб навіть незначні вказівки ставали для моделі більш виразним сигналом. В аудіобенчмарку MultiChallenge, який вимірює точність виконання інструкцій, gpt-realtime набирає 30,5%, що є значним покращенням порівняно з нашою попередньою моделлю грудня 2024 року, яка набирає 20,6%.
MultiChallenge(відкривається у новому вікні) оцінює, наскільки добре великі мовні моделі ведуть багатокрокові розмови з людьми. Він зосереджується на чотирьох категоріях реалістичних викликів, з якими нинішні передові моделі все ще мають труднощі. Ці виклики вимагають від моделей одночасного поєднання слідування інструкціям, управління контекстом і аргументації в контексті. Ми конвертували зручну для аудіо підмножину тестових запитань із синтезу мовлення з тексту, щоб створити аудіоверсію цього оцінювання.
Щоб створити ефективного голосового агента з моделлю перетворення мовлення в мовлення, модель повинна вміти викликати потрібні інструменти у потрібний час, щоб бути корисною в роботі. Ми покращили виклик функцій за трьома напрямками: виклик релевантних функцій, виклик функцій у відповідний час і виклик функцій із відповідними аргументами (що підвищує точність). У тесті ComplexFuncBench audio eval, що вимірює продуктивність виклику функцій, gpt-realtime показує результат 66,5%, тоді ж як наша попередня модель від грудня 2024 року показала 49,7%.
Ми також удосконалили асинхронні виклики функцій(відкривається у новому вікні). Тривалі виклики функцій більше не перериватимуть перебіг сеансу — модель може підтримувати плавну розмову, очікуючи на результати. Цю можливість реалізовано нативно у gpt-realtime, тож розробникам не потрібно оновлювати свій код.
ComplexFuncBench(відкривається у новому вікні) оцінює, наскільки добре моделі справляються зі складними завданнями виклику функцій. Цей тест оцінює продуктивність у різних сценаріях, таких як багатокрокові виклики, міркування про обмеження або неявні параметри, а також обробка дуже довгих уведень. Ми перетворили оригінальні текстові запити на аудіо, щоб створити цю оцінку для нашої моделі.
Ви можете увімкнути підтримку MCP у сеансі Realtime API, передавши URL-адресу віддаленого MCP-сервера в конфігурацію сеансу. Після підключення API автоматично обробляє виклики інструментів, тож немає потреби налаштовувати інтеграції вручну.
Це налаштування дозволяє легко розширити вашого агента новими можливостями — просто направте сеанс на інший MCP-сервер, і ці інструменти стануть доступними одразу. Щоб дізнатися більше про налаштування MCP у режимі реального часу, перегляньте цей посібник(відкривається у новому вікні).
Завдяки підтримці введення зображень у gpt-realtime ви можете додавати зображення, фото та знімки екрана разом з аудіо або текстом у сеанс Realtime API. Тепер модель може прив’язувати розмову до того, що користувач реально бачить, даючи змогу ставити запитання на кшталт «що ти бачиш?» або «прочитай текст на цьому знімку екрана».
Замість того, щоб сприймати зображення як пряму трансляцію, система сприймає його радше як додавання зображення до розмови. Ваша програма може вирішувати, які зображення передавати моделі та коли це робити. Таким чином, ви контролюєте, що бачить модель і коли вона реагує.
Перегляньте нашу документацію(відкривається у новому вікні), щоб розпочати роботу з уведенням зображень.
Ми додали кілька інших функцій, щоб зробити Realtime API простішим для інтеграції та гнучкішим для використання у виробництві.
- Підтримка Session Initiation Protocol (SIP): під’єднуйте свої застосунки до публічної телефонної мережі, PBX-систем, настільних телефонів та інших кінцевих точок SIP завдяки прямій підтримці в Realtime API. Докладніше у документації.(відкривається у новому вікні)
- Повторно використовувані запити: тепер ви можете зберігати та повторно використовувати запити — що складаються з розробницьких повідомлень, інструментів, змінних і прикладів повідомлень користувача/асистента — у різних сеансах Realtime API, аналогічно до Responses API. Дізнайтеся більше у документації.(відкривається у новому вікні)
Realtime API включає кілька рівнів захисту та заходів пом'якшення ризиків, щоб допомогти запобігти неправильному використанню. Ви можете дізнатися більше про наш підхід до безпеки та деталі системної картки в блозі анонсу бета-версії. Ми використовуємо активні класифікатори під час сеансів Realtime API, що означає, що певні розмови можуть бути зупинені, якщо вони виявляються такими, що порушують наші рекомендації щодо шкідливого контенту. Розробники також можуть легко додати власні додаткові захисні інструменти за допомогою Agents SDK(відкривається у новому вікні).
Наші політики використання забороняють перепрофілювання або поширення виводів наших сервісів для спаму, введення в оману чи інших шкідливих цілей. Розробники також повинні чітко повідомляти кінцевих користувачів про взаємодію з ШІ, якщо це не є очевидним із контексту. Realtime API використовує попередньо задані голоси, щоб запобігти можливим спробам зловмисників видавати себе за інших.
Realtime API повністю підтримує локалізацію персональних даних в ЄС(відкривається у новому вікні) для програм, що працюють у ЄС, і на нього поширюються наші корпоративні зобов'язаннями щодо збереження конфіденційності.
Загальнодоступний Realtime API та нова модель gpt-realtime доступні всім розробникам відсьогодні. Ми знижуємо ціни на GPT‑realtime на 20% порівняно з GPT‑4o‑realtime‑preview— 32 дол. США за 1 млн вхідних аудіомаркерів (0,40 дол. США за кешовані вхідні маркери) та 64 дол. США за 1 млн вихідних аудіомаркерів (див. детальну цінову політику(відкривається у новому вікні)). Ми також додали детальний контроль для контексту розмови, щоб дозволити розробникам встановлювати інтелектуальні обмеження на токени й скорочувати кілька етапів одночасно, значно зменшуючи витрати на тривалі сеанси.
Щоб розпочати, ознайомтеся з документацією по Realtime API(відкривається у новому вікні), протестуйте нову модель у Playground(відкривається у новому вікні) та перегляньте посібник із запитів для Realtime API(відкривається у новому вікні).


