跳至主要内容
OpenAI

2025年8月28日

产品发布

面向生产环境语音智能体推出 gpt-realtime 及实时 API 更新

OpenAI 推出一款更为先进的语音转语音模型,并新增一系列 API 功能,包括 MCP 服务器支持、图片输入以及 SIP 电话呼叫支持。

风格化界面,展示语音交互功能。居中的是一个圆角矩形音频播放器,带有波形可视化界面、播放/暂停按钮、“在线智能体”状态标识以及 00:35 的时间戳。带点的白色曲线流淌于画面中,代表实时音频或信号流动。背景为鲜艳的蓝色,含有粉紫色调的花朵轮廓。
正在加载…

今日,我们正式发布具备全新特性的实时 API,助力开发人员与企业打造可靠且适用于实际生产环境的语音智能体。该 API 现已支持远程 MCP 服务器、图片输入,并能通过会话发起协议 (SIP) 实现电话呼叫功能,从而借助更多工具和背景信息,让语音智能体的能力更上一层楼。

同时,我们还推出了迄今为止最先进的语音转语音模型——gpt-realtime。在遵循复杂指令、精准调用工具,以及生成更为自然、富有表现力的语音方面,这款新模型均有更优表现。它更擅长解读系统消息和开发人员指令,无论是在客户支持通话中一字不差地朗读免责声明,还是准确复述字母数字,亦或是在一句话中无缝切换不同语言。此外,我们还新增了 Cedar 和 Marin 两个声音,即日起暂时仅在实时 API 中提供。

自去年 10 月我们首次推出实时 API 公开测试版以来,已有数千名开发人员利用该 API 进行开发,并助力我们不断优化,最终形成了今日发布的这款更加可靠、延迟更低、质量更高的 API,以便成功将语音智能体部署到实际生产环境中。与传统的将多个模型串联起来进行语音转文本再文本转语音的方式不同,实时 API 通过一个模型和 API 直接处理和生成音频,从而降低了延迟,保留了言语中的细微差别,并产生了更为自然、富有表现力的回答。

“OpenAI 实时 API 中的新语音转语音模型展现出了超强的推理能力和更自然的语音表现,使其能够应对复杂的多步骤请求,如根据生活需求筛选列表,或利用我们的 BuyAbility 等工具进行可负担性讨论。这使得在 Zillow 上搜索房屋或了解融资选项变得如同与朋友交谈一般自然,有助于简化购房、售房和租房等决策过程。”

——Josh Weisberg | Zillow 人工智能部门负责人

gpt-realtime 简介

全新的语音转语音模型——gpt-realtime,是我们迄今为止最先进、适用于生产环境的语音模型。我们与客户紧密合作,共同训练这款模型,使其擅长处理客户支持、个人助理和教育培训等现实任务,更便于开发人员构建和部署语音智能体。该模型在音频质量、智能水平、指令遵循和函数调用等方面均实现了显著提升。

音频质量

在现实世界中部署语音智能体时,提供自然流畅的对话体验至关重要。模型需具备类似人类的语调、情感和语速,才能为用户带来愉悦的体验,并鼓励他们持续与智能体对话。我们训练的 gpt-realtime 能够生成更高质量的语音,听起来更为自然,且能遵循精细化的指令,比如“以专业风格快速说话”或“用法语口音富有同情心地说话”。

我们在 API 中新增了 Marin 和 Cedar 两个声音,它们在自然语音表现上有了显著提升。同时,我们还对现有的八个声音进行了更新,让它们也能受益于这些改进。

声音演示 - Marin
声音演示 - Cedar

智能水平与理解能力

gpt-realtime 展现出了更高的智能水平,能够更准确地理解原生音频。该模型能够捕捉非语言线索(如笑声),在句子中间切换语言,并调整语调(如“敏捷而专业”、“友善而富有同情心”)。根据内部评估,该模型在检测其他语言(包括西语、中文、日语和法语)中的字母数字序列(如电话号码、车辆识别号等)时,也表现出了更高的准确性。在衡量推理能力的 Big Bench Audio 评估中,gpt-realtime 的准确率达到了 82.8%,超过了我们 2024 年 12 月发布的上一款模型,后者准确率为 65.6%。

Big Bench Audio(在新窗口中打开) 基准是一个评估数据集,用于评估支持音频输入的语言模型的推理能力。该数据集将 Big Bench Hard 中的问题——经挑选用于对高级推理能力进行严苛测试——改编为音频领域的问题。

指令遵循

在构建语音转语音应用时,开发人员会向模型提供一系列指令,指导其如何表现,包括如何说话、在特定情况下说什么,以及做什么或不要做什么。我们专注于提升模型对这些指令的遵循程度,即使是细微的指示也能为模型提供更多有用的信号。在衡量指令遵循准确性的 MultiChallenge 音频基准测试中,gpt-realtime 的准确率达到了 30.5%,相较于我们 2024 年 12 月发布的上一款模型(准确率 20.6%)有了显著提升。

MultiChallenge(在新窗口中打开) 评估的是大语言模型 (LLM) 如何处理与人类的多轮对话。它聚焦于当前前沿模型所面临的四类现实挑战。这些挑战要求模型能够同时结合指令遵循、上下文管理和情境推理能力。我们将测试问题中适合音频的子集从文本转成语音,以创建此评估的音频版本。

功能调用

要构建一个功能强大的语音智能体,语音转语音模型必须能够在恰当的时间调用正确的工具,以便在实际生产中发挥作用。我们在三个维度上改进了函数调用:调用相关函数、在适当时间调用函数,以及使用恰当参数调用函数(从而提高准确性)。在衡量函数调用表现的 ComplexFuncBench 音频评估中,gpt-realtime 的得分达到了 66.5%,而我们 2024 年 12 月发布的上一款模型得分仅为 49.7%。

我们还对异步函数调用(在新窗口中打开)进行了改进。长时间运行的函数调用将不再打断会话流程——即模型可以在等待结果的同时继续进行流畅的对话。此功能在 gpt-realtime 中原生提供,因此开发人员无需更新其代码。

ComplexFuncBench(在新窗口中打开) 衡量的是模型如何处理具有挑战性的函数调用任务。它评估模型在多步骤调用、关于约束条件或隐含参数的推理、处理超长输入内容等场景下的性能。我们将原始文本提示转为语音,从而针对我们的模型进行评估。

实时 API 的新增功能

支持远程 MCP 服务器

通过将远程 MCP 服务器 URL 传入会话配置中,可以在实时 API 会话中启用 MCP 支持。连接后,API 会自动为您处理工具调用,因此无需手动进行集成。

这种设置可以轻松为智能体扩展新功能——即只需将会话指向不同的 MCP 服务器,即可立即使用相关工具。要了解有关使用实时 API 配置 MCP 的更多信息,请查看此指南(在新窗口中打开)

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

图片输入

目前,gpt-realtime 已支持图片输入,您可以将图片、照片和截图与音频或文本一同添加到实时 API 会话中。现在,模型能够依据用户实际看到的画面来展开对话,因此用户可以提出诸如“你看到了什么?”或“读取这张截图中的文字”等问题。

系统不会将图片当作实时视频流来处理,而更像是在对话中添加一张图片。您的应用可以决定与模型共享哪些图片,以及何时共享。这样,您就能掌控模型所看到的内容以及让它何时作出回应。

请查看此文档(在新窗口中打开),了解图片输入功能。

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

其他功能

我们还新增了其他几项功能,使实时 API 更易于集成,并在生产环境中更具有灵活性。

安全与隐私

实时 API 集成了多层防护和缓解措施,以防止被滥用。您可以在测试版公告博客中了解更多关于我们的安全措施和系统卡的详情。我们在实时 API 会话中使用了主动分类器,这意味着如果检测到某些对话违反了我们的有害内容准则,这些对话可能会被停止。开发人员还可以使用智能体 SDK(在新窗口中打开) 轻松添加自己的额外安全防护措施。

根据我们的使用政策,禁止对我们的服务输出内容进行重新加工或分发,以用于垃圾邮件、欺骗或其他有害目的。除非从上下文中已经显而易见,否则开发人员还必须向终端用户明确说明他们正在与 AI 交互。实时 API 使用预设的声音,以防止恶意行为者冒充他人。

对于数据存储在欧盟的应用程序,实时 API 完全支持欧盟数据驻留(在新窗口中打开)规定,并受我们的企业隐私承诺保护。

定价和可用性

从今天起,实时 API 和新 gpt-realtime 模型基本上面向所有开发人员开放。与 gpt-4o-realtime-preview 相比,我们将 gpt-realtime 的价格降低了 20%——每 100 万音频输入 token 32 美元/(缓存的输入 token 为 0.40 美元),每 100 万音频输出token 64 美元(请参阅详细定价(在新窗口中打开))。我们还为对话上下文新增了细粒度控制,使开发人员能够设置智能的 token 限制并一次性截断多个对话回合,从而显著降低长时间会话的成本。

直播回放

作者

OpenAI