跳到主要內容
OpenAI

2025年8月28日

產品發佈

全新推出專為生產環境用語音智能代理而設的 gpt-realtime 及即時 API 更新

更先進的語音轉語音模型和全新的 API 功能登場,包括 MCP 伺服器支援、圖像輸入和 SIP 電話呼叫支援。

顯示語音互動的造型介面,中間是一個圓角矩形的音訊播放器,當中附設波形圖像顯示、播放/暫停按鈕、「智能代理在線」狀態指示,以及 00:35 的時間戳記。帶點的白色曲線在整張圖像中流動,暗示即時音訊或訊號移動。鮮藍色的背景配有粉紅色和紫色色調的模糊花朵形狀。
正在載入...

今天,我們全面推出具備新功能的即時 API,讓開發人員和企業能夠建構可靠、適用於生產環境的語音代理程式。我們的 API 現支援遙距 MCP 伺服器、影像輸入,以及透過對話啟動協定 (SIP) 的電話通話,讓語音代理透過存取額外的工具和情境而變得更有才能。

我們亦同場發佈 OpenAI 迄今為止最先進的語音轉語音模型——gpt-realtime。此新模型在遵從複雜指示、精準呼叫工具,以及發出更自然、更富表現能力的語音方面均有所改進,亦更擅長詮釋系統訊息和開發人員的提示,無論是在支援通話中逐字讀出免責聲明、覆誦字母數字,或是在語句中間無縫切換不同語言等方面均更加出色。我們亦將推出名為 Cedar 和 Marin 的新語音,這兩款新語音將於今天開始專供即時 API 使用。

自去年 10 月我們首次在公開測試版中推出即時 API 以來,已有數以千計的開發人員使用 API 建構,並協助塑造我們今天推出的改進功能;這些改進功能在多方面經過優化,以便大家在生產環境中成功部署可靠、低延遲且高質素的語音代理程式。有別於將語音轉文字和文字轉語音等多種模型串連的傳統管道,即時 API 直接透過單一模型和 API 來處理和生成音訊,這有助減少延遲、保留語音中的細微差異,並生成更自然、更富表現能力的回覆。

「OpenAI 即時 API 的全新語音轉語音模型展現出更強的推理能力,並提供更自然的語音,能夠處理複雜的多步驟請求,例如按照生活方式需要縮小列表範圍,或使用我們的 BuyAbility 評分等工具來引導負擔能力的討論。這讓大家在 Zillow 上搜尋房屋或探索融資選項時,感覺就像跟朋友對話一樣自然,有助於簡化買賣和租賃房屋等決策。」

——Zillow 人工智能部門主管 Josh Weisberg

gpt-realtime 現正登場

全新的語音轉語音模型 gpt-realtime 是我們最先進、最適合在生產環境中使用的語音模型。我們與客戶緊密合作訓練該模型,使其在客戶支援、個人輔助和教育等實際工作中大放異彩,並與開發人員建構和部署語音代理程式的方式對齊。此模型在音訊品質、智力、指令遵從和函數呼叫方面均有所改善。

音訊品質

自然的聲音對話對於在現實世界中部署語音代理程式至關重要。語音模型需要以人性化的語調、情感和話速說話,才能營造令人愉快的體驗,進而鼓勵用戶持續對話。經過我們的訓練,gpt-realtime 能夠生成更高質素的語音,聽起來更加自然,並能夠遵從細緻的指示,例如「使用專業口吻快速說話」或「使用法國口音共情地說話」。

我們將為 API 推出兩款分別名為 Marin 和 Cedar 的新語音,顯著改進語音的自然程度,同時亦將更新現有的八款語音,為其帶來上述的改進。

語音樣本 - Marin
語音樣本 - Cedar

智力及理解能力

gpt-realtime 將展現更高的智慧,且能更準確地理解原生音訊。該模型能夠捕捉非語言暗示(如笑聲)、在語句之間切換語言,以及調整語氣(「爽快、專業 」與 「親切、共情」)。根據內部評估,該模型在偵測其他語言(包括西班牙語、華語、日語和法語)的字母數字序列(如電話號碼、VIN 等)時的表現更加精準。在測量推理能力的 Big Bench Audio 評估中,gpt-realtime 的準確度達到 82.8% ,擊敗了我們 2024 年 12 月的舊有模型(準確度為 65.6%)。

Big Bench Audio(在新視窗中開啟) 基準測試是一個評估資料集,可用於評估支援音訊輸入的語言模型之推理能力。此資料集將 Big Bench Hard 用於嚴格測試進階推理能力的問題改編為音訊領域的問題。

指令遵從

建構語音轉語音應用程式時,開發人員會向模型提出具體指示,說明其行為模式,包括如何說話、在特定情況下該說什麼,以及該做或不該做什麼。透過集中改進模型的指示遵從能力,即使是細微的指示也能為模型帶來更多訊息。在測量指令遵從準確程度的 MultiChallenge 音訊基準測試中,gpt-realtime 的得分為 30.5%,比 2024 年 12 月的舊有模型之 20.6%得分相比有顯著改善。

MultiChallenge(在新視窗中開啟) 可評估大型語言模型 (LLM) 處理與人類多輪對話的能力,著重於當今最先進模型所面臨的四類實際挑戰。這些挑戰要求模型同時結合指令遵從、情境管理和情境推理。為建立此測試的語音版本,我們以文字轉語音方式,將測試中的問題轉換成適用於音訊模型的子集。

函數呼叫

如要運用語音轉語音模型構建能幹的語音代理程式,該模型必須能夠在適當的時間呼叫合適的函數,方能在生產環境中發揮作用。故此,我們對函數呼叫的三方面作出了改善:呼叫相關的函數、在適當的時間呼叫函數,以及連同適當參數的呼叫函數(藉此令結果更加準確)。在測量函數呼叫表現的 ComplexFuncBench audio eval 測試中,gpt-realtime 的得分為 66.5%,而我們在 2024 年 12 月的舊有模型得分僅為 49.7%。

此外,我們亦改進了異步函數呼叫(在新視窗中開啟);長時間執行的函數呼叫將不會再打亂對話流程,模型可以在等待結果的同時繼續流暢對話。此功能現已在原生 gpt-realtime 中使用,因此開發人員毋須更新程式碼。

ComplexFuncBench(在新視窗中開啟) 可測量模型處理高難度函數呼叫任務的能力,能夠評估模型在多步驟呼叫、推理約束或隱含參數、處理極長輸入等情況的表現。我們將原來的文字提示轉換成語音,藉此為我們的模型建立這個評估測試。

即時 API 的新功能

遙距 MCP 伺服器支援

透過將遙距 MCP 伺服器的網址輸入工作階段設定,您可以在即時 API 工作階段中啟用 MCP 支援。成功連接後,API 會自動為您處理函數呼叫,讓您無需手動連接整合。

此設定讓您可以為代理程式輕鬆增設新功能——只需將工作階段指向不同的 MCP 伺服器,這些工具便即時可供使用。如要進一步了解如何使用即時 API 設定 MCP 伺服器,請參閱本指南(在新視窗中開啟)

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

圖像輸入

gpt-realtime 現支援圖像輸入;您可以在即時 API 工作階段中為音訊或文字加入圖像、照片和螢幕截圖。該模型現可根據用戶實際看到的內容進行對話,讓用戶可以提出類似 「您看到什麼?」 或 「閱讀螢幕截圖中的文字」 等問題。

有別於將圖像視為即時影像串流的處理方式,系統會偏向將其視為對話中附帶的圖片。您的應用程式可以決定與模型分享哪些圖像,以及何時分享。如此一來,您就能控制模型看到的內容,以及其回覆時機。

歡迎查閱我們的說明文件(在新視窗中開啟),開始使用影像輸入功能。

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

其他功能

我們新增了另外幾項功能,讓即時 API 更易於整合,並在生產環境中使用時更具彈性。

安全機制與私隱

即時 API 整合了多層保障和緩解措施,有助於防止濫用。您可以在測試版公告網誌中進一步了解我們的安全方案和系統資料。即時 API 工作階段採用主動分類器;換言之,如果偵測到特定對話違反我們的有害內容指引,系統可立即停止有關對話。開發人員亦可以使用智能代理 SDK(在新視窗中開啟) 輕鬆新增額外的安全防護措施。

我們的使用政策禁止就垃圾郵件、欺騙或其他有害目的而轉用或散佈我們服務的輸出內容。除非相關情境有明確顯示,否則開發人員亦須向終端用戶清楚說明他們何時在與 AI 互動。即時 API 使用預設語音以協助防止惡意人士冒充他人。

即時 API 全面支援歐盟資料駐留方案(在新視窗中開啟),適用於在歐盟地區的應用程式,並受我們的企業私隱承諾保障。

收費與提供情況

由即日起,所有開發人員都可使用一般可用的即時 API 和新的 gpt-realtime 模型。我們將下調 gpt-realtime 的收費;與 gpt-4o-realtime-preview 相比降低 20%,為每 100 萬個音訊輸入 token 32 美元 (快取輸入 token 為 0.40 美元);每 100 萬個音訊輸出 token 64 美元 (查看收費詳情(在新視窗中開啟) )。我們亦為對話情境加入了精細控制,讓開發人員設定智能 token 限制,並一次截斷多個輪次,大幅降低長時間對話的成本。

直播重溫

作者

OpenAI