跳至主要內容
OpenAI

2025年8月28日

產品發布

隆重介紹 gpt-realtime 與即時 API 更新內容,專為生產環境的語音智慧體而設計。

我們計劃推出一個更先進的語音轉語音模型,以及全新的 API 功能,其中包括 MCP 伺服器支援、圖像輸入,以及 SIP 電話通話支援。

展現語音互動的風格化介面。中間是一個圓角矩形音訊播放器,內含波形視覺化、播放/暫停按鈕、「Agent online」狀態指示,以及 00:35 時間標記。白色弧線與點在畫面中流動,呈現即時音訊或訊號傳輸的感覺。背景為鮮豔的藍色,帶有粉紅與紫色調的模糊花朵形狀。
載入中…

今天,我們正式推出即時 API,且新增多項功能,讓開發者與企業能夠建立可靠、可投入生產環境的語音智慧體。現在,這款 API 能夠支援遠端 MCP 伺服器、圖像輸入,以及透過對話啟動協定 (SIP) 進行電話通話,讓語音智慧體能夠利用更多工具與上下文,獲得更強大的能力。

同時,我們也將推出 gpt-realtime,這是迄今最先進的語音轉語音模型。在理解並執行複雜指令、精準呼叫工具,以及產生更自然且富有表現力的語音方面,這款新模型都有顯著提升。其在理解系統訊息與開發者提示方面的表現更為出色,無論是在客服通話中逐字朗讀免責聲明、正確重複字母與數字組合,或是在一句話中流暢切換多種語言,通通都能輕鬆應對。我們同步推出兩種全新語音:Cedar 與 Marin,從今天起僅在即時 API 中獨家提供。

自去年十月我們首次以公開 Beta 的形式推出即時 API 以來,已有數千名開發者使用該 API 並提供改進意見。今天釋出的更新內容經過可靠性、低延遲與高品質方面的最佳化,旨在協助語音智慧體成功投入生產環境。不同於將語音轉文字與文字轉語音等多個模型串聯的傳統流程,即時 API 可透過單一模型與即時 API 直接處理並產生音訊。這種做法可以降低延遲、保留語音細節,並產生更自然、富有表現力的回應。

「OpenAI即時 API 的全新語音轉語音模型推理更強、說話也更自然,能處理像依生活模式篩選房源,或用我們的 BuyAbility 分數來聊房屋負擔能力這類複雜、多步驟的請求。這樣一來,在 Zillow 搜尋房子或了解貸款選項的過程,就能像跟朋友聊天一樣自然,也有助於簡化買房、賣房或租房決策。」

Zillow 人工智慧部主管 Josh Weisberg

隆重介紹 gpt-realtime

gpt-realtime 是全新的語音轉語音模型,也是我們迄今最先進、可投入生產環境的語音模式。我們與客戶密切合作,對這款模型進行一系列訓練,使其在客服支援、個人助理及教育等實際應用任務中有出色的表現,並讓模型與開發者建立與部署語音智慧體的方式完全契合。在音訊品質、智慧程度、指令執行能力以及函式呼叫等方面,這款模型均有所提升。

音訊品質

對於將語音智慧體投入實際應用而言,自然流暢的對話非常重要。模型需要具備與人類相當的語調、情感和語速,才能建立讓人樂在其中的使用體驗,並促使使用者持續互動對話。我們對 gpt-realtime 進行訓練,讓其產生更高品質、更自然的語音,並能遵循精細指令,例如「以快速且專業的語氣說話」或「以法國口音、富有同理心地說話」。

我們在 API 中推出 Marin 和 Cedar 兩種全新語音,大幅提升語音自然度。我們也同時更新現有的八種語音,讓它們也能透過這些改善提供更優良的品質。

聲音範例 - Marin
聲音範例 - Cedar

智慧與理解能力

gpt-realtime 展現出更高的智慧,還能更準確地理解母語語音內容。這款模型可以捕捉非語言訊號(例如笑聲)、在同一句話中切換語言,還能調整語氣(如「俐落且專業」或「親切且富有同理心」)。根據內部評估,該模型在偵測其他語言的字母數字序列(如電話號碼、車輛識別碼等)方面的表現也更為準確,涵蓋語言包括西班牙文、中文、日文及法文。在 Big Bench Audio 評測中衡量推理能力時,gpt-realtime 憑藉 82.8% 的準確率,超越我們 2024 年 12 月推出的舊模型,後者準確率為 65.6%。

Big Bench Audio(在新視窗中開啟) 基準測試是評估支援音訊輸入的語言模型推理能力的資料集。這個資料集依據是否能嚴格測試高階推理能力,將 Big Bench Hard 的題目改編到音訊領域中。

指令遵循

在建立語音轉語音應用程式時,開發者會向模型提供一組指令,說明模型應如何表現,包括如何說話、在特定情境下應說什麼,以及應做或不應做什麼行為。我們將改進重點放在遵循這些指令的能力上,即使是細微的指示也能因此為模型提供更多訊號。在衡量指令遵循準確度的 MultiChallenge Audio 基準測試中,gpt-realtime 的得分為 30.5%,相較於我們 2024 年 12 月的舊模型(得分 20.6%)有顯著提升。

MultiChallenge(在新視窗中開啟) 評估 LLM 與人類進行多輪對話的能力。它著重於四大類現行尖端模型容易遇到困難的真實挑戰。這些挑戰要求模型能夠同時結合指令遵循、上下文管理以及情境內推理能力。我們將測試題目中適合音訊領域的子集從文字轉為語音,以此針對這項評測建立一份音訊版本。

支援函式呼叫

若要使用語音轉語音模型建立高效的語音智慧體,模型需要能在正確的時機呼叫正確的工具,才能在生產環境中發揮作用。我們在函式呼叫上對三個方面作了改進:呼叫相關功能、在適當時機呼叫函式,以及使用適當參數呼叫函式(從而提高了準確度)。在衡量函式呼叫表現的 ComplexFuncBench 音訊評測中,gpt-realtime 的得分為 66.5%,而我們 2024 年 12 月的舊模型得分為 49.7%。

我們也改進了非同步函式呼叫(在新視窗中開啟)。長時間執行的函式呼叫將不再中斷對話流程,模型可以在等待結果的同時保持流暢的對話。此功能已在 gpt-realtime 中原生提供,開發者無需更新程式碼即可使用。

ComplexFuncBench(在新視窗中開啟) 用於衡量模型處理複雜函式呼叫任務的能力。它可以評估模型在多種情境下的表現,例如多步驟呼叫、針對限制條件或隱含參數的推理,以及處理超長輸入。我們將原始文字提示轉換為語音,建立起這項評測,供我們的模型使用。

即時 API 的新功能

遠端 MCP 伺服器支援

您可以在即時 API 對話中啟用 MCP 支援,方法是將遠端 MCP 伺服器的 URL 傳入工作階段設定中。連接成功後,API 便會自動處理工具呼叫,無需手動整合。

這種設定讓擴充智慧體新功能變得更輕鬆簡便,只需將對話指向不同的 MCP 伺服器,就能立即使用這些工具。如需了解在 Realtime 中設定 MCP 的詳細相關資訊,請參閱本指南(在新視窗中開啟)

JavaScript

1
// POST /v1/realtime/client_secrets
2
{
3
"session": {
4
"type": "realtime",
5
"tools": [
6
{
7
"type": "mcp",
8
"server_label": "stripe",
9
"server_url": "https://mcp.stripe.com",
10
"authorization": "{access_token}",
11
"require_approval": "never"
12
}
13
]
14
}
15
}
16

圖像輸入

現在,gpt-realtime 可支援圖像輸入,您可以在即時 API 對話中加入圖像、照片和螢幕擷取畫面,搭配音訊或文字一起使用。模型現在能夠根據使用者實際看到的內容進行對話,使用者可以提出諸如「你看到了什麼?」或「讀出這張螢幕擷取畫面中的文字」等問題。

系統不再將圖像視為即時視訊串流,更像是將圖片加入到對話中。您的應用程式可以決定何時以及分享哪些圖像給模型。透過這種方式,您就能掌控模型看到的內容以及回應的時機。

請參閱我們的文件(在新視窗中開啟),開始使用圖像輸入功能。

JavaScript

1
{
2
"type": "conversation.item.create",
3
"previous_item_id": null,
4
"item": {
5
"type": "message",
6
"role": "user",
7
"content": [
8
{
9
"type": "input_image",
10
"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11
}
12
]
13
}
14
}
15

其他功能

我們新增了多項功能,使即時 API 更易於整合,在生產環境中使用時也更具有彈性。

安全性與隱私

為防止濫用,即時 API 採用了多層防護機制與緩解措施。在 Beta 公告部落格中,您可以了解到更多關於我們的安全性策略與系統說明卡的詳情。我們在即時 API 對話中使用主動分類器,意即若偵測到對話違反了我們的有害內容指引,系統可以立即中止該對話。開發者也可以透過智慧體 SDK(在新視窗中開啟) 輕鬆新增自訂的安全防護措施。

我們的使用政策禁止將服務輸出用於垃圾訊息、欺騙或其他有害用途,也禁止將其重新利用與散布。同時,開發者必須向最終使用者明確說明他們正在與 AI 互動,除非上下文已明顯顯示這一點,否則都應明確表示。即時 API 使用預設語音,以防止惡意行為者冒充他人。

即時 API 完全支援歐盟資料駐留(在新視窗中開啟),適用於歐盟地區的應用程式,並受我們的企業隱私承諾的保障。

定價與可用性

正式推出的即時 API 及全新的 gpt-realtime 模型,今天起開放所有開發者使用。與 gpt-4o-realtime-preview 相比,我們將 gpt-realtime 的價格下調了 20%,每百萬音訊輸入權杖為 32 美元(快取的輸入權杖為 0.40 美元),每百萬音訊輸出權杖為 64 美元(詳情請見詳細定價)。我們也新增了對話上下文的精細控制,讓開發者可以設定智慧型字元上限,並一次截斷多輪對話,大幅降低長時間對話的成本。

若要開始使用,請瀏覽我們的 即時 API 文件(在新視窗中開啟)、在 Playground(在新視窗中開啟) 中測試新模型,並參考我們的 即時 API 提示指南(在新視窗中開啟)

直播重播

作者

OpenAI