2025年8月28日

全新推出專為生產環境用語音智能代理而設的 gpt-realtime 及即時 API 更新

更先進的語音轉語音模型和全新的 API 功能登場，包括 MCP 伺服器支援、圖像輸入和 SIP 電話呼叫支援。

顯示語音互動的造型介面，中間是一個圓角矩形的音訊播放器，當中附設波形圖像顯示、播放/暫停按鈕、「智能代理在線」狀態指示，以及 00:35 的時間戳記。帶點的白色曲線在整張圖像中流動，暗示即時音訊或訊號移動。鮮藍色的背景配有粉紅色和紫色色調的模糊花朵形狀。

正在載入...

今天，我們全面推出具備新功能的即時 API，讓開發人員和企業能夠建構可靠、適用於生產環境的語音代理程式。我們的 API 現支援遙距 MCP 伺服器、影像輸入，以及透過對話啟動協定 (SIP) 的電話通話，讓語音代理透過存取額外的工具和情境而變得更有才能。

我們亦同場發佈 OpenAI 迄今為止最先進的語音轉語音模型——gpt-realtime。此新模型在遵從複雜指示、精準呼叫工具，以及發出更自然、更富表現能力的語音方面均有所改進，亦更擅長詮釋系統訊息和開發人員的提示，無論是在支援通話中逐字讀出免責聲明、覆誦字母數字，或是在語句中間無縫切換不同語言等方面均更加出色。我們亦將推出名為 Cedar 和 Marin 的新語音，這兩款新語音將於今天開始專供即時 API 使用。

自去年 10 月我們首次在公開測試版中推出即時 API 以來，已有數以千計的開發人員使用 API 建構，並協助塑造我們今天推出的改進功能；這些改進功能在多方面經過優化，以便大家在生產環境中成功部署可靠、低延遲且高質素的語音代理程式。有別於將語音轉文字和文字轉語音等多種模型串連的傳統管道，即時 API 直接透過單一模型和 API 來處理和生成音訊，這有助減少延遲、保留語音中的細微差異，並生成更自然、更富表現能力的回覆。

「OpenAI 即時 API 的全新語音轉語音模型展現出更強的推理能力，並提供更自然的語音，能夠處理複雜的多步驟請求，例如按照生活方式需要縮小列表範圍，或使用我們的 BuyAbility 評分等工具來引導負擔能力的討論。這讓大家在 Zillow 上搜尋房屋或探索融資選項時，感覺就像跟朋友對話一樣自然，有助於簡化買賣和租賃房屋等決策。」

——Zillow 人工智能部門主管 Josh Weisberg

gpt-realtime 現正登場

全新的語音轉語音模型 gpt-realtime 是我們最先進、最適合在生產環境中使用的語音模型。我們與客戶緊密合作訓練該模型，使其在客戶支援、個人輔助和教育等實際工作中大放異彩，並與開發人員建構和部署語音代理程式的方式對齊。此模型在音訊品質、智力、指令遵從和函數呼叫方面均有所改善。

音訊品質

自然的聲音對話對於在現實世界中部署語音代理程式至關重要。語音模型需要以人性化的語調、情感和話速說話，才能營造令人愉快的體驗，進而鼓勵用戶持續對話。經過我們的訓練，gpt-realtime 能夠生成更高質素的語音，聽起來更加自然，並能夠遵從細緻的指示，例如「使用專業口吻快速說話」或「使用法國口音共情地說話」。

我們將為 API 推出兩款分別名為 Marin 和 Cedar 的新語音，顯著改進語音的自然程度，同時亦將更新現有的八款語音，為其帶來上述的改進。

語音樣本 - Marin

語音樣本 - Cedar

智力及理解能力

gpt-realtime 將展現更高的智慧，且能更準確地理解原生音訊。該模型能夠捕捉非語言暗示（如笑聲）、在語句之間切換語言，以及調整語氣（「爽快、專業」與「親切、共情」）。根據內部評估，該模型在偵測其他語言（包括西班牙語、華語、日語和法語）的字母數字序列（如電話號碼、VIN 等）時的表現更加精準。在測量推理能力的 Big Bench Audio 評估中，gpt-realtime 的準確度達到 82.8% ，擊敗了我們 2024 年 12 月的舊有模型（準確度為 65.6%）。

Big Bench Audio⁠（在新視窗中開啟）基準測試是一個評估資料集，可用於評估支援音訊輸入的語言模型之推理能力。此資料集將 Big Bench Hard 用於嚴格測試進階推理能力的問題改編為音訊領域的問題。

指令遵從

建構語音轉語音應用程式時，開發人員會向模型提出具體指示，說明其行為模式，包括如何說話、在特定情況下該說什麼，以及該做或不該做什麼。透過集中改進模型的指示遵從能力，即使是細微的指示也能為模型帶來更多訊息。在測量指令遵從準確程度的 MultiChallenge 音訊基準測試中，gpt-realtime 的得分為 30.5%，比 2024 年 12 月的舊有模型之 20.6%得分相比有顯著改善。

MultiChallenge⁠（在新視窗中開啟）可評估大型語言模型 (LLM) 處理與人類多輪對話的能力，著重於當今最先進模型所面臨的四類實際挑戰。這些挑戰要求模型同時結合指令遵從、情境管理和情境推理。為建立此測試的語音版本，我們以文字轉語音方式，將測試中的問題轉換成適用於音訊模型的子集。

函數呼叫

如要運用語音轉語音模型構建能幹的語音代理程式，該模型必須能夠在適當的時間呼叫合適的函數，方能在生產環境中發揮作用。故此，我們對函數呼叫的三方面作出了改善：呼叫相關的函數、在適當的時間呼叫函數，以及連同適當參數的呼叫函數（藉此令結果更加準確）。在測量函數呼叫表現的 ComplexFuncBench audio eval 測試中，gpt-realtime 的得分為 66.5%，而我們在 2024 年 12 月的舊有模型得分僅為 49.7%。

此外，我們亦改進了異步函數呼叫⁠（在新視窗中開啟）；長時間執行的函數呼叫將不會再打亂對話流程，模型可以在等待結果的同時繼續流暢對話。此功能現已在原生 gpt-realtime 中使用，因此開發人員毋須更新程式碼。

ComplexFuncBench⁠（在新視窗中開啟）可測量模型處理高難度函數呼叫任務的能力，能夠評估模型在多步驟呼叫、推理約束或隱含參數、處理極長輸入等情況的表現。我們將原來的文字提示轉換成語音，藉此為我們的模型建立這個評估測試。

即時 API 的新功能

遙距 MCP 伺服器支援

透過將遙距 MCP 伺服器的網址輸入工作階段設定，您可以在即時 API 工作階段中啟用 MCP 支援。成功連接後，API 會自動為您處理函數呼叫，讓您無需手動連接整合。

此設定讓您可以為代理程式輕鬆增設新功能——只需將工作階段指向不同的 MCP 伺服器，這些工具便即時可供使用。如要進一步了解如何使用即時 API 設定 MCP 伺服器，請參閱本指南⁠（在新視窗中開啟）。

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

圖像輸入

gpt-realtime 現支援圖像輸入；您可以在即時 API 工作階段中為音訊或文字加入圖像、照片和螢幕截圖。該模型現可根據用戶實際看到的內容進行對話，讓用戶可以提出類似「您看到什麼？」或「閱讀螢幕截圖中的文字」等問題。

有別於將圖像視為即時影像串流的處理方式，系統會偏向將其視為對話中附帶的圖片。您的應用程式可以決定與模型分享哪些圖像，以及何時分享。如此一來，您就能控制模型看到的內容，以及其回覆時機。

歡迎查閱我們的說明文件⁠（在新視窗中開啟），開始使用影像輸入功能。

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

其他功能

我們新增了另外幾項功能，讓即時 API 更易於整合，並在生產環境中使用時更具彈性。

對話啟動協定 (SIP) 支援：透過即時 API 的直接支援，將您的應用程式連接至公共電話網絡、PBX 系統、桌上電話及其他 SIP 端點。詳情請參閱說明文件⁠（在新視窗中開啟）。
可重複使用的提示：現在，您可以儲存並重複使用提示（包括開發人員訊息、工具、變數和用戶/助理訊息例子)，並在不同即時 API 工作階段使用，原理就像回覆 API 一樣。詳情請參閱我們的說明文件。⁠（在新視窗中開啟）

安全機制與私隱

即時 API 整合了多層保障和緩解措施，有助於防止濫用。您可以在測試版公告網誌⁠中進一步了解我們的安全方案和系統資料。即時 API 工作階段採用主動分類器；換言之，如果偵測到特定對話違反我們的有害內容指引，系統可立即停止有關對話。開發人員亦可以使用智能代理 SDK⁠（在新視窗中開啟）輕鬆新增額外的安全防護措施。

我們的使用政策⁠禁止就垃圾郵件、欺騙或其他有害目的而轉用或散佈我們服務的輸出內容。除非相關情境有明確顯示，否則開發人員亦須向終端用戶清楚說明他們何時在與 AI 互動。即時 API 使用預設語音以協助防止惡意人士冒充他人。

即時 API 全面支援歐盟資料駐留方案⁠（在新視窗中開啟），適用於在歐盟地區的應用程式，並受我們的企業私隱承諾⁠保障。

收費與提供情況

由即日起，所有開發人員都可使用一般可用的即時 API 和新的 gpt-realtime 模型。我們將下調 gpt-realtime 的收費；與 gpt-4o-realtime-preview 相比降低 20%，為每 100 萬個音訊輸入 token 32 美元 (快取輸入 token 為 0.40 美元)；每 100 萬個音訊輸出 token 64 美元 (查看收費詳情⁠（在新視窗中開啟） )。我們亦為對話情境加入了精細控制，讓開發人員設定智能 token 限制，並一次截斷多個輪次，大幅降低長時間對話的成本。

如要開始使用，請瀏覽我們的即時 API 文件⁠（在新視窗中開啟），在 Playground⁠（在新視窗中開啟）測試新模型，並查看我們的即時 API 提示指南⁠（在新視窗中開啟）。

直播重溫

2025

作者

OpenAI

繼續閲讀

查看全部

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 現已成為 Microsoft 365 Copilot 的首選模型

產品2026年7月9日

ChatGPT 現已成為你處理最遠大工作的夥伴

產品2026年7月9日

GPT-5.6：隨你的抱負擴展的前沿智能

產品2026年7月9日