2025年8月28日

隆重介紹 gpt-realtime 與即時 API 更新內容，專為生產環境的語音智慧體而設計。

我們計劃推出一個更先進的語音轉語音模型，以及全新的 API 功能，其中包括 MCP 伺服器支援、圖像輸入，以及 SIP 電話通話支援。

展現語音互動的風格化介面。中間是一個圓角矩形音訊播放器，內含波形視覺化、播放/暫停按鈕、「Agent online」狀態指示，以及 00:35 時間標記。白色弧線與點在畫面中流動，呈現即時音訊或訊號傳輸的感覺。背景為鮮豔的藍色，帶有粉紅與紫色調的模糊花朵形狀。

載入中…

今天，我們正式推出即時 API，且新增多項功能，讓開發者與企業能夠建立可靠、可投入生產環境的語音智慧體。現在，這款 API 能夠支援遠端 MCP 伺服器、圖像輸入，以及透過對話啟動協定 (SIP) 進行電話通話，讓語音智慧體能夠利用更多工具與上下文，獲得更強大的能力。

同時，我們也將推出 gpt-realtime，這是迄今最先進的語音轉語音模型。在理解並執行複雜指令、精準呼叫工具，以及產生更自然且富有表現力的語音方面，這款新模型都有顯著提升。其在理解系統訊息與開發者提示方面的表現更為出色，無論是在客服通話中逐字朗讀免責聲明、正確重複字母與數字組合，或是在一句話中流暢切換多種語言，通通都能輕鬆應對。我們同步推出兩種全新語音：Cedar 與 Marin，從今天起僅在即時 API 中獨家提供。

自去年十月我們首次以公開 Beta 的形式推出即時 API 以來，已有數千名開發者使用該 API 並提供改進意見。今天釋出的更新內容經過可靠性、低延遲與高品質方面的最佳化，旨在協助語音智慧體成功投入生產環境。不同於將語音轉文字與文字轉語音等多個模型串聯的傳統流程，即時 API 可透過單一模型與即時 API 直接處理並產生音訊。這種做法可以降低延遲、保留語音細節，並產生更自然、富有表現力的回應。

「OpenAI即時 API 的全新語音轉語音模型推理更強、說話也更自然，能處理像依生活模式篩選房源，或用我們的 BuyAbility 分數來聊房屋負擔能力這類複雜、多步驟的請求。這樣一來，在 Zillow 搜尋房子或了解貸款選項的過程，就能像跟朋友聊天一樣自然，也有助於簡化買房、賣房或租房決策。」

Zillow 人工智慧部主管 Josh Weisberg

隆重介紹 gpt-realtime

gpt-realtime 是全新的語音轉語音模型，也是我們迄今最先進、可投入生產環境的語音模式。我們與客戶密切合作，對這款模型進行一系列訓練，使其在客服支援、個人助理及教育等實際應用任務中有出色的表現，並讓模型與開發者建立與部署語音智慧體的方式完全契合。在音訊品質、智慧程度、指令執行能力以及函式呼叫等方面，這款模型均有所提升。

音訊品質

對於將語音智慧體投入實際應用而言，自然流暢的對話非常重要。模型需要具備與人類相當的語調、情感和語速，才能建立讓人樂在其中的使用體驗，並促使使用者持續互動對話。我們對 gpt-realtime 進行訓練，讓其產生更高品質、更自然的語音，並能遵循精細指令，例如「以快速且專業的語氣說話」或「以法國口音、富有同理心地說話」。

我們在 API 中推出 Marin 和 Cedar 兩種全新語音，大幅提升語音自然度。我們也同時更新現有的八種語音，讓它們也能透過這些改善提供更優良的品質。

聲音範例 - Marin

聲音範例 - Cedar

智慧與理解能力

gpt-realtime 展現出更高的智慧，還能更準確地理解母語語音內容。這款模型可以捕捉非語言訊號（例如笑聲）、在同一句話中切換語言，還能調整語氣（如「俐落且專業」或「親切且富有同理心」）。根據內部評估，該模型在偵測其他語言的字母數字序列（如電話號碼、車輛識別碼等）方面的表現也更為準確，涵蓋語言包括西班牙文、中文、日文及法文。在 Big Bench Audio 評測中衡量推理能力時，gpt-realtime 憑藉 82.8% 的準確率，超越我們 2024 年 12 月推出的舊模型，後者準確率為 65.6%。

Big Bench Audio⁠(在新視窗中開啟) 基準測試是評估支援音訊輸入的語言模型推理能力的資料集。這個資料集依據是否能嚴格測試高階推理能力，將 Big Bench Hard 的題目改編到音訊領域中。

指令遵循

在建立語音轉語音應用程式時，開發者會向模型提供一組指令，說明模型應如何表現，包括如何說話、在特定情境下應說什麼，以及應做或不應做什麼行為。我們將改進重點放在遵循這些指令的能力上，即使是細微的指示也能因此為模型提供更多訊號。在衡量指令遵循準確度的 MultiChallenge Audio 基準測試中，gpt-realtime 的得分為 30.5%，相較於我們 2024 年 12 月的舊模型（得分 20.6%）有顯著提升。

MultiChallenge⁠(在新視窗中開啟) 評估 LLM 與人類進行多輪對話的能力。它著重於四大類現行尖端模型容易遇到困難的真實挑戰。這些挑戰要求模型能夠同時結合指令遵循、上下文管理以及情境內推理能力。我們將測試題目中適合音訊領域的子集從文字轉為語音，以此針對這項評測建立一份音訊版本。

支援函式呼叫

若要使用語音轉語音模型建立高效的語音智慧體，模型需要能在正確的時機呼叫正確的工具，才能在生產環境中發揮作用。我們在函式呼叫上對三個方面作了改進：呼叫相關功能、在適當時機呼叫函式，以及使用適當參數呼叫函式（從而提高了準確度）。在衡量函式呼叫表現的 ComplexFuncBench 音訊評測中，gpt-realtime 的得分為 66.5%，而我們 2024 年 12 月的舊模型得分為 49.7%。

我們也改進了非同步函式呼叫⁠(在新視窗中開啟)。長時間執行的函式呼叫將不再中斷對話流程，模型可以在等待結果的同時保持流暢的對話。此功能已在 gpt-realtime 中原生提供，開發者無需更新程式碼即可使用。

ComplexFuncBench⁠(在新視窗中開啟) 用於衡量模型處理複雜函式呼叫任務的能力。它可以評估模型在多種情境下的表現，例如多步驟呼叫、針對限制條件或隱含參數的推理，以及處理超長輸入。我們將原始文字提示轉換為語音，建立起這項評測，供我們的模型使用。

即時 API 的新功能

遠端 MCP 伺服器支援

您可以在即時 API 對話中啟用 MCP 支援，方法是將遠端 MCP 伺服器的 URL 傳入工作階段設定中。連接成功後，API 便會自動處理工具呼叫，無需手動整合。

這種設定讓擴充智慧體新功能變得更輕鬆簡便，只需將對話指向不同的 MCP 伺服器，就能立即使用這些工具。如需了解在 Realtime 中設定 MCP 的詳細相關資訊，請參閱本指南⁠(在新視窗中開啟)。

JavaScript

1// POST /v1/realtime/client_secrets
2{
3  "session": {
4    "type": "realtime",
5    "tools": [
6      {
7        "type": "mcp",
8        "server_label": "stripe",
9        "server_url": "https://mcp.stripe.com",
10        "authorization": "{access_token}",
11        "require_approval": "never"
12      }
13    ]
14  }
15}
16

圖像輸入

現在，gpt-realtime 可支援圖像輸入，您可以在即時 API 對話中加入圖像、照片和螢幕擷取畫面，搭配音訊或文字一起使用。模型現在能夠根據使用者實際看到的內容進行對話，使用者可以提出諸如「你看到了什麼？」或「讀出這張螢幕擷取畫面中的文字」等問題。

系統不再將圖像視為即時視訊串流，更像是將圖片加入到對話中。您的應用程式可以決定何時以及分享哪些圖像給模型。透過這種方式，您就能掌控模型看到的內容以及回應的時機。

請參閱我們的文件⁠(在新視窗中開啟)，開始使用圖像輸入功能。

JavaScript

1{
2    "type": "conversation.item.create",
3    "previous_item_id": null,
4    "item": {
5        "type": "message",
6        "role": "user",
7        "content": [
8            {
9                "type": "input_image",
10                "image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"
11            }
12        ]
13    }
14}
15

其他功能

我們新增了多項功能，使即時 API 更易於整合，在生產環境中使用時也更具有彈性。

對話啟動協定協定 (SIP) 支援：透過即時 API 的原生支援，將您的應用程式連接至公共電話網路、PBX 系統、桌機電話及其他 SIP 端點。在文件中閱讀相關資訊。⁠(在新視窗中開啟)
可重複使用的提示：現在，您可以在即時 API 對話中儲存並重複使用提示，開發者訊息、工具、變數，以及使用者/助手訊息範例都可以作為這類型提示，使用方式類似於 Responses API。在文件中深入了解詳情。⁠(在新視窗中開啟)

安全性與隱私

為防止濫用，即時 API 採用了多層防護機制與緩解措施。在 Beta 公告部落格⁠中，您可以了解到更多關於我們的安全性策略與系統說明卡的詳情。我們在即時 API 對話中使用主動分類器，意即若偵測到對話違反了我們的有害內容指引，系統可以立即中止該對話。開發者也可以透過智慧體 SDK⁠(在新視窗中開啟) 輕鬆新增自訂的安全防護措施。

我們的使用政策⁠禁止將服務輸出用於垃圾訊息、欺騙或其他有害用途，也禁止將其重新利用與散布。同時，開發者必須向最終使用者明確說明他們正在與 AI 互動，除非上下文已明顯顯示這一點，否則都應明確表示。即時 API 使用預設語音，以防止惡意行為者冒充他人。

即時 API 完全支援歐盟資料駐留⁠(在新視窗中開啟)，適用於歐盟地區的應用程式，並受我們的企業隱私承諾⁠的保障。

定價與可用性

正式推出的即時 API 及全新的 gpt-realtime 模型，今天起開放所有開發者使用。與 gpt-4o-realtime-preview 相比，我們將 gpt-realtime 的價格下調了 20%，每百萬音訊輸入權杖為 32 美元（快取的輸入權杖為 0.40 美元），每百萬音訊輸出權杖為 64 美元（詳情請見詳細定價）。我們也新增了對話上下文的精細控制，讓開發者可以設定智慧型字元上限，並一次截斷多輪對話，大幅降低長時間對話的成本。

若要開始使用，請瀏覽我們的即時 API 文件⁠(在新視窗中開啟)、在 Playground⁠(在新視窗中開啟) 中測試新模型，並參考我們的即時 API 提示指南⁠(在新視窗中開啟)。

直播重播

2025 年

作者

OpenAI

繼續閱讀

檢視全部

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 現已成為 Microsoft 365 Copilot 的首選模型

產品2026年7月9日

ChatGPT 現可與你搭檔完成最具企圖心的工作

產品2026年7月9日

GPT-5.6：隨你的抱負而擴展的前沿智慧

產品2026年7月9日