跳到主要內容
OpenAI

2025年10月6日

產品

AgentKit 現已推出

用於建構、部署及優化智能代理的一系列全新工具。

正在載入...

我們今天推出了 AgentKit,這是一整套完整的工具,能協助開發商和企業建構、部署及優化智能代理。到目前為止,打造智能代理需要應付分散的工具:複雜的編排卻無版本管理、需要自訂連接器、手動評估流程、提示詞調整,以及啟動前數星期的前端開發工作。有了 AgentKit,開發商現在可以使用以下新的構成要素,以視覺化方式設計工作流程並更快地整合到智能代理用戶介面:

  • Agent Builder:一個可視化 Canvas,方便建立與進行版本管理多重代理工作流程
  • Connector Registry:管理員的中央管理中心,用以控制 OpenAI 產品之間資料與工具的連線方式
  • ChatKit:提供工具套件,可將可自訂的聊天智能代理體驗整合到您的產品中

我們也在擴大評測能力,新增資料集、追蹤評分、自動化提示詞優化,並支援第三方模型,以便衡量及提升智能代理性能。

自從 3 月發佈了回覆 API 和智能代理 SDK以來,我們看到開發商和企業建立了用於深入研究、客戶支援等用途的端對端代理工作流程。Klarna 建立了一個支援智能代理,能處理三分之二的所有工單,而 Clay 則透過一個銷售智能代理實現了 10 倍的成長。AgentKit 以回覆 API 為基礎構建,使開發商能更高效且穩定地開發智能代理。

使用 Agent Builder 設計工作流程

隨著智能代理工作流程變得越來越複雜,開發商需要更清晰地了解它們是如何運作的。Agent Builder(在新視窗中開啟) 提供了一個視覺 Canvas,可透過拖放節點來組合邏輯、連接工具,並設定自訂防護機制。它支援預覽執行、內部評估設定,以及完整版本管理,適合快速反覆開發。

在視覺化建構工具中,介面呈現客戶服務自動化流程的視圖。Canvas 上顯示出連線的節點,節點標籤分別為「開始」、「越獄防護機制」、「分類智能代理」、「如果/否則」、「返回智能代理」、「保留智能代理」、「資訊智能代理」、「幻覺防護機制」和「結束」。左側的側邊欄列出可用的節點類型,例如「智能代理」、「備註」、「檔案搜尋」、「防護機制」、「MCP」和「用戶核准」。頂部控制項包括「評估」、「程式碼」、「預覽」和「發佈」等選項。

建構者可以從空白 Canvas開始,或使用預建範本。

在 Ramp,團隊只花了幾個小時,就從一個空白 Canvas 建構出一個採購智能代理:

Agent Builder 將過去需要數月複雜協調、自訂程式碼與手動優化的工作,現在只需幾個小時就能完成。視覺化 Canvas 使產品、法律及工程團隊保持同步,將開發流程縮短 70%,讓智能代理能在兩個衝刺週期內上線,而不是兩個季度。」
Ramp

同樣地,日本領先的科技與網絡服務公司 LY Corporation,在不到兩小時內就使用 Agent Builder 建立了一個工作助理智能代理。

「Agent Builder 讓我們能夠以全新的方式編排智能代理,工程師和主題專家可以在一個介面中協作。我們建立了第一個多重代理工作流程,並在不到兩個小時內運行完成,大幅加快了建立與部署智能代理的時間。」
LY Corporation

我們同時將推出 Connector Registry,讓企業可以跨越多個工作區及組織,進行資料的管理及維護。Connector Registry(在新視窗中開啟)將 ChatGPT 和 API 的資料來源,整合到單一的管理面板。此註冊表包括所有預設的連接器,例如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams,以及第三方 MCP。

開發商也能在 Agent Builder 中啟用防護機制 (Guardrails)(在新視窗中開啟),這是一個開源、模組化的安全層,用以保護智能代理不受到非預期或惡意行為的影響。防護機制可以標記或遮蔽個人識別資訊 (PII),並監控越獄行為,同時提供其他安全保護,從而更容易開發與部署可靠且安全的智能代理。防護機制可以單獨部署,或透過 Python(在新視窗中開啟)JavaScript(在新視窗中開啟) 的 guardrails 函式庫來部署。

透過 ChatKit 將具行動力的聊天體驗整合

為智能代理部署聊天介面可能比想像中複雜,要處理串流式回覆、對話串管理、展示模型思考,還要設計有趣的聊天內體驗。ChatKit 可簡單地將聊天型智能代理整合進您的產品,讓它們感覺就像是產品本身的一部分。它可以整合到應用程式或網站中,並可依照您的主題或品牌進行自訂。

「我們利用 ChatKit 為 Canva 開發商社群建立了一個支援智能代理,省下了超過兩週的時間,並且在一小時內就完成了整合。這個支援智能代理將把開發商與我們文件互動的方式,轉變為對話式體驗,讓他們能更輕鬆地在 Canva 上開發應用程式和整合功能。」
Canva

ChatKit 已經為各種使用案例提供支援,包括內部知識助手、員工培訓指南,以及客服和研究智能代理等等。HubSpot(在新視窗中開啟) 的客戶支援智能代理就是其中一個例子:

Ramp 平台顯示收費管理介面的主目錄畫面。主面板向用戶 Daniel 打招呼,並列出如「ChatGPT Business 申請」(待審核)以及「HubSpot 申請」(草稿)等請求,同時顯示近期航空公司、共乘服務及軟件的支出。右側開啟了 ChatGPT Business 的軟件申請表單,詳細列出 5 個席位,每月 125 美元,期間為 2025 年 10 月 1 日至 2026 年 10 月 1 日,下方有一個黃色的「提交申請」按鈕。

用新的評估功能衡量智能代理表現

打造可靠、可實際運作的智能代理,需要嚴格的表現評估。我們去年推出了 Evals(在新視窗中開啟),協助開發商測試提示詞並衡量模型行為。我們現在新增了四種新功能,讓作出評估變得更簡單:

  • 資料集可迅速從頭開始建立智能代理評估,利用自動評分器與人類註解,並隨著時間擴充規模。
  • 追蹤評分對智能代理工作流程執行端對端評估,並自動化評分以找出不足之處。
  • 自動提示詞優化根據人類註解和評分器輸出結果,產生改良的提示詞。
  • 第三方模型支援在 OpenAI Evals 平台內評估其他供應商的模型。

我們已經看到使用 Evals 的客戶在效能上獲得了重大提升。

「這個評估平台將我們多重代理盡職調查框架的開發時間縮短了超過 50%,並將智能代理的準確性提高了 30%。」
Carlyle
顯示資料集表格的介面,欄位包括評分、語氣、反饋和準確度。各列顯示的項目帶有讚或倒讚圖示,語氣標籤如專業、友善、粗魯和差勁,以及標示通過或失敗、分數為 3.5 的準確度結果。頂部的工具列包括上傳、欄位、評分、產生輸出和儲存等選項。

透過強化學習微調來提升智能代理效能

強化微調(在新視窗中開啟) (RFT) 讓開發商可以自訂我們的推理模型。它在 OpenAI o4-mini 上已廣泛可用,並在 GPT‑5 中進行私人測試。我們正與數十位客戶緊密合作,以便在 GPT‑5 的全面發佈前對 RFT 進行改良。

今天,我們在 RFT 測試版中推出兩項新功能,進一步強化智能代理的表現:

  • 自訂工具呼叫訓練模型在正確的時間呼叫正確的工具,以達到更佳的推理能力 
  • 自訂評分器針對您的使用情境中最關鍵的要素,設定自訂的評估標準

收費與提供情況

從今天起,ChatKit 和新的 Evals 功能已全面開放給所有開發商使用。Agent Builder 現正提供測試版,Connector Registry 開始向部分 API、ChatGPT Enterprise 與 Edu 客戶推出測試版,透過全域管理控制台(Global Admin Console,全域擁有者可管理網域、單一登入及多個 API 組織)。全域管理主控台是(在新視窗中開啟)啟用 Connector Registry 的必要條件。所有這些工具都包括在標準的 API 模型收費中。

我們計劃在不久的將來,為 ChatGPT 推出獨立的工作流程 API 與智能代理部署功能。

我們非常期待看到您建立的成果。

作者

OpenAI