我們今天推出了 AgentKit,這是一整套完整的工具,能協助開發商和企業建構、部署及優化智能代理。到目前為止,打造智能代理需要應付分散的工具:複雜的編排卻無版本管理、需要自訂連接器、手動評估流程、提示詞調整,以及啟動前數星期的前端開發工作。有了 AgentKit,開發商現在可以使用以下新的構成要素,以視覺化方式設計工作流程並更快地整合到智能代理用戶介面:
- Agent Builder:一個可視化 Canvas,方便建立與進行版本管理多重代理工作流程
- Connector Registry:管理員的中央管理中心,用以控制 OpenAI 產品之間資料與工具的連線方式
- ChatKit:提供工具套件,可將可自訂的聊天智能代理體驗整合到您的產品中
我們也在擴大評測能力,新增資料集、追蹤評分、自動化提示詞優化,並支援第三方模型,以便衡量及提升智能代理性能。
自從 3 月發佈了回覆 API 和智能代理 SDK以來,我們看到開發商和企業建立了用於深入研究、客戶支援等用途的端對端代理工作流程。Klarna 建立了一個支援智能代理,能處理三分之二的所有工單,而 Clay 則透過一個銷售智能代理實現了 10 倍的成長。AgentKit 以回覆 API 為基礎構建,使開發商能更高效且穩定地開發智能代理。
隨著智能代理工作流程變得越來越複雜,開發商需要更清晰地了解它們是如何運作的。Agent Builder(在新視窗中開啟) 提供了一個視覺 Canvas,可透過拖放節點來組合邏輯、連接工具,並設定自訂防護機制。它支援預覽執行、內部評估設定,以及完整版本管理,適合快速反覆開發。

建構者可以從空白 Canvas開始,或使用預建範本。
在 Ramp,團隊只花了幾個小時,就從一個空白 Canvas 建構出一個採購智能代理:
Agent Builder 將過去需要數月複雜協調、自訂程式碼與手動優化的工作,現在只需幾個小時就能完成。視覺化 Canvas 使產品、法律及工程團隊保持同步,將開發流程縮短 70%,讓智能代理能在兩個衝刺週期內上線,而不是兩個季度。」
同樣地,日本領先的科技與網絡服務公司 LY Corporation,在不到兩小時內就使用 Agent Builder 建立了一個工作助理智能代理。
「Agent Builder 讓我們能夠以全新的方式編排智能代理,工程師和主題專家可以在一個介面中協作。我們建立了第一個多重代理工作流程,並在不到兩個小時內運行完成,大幅加快了建立與部署智能代理的時間。」
我們同時將推出 Connector Registry,讓企業可以跨越多個工作區及組織,進行資料的管理及維護。Connector Registry(在新視窗中開啟)將 ChatGPT 和 API 的資料來源,整合到單一的管理面板。此註冊表包括所有預設的連接器,例如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams,以及第三方 MCP。
開發商也能在 Agent Builder 中啟用防護機制 (Guardrails)(在新視窗中開啟),這是一個開源、模組化的安全層,用以保護智能代理不受到非預期或惡意行為的影響。防護機制可以標記或遮蔽個人識別資訊 (PII),並監控越獄行為,同時提供其他安全保護,從而更容易開發與部署可靠且安全的智能代理。防護機制可以單獨部署,或透過 Python(在新視窗中開啟)和 JavaScript(在新視窗中開啟) 的 guardrails 函式庫來部署。
為智能代理部署聊天介面可能比想像中複雜,要處理串流式回覆、對話串管理、展示模型思考,還要設計有趣的聊天內體驗。ChatKit 可簡單地將聊天型智能代理整合進您的產品,讓它們感覺就像是產品本身的一部分。它可以整合到應用程式或網站中,並可依照您的主題或品牌進行自訂。
「我們利用 ChatKit 為 Canva 開發商社群建立了一個支援智能代理,省下了超過兩週的時間,並且在一小時內就完成了整合。這個支援智能代理將把開發商與我們文件互動的方式,轉變為對話式體驗,讓他們能更輕鬆地在 Canva 上開發應用程式和整合功能。」
ChatKit 已經為各種使用案例提供支援,包括內部知識助手、員工培訓指南,以及客服和研究智能代理等等。HubSpot(在新視窗中開啟) 的客戶支援智能代理就是其中一個例子:

打造可靠、可實際運作的智能代理,需要嚴格的表現評估。我們去年推出了 Evals(在新視窗中開啟),協助開發商測試提示詞並衡量模型行為。我們現在新增了四種新功能,讓作出評估變得更簡單:
- 資料集可迅速從頭開始建立智能代理評估,利用自動評分器與人類註解,並隨著時間擴充規模。
- 追蹤評分對智能代理工作流程執行端對端評估,並自動化評分以找出不足之處。
- 自動提示詞優化根據人類註解和評分器輸出結果,產生改良的提示詞。
- 第三方模型支援在 OpenAI Evals 平台內評估其他供應商的模型。
我們已經看到使用 Evals 的客戶在效能上獲得了重大提升。
「這個評估平台將我們多重代理盡職調查框架的開發時間縮短了超過 50%,並將智能代理的準確性提高了 30%。」

強化微調(在新視窗中開啟) (RFT) 讓開發商可以自訂我們的推理模型。它在 OpenAI o4-mini 上已廣泛可用,並在 GPT‑5 中進行私人測試。我們正與數十位客戶緊密合作,以便在 GPT‑5 的全面發佈前對 RFT 進行改良。
今天,我們在 RFT 測試版中推出兩項新功能,進一步強化智能代理的表現:
- 自訂工具呼叫訓練模型在正確的時間呼叫正確的工具,以達到更佳的推理能力
- 自訂評分器針對您的使用情境中最關鍵的要素,設定自訂的評估標準
從今天起,ChatKit 和新的 Evals 功能已全面開放給所有開發商使用。Agent Builder 現正提供測試版,Connector Registry 開始向部分 API、ChatGPT Enterprise 與 Edu 客戶推出測試版,透過全域管理控制台(Global Admin Console,全域擁有者可管理網域、單一登入及多個 API 組織)。全域管理主控台是(在新視窗中開啟)啟用 Connector Registry 的必要條件。所有這些工具都包括在標準的 API 模型收費中。
我們計劃在不久的將來,為 ChatGPT 推出獨立的工作流程 API 與智能代理部署功能。
我們非常期待看到您建立的成果。


