跳到主要內容
OpenAI

2025年3月11日

產品

打造智能代理新工具

我們正在改進我們的平台,幫助開發人員和企業建立實用而可靠的代理程式。

一個時尚、簡約的介面,在液態狀的藍色抽象背景上顯示人工智能代理程式的任務清單,包括「triage_agent」、「guardrail」和「update_salesforce_record」。

今日,我們推出首套建構模塊,協助開發人員和企業建立實用而可靠的代理程式。我們將代理程式視為可代表使用者獨立完成不同任務的系統。在過去一年,我們推出了多種全新模型能力,例如進階推理、多模態互動以及全新安全技術,為模型奠定更強的基礎,以應付建立代理程式所需的多步驟複雜任務。但客戶曾表示要將這些能力轉化為適合發佈的代理程式也極具挑戰性,通常需要廣泛的提示疊代和自訂編排邏輯,但往往缺乏足夠的可見度或內置支援。

有見及此,我們推出了一套特別設計的全新 API 和工具,用以簡化代理應用程式的開發過程:

這些全新工具有助簡化核心代理程式的邏輯、編排和互動,讓開發人員更輕鬆地開始建立代理程式。在未來數星期以至數月,我們計劃推出更多工具和功能,進一步簡化和加速在平台上建立代理應用程式流程。

回覆 API 簡介

回覆 API 是我們的全新 API 基本類型,能利用 OpenAI 的內置工具來建立代理程式。這個 API 結合聊天完成的簡易特性,以及助理 API 的工具使用能力。隨著模型功能持續演進,我們相信回覆 API 可為開發人員提供更具彈性的基礎,加快建立代理應用程式的工作。只需進行單次回覆 API 呼叫,開發人員就能利用多種工具和模型工作來解決更複雜的任務。

回覆 API 將支援網頁搜尋、檔案搜尋和電腦使用等全新內置工具。這些工具能互相配合,將模型連結至真實世界,因此在完成任務時表現更加出色。回覆 API 同時帶來數項使用性改善,包括統一項目性設計、更簡單的多態性、直覺化串流事件,以及 response.output_text 等 SDK 協助工具,方便存取模型文字輸出。

回覆 API 特別為想在應用程式中輕鬆結合 OpenAPI 模型和內置工具的開發人員而設,從而省卻整合多個 API 或外部供應商等複雜流程。這個 API 同時讓開發人員可以在 OpenAI 上儲存數據,隨時利用追蹤及評估等功能來評估代理程式表現。在此重申,系統預設不會使用商業數據來訓練模型,即使是儲存在 OpenAI 上的數據亦然。這個 API 由今天起開始向所有開發人員提供,而且不另收費。詞元與其他工具則按收費頁面(在新視窗中開啟)的標準費率收費。查看回覆 API 快速開始指南(在新視窗中開啟)了解詳情。

對現有 API 的影響

  • 聊天完成 API(在新視窗中開啟):聊天完成仍然是我們最廣受外界採用的 API,我們會繼續推出更多新模型和功能,全力支援聊天完成 API。如果開發人員無需使用內置工具,則可繼續採用聊天完成 API。我們會繼續為聊天完成發佈新模型,而其功能無需依賴內置工具或多模型呼叫。但回覆 API 將會是聊天完成的擴展集(在新視窗中開啟),並提供同樣出色的效能,因此我們建議新的整合應該選用回覆 API。
  • 助理 API(在新視窗中開啟):我們參考了開發人員對助理 API 測試版的意見,在回覆 API 中整合了多項主要改善,令 API 更靈活快捷,同時更簡單易用。我們會繼續發展助理 API 與回覆 API,以達至全面同等的功能,包括支援助理類和對話串類物件,以及程式碼解釋器工具。在完成功能提升後,我們計劃正式淘汰助理 API,現時的目標停用時間為 2026 年中。在淘汰此 API 時,我們會就從助理 API 過渡至回覆 API 提供清晰的遷移指引,讓開發人員可以保存所有數據,並輕鬆遷移應用程式。在正式宣佈淘汰前,我們會繼續為助理 API 提供新的模型。回覆 API 將成為在 OpenAI 上建立代理程式的未來方向。

回覆 API 中的內置工具簡介

網頁搜尋

開發人員現可獲得更快更及時的搜尋結果,同時包含清晰而相關的網絡引文。在回覆 API 中,開發人員可以在使用 gpt-4o 及 gpt-4o-mini 時使用網頁搜尋工具,而此工具更可配合其他工具或功能呼叫使用。

JavaScript

1
const response = await openai.responses.create({
2
model: "gpt-4o",
3
tools: [ { type: "web_search_preview" } ],
4
input: "What was a positive news story that happened today?",
5
});
6

7
console.log(response.output_text);

在早期測試期間,我們見到開發人員將網頁搜尋應用於多種不同用例,當中包括購物助理、研究代理和旅遊預訂代理等,這些應用程式都需要從網絡蒐集及時的新資訊。

例如,Hebbia(在新視窗中開啟) 利用網頁搜尋工具,協助資產管理人、私募股權與信貸公司和律師行快速地從大量公開和私人數據組中提取可用作行動決策的分析資料。透過在研究工作流程中整合實時搜尋功能,Hebbia 就能提供更豐富、更符合具體情境的市場情報,並持續提升分析的準確性和相關性,全面突破現有的表現基準。

API 中的網頁搜尋功能由用 ChatGPT 搜尋所用的相同模型帶動。根據 SimpleQA(用以評估大語言模式 (LLM) 在回答簡短事實問題時的準確性)的基準評估,GPT‑4o 搜尋預覽和 GPT‑4o mini 搜尋預覽分別獲得 90% 和 88% 的評分。

SimpleQA 準確度(越高越好)
63%38%47%15%90%88%準確度

利用 API 中網頁搜尋功能生成的回覆現在包含指向新聞文章和網誌貼文等來源的連結,讓用戶可以了解更多資訊。透過清晰的內嵌引文,用戶就能以嶄新方式了解資訊,同時內容擁有者也有新的機會接觸更廣泛的受眾。

任何網站或出版商都可以選擇出現(在新視窗中開啟)在 API 的網頁搜尋中。

全新網頁搜尋工具在回覆 API 預覽中向所有開發人員提供。我們同時讓開發人員透過 gpt-4o-search-previewgpt-4o-mini-search-preview,直接取用聊天完成 API 中經過微調的搜尋模型。GPT‑4o 搜尋和 4o-mini 搜尋的收費(在新視窗中開啟)分別由每千次查詢 $30 及 $25 起。請在 Playground(在新視窗中開啟) 中試用網頁搜尋,並在說明文件(在新視窗中開啟)中了解更多資訊。

檔案搜尋

開發人員現可利用強化的檔案搜尋工具,輕鬆從大量文件中提取相關資料。檔案搜尋支援多種檔案類型、查詢優化、元數據篩選和自訂重新排序,提供更快更準確的搜尋結果。同樣地,透過採用回覆 API,只需數行程式碼,就能完全整合此工具。

JavaScript

1
const productDocs = await openai.vectorStores.create({
2
name: "Product Documentation",
3
file_ids: [file1.id, file2.id, file3.id],
4
});
5

6
const response = await openai.responses.create({
7
model: "gpt-4o-mini",
8
tools: [{
9
type: "file_search",
10
vector_store_ids: [productDocs.id],
11
}],
12
input: "What is deep research by OpenAI?",
13
});
14

15
console.log(response.output_text);

檔案搜尋工具可應用於多種實際用例,包括方便客戶支援人員更易查看常見問題、協助法務助理為合資格法律專業人員快速找到過往案例,又或協助編碼代理查詢技術文件。例如,Navan(在新視窗中開啟) 在 AI 旅遊代理中應用檔案搜尋功能,為用戶快速提供來自知識庫文章(例如公司旅遊政策)的精簡答案。他們亦利用內置查詢優化和重新排序功能,無需額外微調或配置就能制定出強大的 RAG(檢索增強生成)流程。Navan 為每個用戶組設定專用的向量儲存,根據個別帳戶設定和用戶角色度身訂造合適答案,不但能為客戶和公司員工節省時間,同時亦有助提供更準確的個人化支援。

此工具在回覆 API 中向所有開發人員提供。使用收費(在新視窗中開啟)為每千次查詢 $2.5,檔案儲存收費為每天每 GB $0.10,首 GB 免費。此工具會繼續在助理 API 中提供。最後,我們亦同時為向量儲存 API 物件新增了搜尋端點,讓用戶可在其他應用程式和 API 直接查詢數據。請參閱我們的說明文件(在新視窗中開啟)了解更多資訊,並在 Playground(在新視窗中開啟) 中開始試用。

電腦使用

開發人員現在可以使用回覆 API 中的電腦使用工具,建立可在電腦上完成任務的代理程式。這項工具採用推動Operator 的相同電腦使用代理 (CUA) 模型。這個研究預覽模型的表現突破了全新紀錄,在 OSWorld(在新視窗中開啟) 的完全電腦使用任務中成功率達至 38.1%,在 WebArena(在新視窗中開啟) 中達至 58.1%,而在 WebVoyager(在新視窗中開啟) 的網絡互動測試中則達至 87%。

內置電腦使用工具可以捕捉模型生成的滑鼠和鍵盤操作,讓開發人員可以直接將操作轉化為可在應用環境中執行的指令,全面自動化電腦使用任務。

JavaScript

1
const response = await openai.responses.create({
2
model: "computer-use-preview",
3
tools: [{
4
type: "computer_use_preview",
5
display_width: 1024,
6
display_height: 768,
7
environment: "browser",
8
}],
9
truncation: "auto",
10
input: "I'm looking for a new camera. Help me find the best one.",
11
});
12

13
console.log(response.output);

開發人員可以利用電腦使用工具來自動化瀏覽器工作流程,例如在網頁應用程式中進行品質驗證,又或者在不同舊有系統中執行數據輸入任務。例如,Unify(在新視窗中開啟) 是一套用以增加收益的操作系統,當中採用代理程式以識別意圖、研究帳戶並與買家互動。利用 OpenAI 的電腦使用工具,Unify 的代理程式就能存取以往無法透過 API 取得的資料,例如讓物業管理公司可以透過網上地圖查證公司擴展房地產版圖的情況。這些資料可以作為觸發個人化外展工作的自訂訊號,前線市場團隊在接觸買家時就能掌握更準確的資料,而且工作效率更高。

另一方面,Luminai(在新視窗中開啟) 整合電腦使用工具至,將大型企業的複雜營運工作流程自動化。這些企業所採用的舊有系統往往無法使用 API,同時缺乏標準化數據。Luminai 近期透過一家大規模社區服務機構進行了初步測試,在數天之間即可將申請處理和用戶登記程序自動化。以往透過傳統機器人流程自動化 (RPA) 來處理這些工作,往往需時數個月也未必能完成。

在去年推出 Operator 中的 CUA 前,我們進行了廣泛的安全性測試和紅隊測試,以回應三大風險範疇:濫用、模型錯誤和前線風險。為了應對透過 API 的 CUA 將 Operator 功能擴展至本機作業系統所帶來的風險,我們特別進行了額外安全性評估和紅隊測試。我們亦為開發人員提供了新的緩解措施,包括利用安全性檢查防範提示注入,在敏感任務中新增確認提示、協助開發人員隔離環境的工具,以及加強偵測潛在違規情況。雖然這些緩解措施有助減低風險,但模型仍然可能會出現無意的錯誤,特別是在非瀏覽器環境中使用時。例如,目前 CUA 在 OSWorld(一套利用真實任務測量 AI 代理程式表現的基準)的表現為 38.1%,表示模型在自動化操作系統任務上尚未達至高度可靠。我們建議這些情境需有真人監察。更多有關 API 安全性工作的詳情,請參閱已更新的系統卡

基準測試類型基準測試電腦使用(通用介面)網頁瀏覽代理人類
OpenAI CUA先前的 SOTA先前的 SOTA
電腦使用OSWorld38.1%22.0%-72.4%
瀏覽器使用WebArena58.1%36.2%57.1%78.2%
WebVoyager87.0%56.0%87.0%-
評估細節說明請見此處

由今天起,電腦使用工具會作為回覆 API 的研究預覽,向用量層級 3-5(在新視窗中開啟)的指定開發人員提供。 使用收費(在新視窗中開啟)為每 100 萬個輸入詞元 $3,及每 100 萬個輸出詞元 $12。請參閱我們的說明文件(在新視窗中開啟)了解更多資訊,並參考示範如何利用此工具進行架設的應用示例(在新視窗中開啟)

代理程式 SDK

除了建設代理程式的核心邏輯,同時讓代理程式可以取用各種工具以提升效能外,開發人員也需要編排代理工作流程。我們的全新開源代理程式 SDK 簡化了編排多重代理工作流程的工作,效能比 Swarm(在新視窗中開啟) 有顯著提升。Swarm 是我們在去年推出的實驗性 SDK,現已廣為開發人員社群所採用,而多位客戶也利用此 SDK 成功部署。

效能改善包括:

  • 代理程式:容易自訂配置的大語言模式 (LLM),提供清晰指示和內置工具。
  • 交接:在不同代理程式之間智能轉移控制權。
  • 防護機制:可自訂配置的安全性檢查,方便進行輸入與輸出驗證。
  • 追蹤及可觀測性:以視覺化方式呈現代理程式執行追蹤,方便偵錯和優化表現。

Python

1
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2

3
@function_tool
4
def submit_refund_request(item_id: str, reason: str):
5
# Your refund logic goes here
6
return "success"
7

8
support_agent = Agent(
9
name="Support & Returns",
10
instructions="You are a support agent who can submit refunds [...]",
11
tools=[submit_refund_request],
12
)
13

14
shopping_agent = Agent(
15
name="Shopping Assistant",
16
instructions="You are a shopping assistant who can search the web [...]",
17
tools=[WebSearchTool()],
18
)
19

20
triage_agent = Agent(
21
name="Triage Agent",
22
instructions="Route the user to the correct agent.",
23
handoffs=[shopping_agent, support_agent],
24
)
25

26
output = Runner.run_sync(
27
starting_agent=triage_agent,
28
input="What shoes might work best with my outfit so far?",
29
)

代理程式 SDK 適用於多種不同實際應用,包括客戶支援自動化、多步驟研究、內容生成、程式碼審查和銷量預測。例如,Coinbase(在新視窗中開啟) 利用代理程式 SDK 快速製作 AgentKit 原型並進行部署。這個工具套組讓 AI 代理程式可與加密貨幣錢包及不同的鏈上活動無縫互動。Coinvbase 只花了數小時便將開發人員平台 SDK 的自訂操作整合至完全可用的代理程式。AgentKit 的簡單架構簡化了新增代理程式操作的程序,讓開發人員可以更專注於有意義的整合操作,而非花時間處理複雜的代理程式設定。 

Box(在新視窗中開啟) 只花了數天的時間,就快速建立包含網頁搜尋與代理程式 SDK 的代理程式,令企業可以從儲存在 Box 和公眾互聯網來源的非結構性資料中搜尋、查詢和提汲分析資料。這種方法不但讓客戶可存取最新資訊,同時也可以安全的方式搜尋內部專有數據,並完全遵從內部許可與安全政策。例如,理財服務公司可以建立自訂的代理程式,利用 Box AI 代理程式來整合儲存在 Box 中的內部市場分析資料與互聯網上的實時新聞和財經數據,令分析更加完整詳盡,從而作出更明智的投資決策。

代理程式 SDK 可與回覆 API 及聊更完成 API 配合使用。這個 SDK 同時可配合其他供應商的模型運作(該模型必須能提供聊天完成式的 API 端點)。開發人現可即時將此 SDK 整合至 Python 程式碼庫,而 Node.js 支援亦即將推出。請參閱我們的說明文件(在新視窗中開啟)以了解更多資訊。

在設計代理程式 SDK 時,我們的團隊參考了社群中不少精彩的示例,當中包括 Pydantic(在新視窗中開啟)Griffe(在新視窗中開啟)MkDocs(在新視窗中開啟)。我們致力繼續以開源架構製作代理程式 SDK,以便其他社群成員可於這基礎上繼續發展。

下一步:建立代理程式平台

我們深信,代理程式即將成為勞動力的重要一環,並會大幅提升不同行業的生產力。隨著不同公司陸續利用 AI 處理複雜任務,我們致力提供更實用的建構模塊,讓開發人員和企業可以更高效地建立自動化系統,帶動實際影響。

我們在今天的產品發佈中推出了首套建構模塊,讓開發人員和企業可以更輕鬆地建立、部署和擴展可靠和高效能的 AI 代理程式。隨著模型功能傾向代理化,我們會持續發展不同 API 之間的更深層整合並開發全新工具,以促進部署、評估和優化代理程式。我們的目標是為開發人員提供無縫的代理程式構建平台體驗,支援不同行業的多種任務。我們期待看到開發人員構建的成果。要開始使用,請瀏覽我們的說明文件(在新視窗中開啟)⁠並請密切關注更多更新。

作者

OpenAI