跳至主要內容
OpenAI

2025年3月11日

產品

打造代理程式的新工具

我們正不斷發展平台,協助開發人員和企業打造實用、可靠的代理程式。

一個簡潔俐落的介面,其中展示 AI 代理程式的任務清單,其中包含「triage_agent」、「guardrail」與「update_salesforce_record」等項目,背景則是流動感的藍色抽象圖樣。

今天,我們正式推出首批基礎元件,協助開發人員與企業打造實用且可靠的代理程式。我們將代理程式視為能代表使用者自主完成任務的系統。在過去的一年,我們導入多項模型新功能,例如進階推理能力、多模態互動,以及新的安全技術,這些功能都為我們的模型打下了基礎,使其能夠處理建立代理程式所需的複雜多重步驟任務。然而,客戶反映,在實務上要將這些功能轉化為可用於正式環境的代理程式,往往面臨挑戰,需反覆調整提示語並撰寫自訂流程邏輯,且缺乏足夠的可視性與內建支援。

為了解決這些難題,我們推出了一套全新的 API 與工具,專為簡化代理應用程式的開發而設計:

這些新工具簡化了代理程式的核心邏輯、協調與互動,大幅降低開發人員打造代理程式的入門門檻。未來數週與數月內,我們計劃陸續推出更多工具與功能,進一步簡化並加速在我們平台上建立代理應用程式的進程。

隆重推出 Responses API

Responses API 是一款全新基礎 API,它可以利用 OpenAI 內建工具來建立代理程式。它結合了 Chat Completions 的簡明易用與 Assistants API 的工具使用功能。隨著模型能力不斷演進,我們相信 Responses API 可以為開發人員打造代理應用程式提供更靈活的基礎。透過單一 Responses API 呼叫,開發人員就能運用多種工具與模型回合,解決各種日益複雜的任務。

首先,Responses API 將支援新的內建工具,如網頁搜尋、檔案搜尋與電腦操作功能。這些工具的設計初衷意在協同運作,將模型與現實世界連結,使其在完成任務時更具實用性。它同時也強化了整體使用體驗,包括統一的項目型設計、更簡化的多型支援、直覺式串流事件機制,以及像 response.output_text 這樣的 SDK 輔助功能,讓開發人員可以更輕鬆地存取模型輸出的文字內容。

Responses API 專為希望能夠輕鬆將 OpenAI 模型與內建工具整合到應用程式中的開發人員所設計,免除整合多個 API 或外部服務供應商帶來的複雜性。這個 API 還讓開發人員可以更輕鬆地將資料儲存在 OpenAI 上,並透過追蹤與評估等功能來評估代理程式的執行效能。謹此提醒,預設情況下,我們不會使用業務資料訓練模型,即使這些資料儲存在 OpenAI 上也仍然如此。從今天起,這個 API 開放所有開發人員使用,且不會另外收費,所使用的權杖與工具將依我們定價頁面(在新視窗中開啟)所列的標準費率計費。請參閱 Responses API 的快速入門指南(在新視窗中開啟),瞭解更多詳情。

此舉對現有 API 的意義

  • Chat Completions API(在新視窗中開啟):Chat Completions 仍然是我們目前使用最廣泛的 API,我們會持續投入資源,透過新模型與新功能來為其提供全面支援。不需要內建工具的開發人員仍可安心繼續使用 Chat Completions。只要新模型功能無需依賴內建工具或多重模型呼叫,我們就會持續將這些新模型釋出至 Chat Completions。不過,Responses API 是 Chat Completions 的超集(在新視窗中開啟),具備相同優異的效能,因此對於新專案,我們建議優先採用 Responses API。
  • Assistants API(在新視窗中開啟):我們已依據開發人員對 Assistants API 測試版的回饋,將重要改進項目納入 Responses API,使其使用上更加靈活、快速且簡便。我們正致力於讓 Assistants API 與 Responses API 達到完整功能對等,包括支援類似 Assistant 與 Thread 的物件結構,以及程式碼解譯器工具。實現這些目標後,我們計劃正式宣布淘汰 Assistants API ,並預計於 2026 年年中停止服務。Assistants API 淘汰時,我們將提供清楚的移轉指南,協助開發人員保留所有資料並順利將應用程式轉移至 Responses API。在正式宣布淘汰之前,我們將持續推出 Assistants API 的新模型。Responses API 代表在 OpenAI 平台建立代理程式的未來方向。

在 Responses API 導入內建工具

网页搜索

現在,開發人員可以快速取得最新的答案,並附上清楚且相關的網路引用來源。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 模型時皆可以使用網頁搜尋工具,且可與其他工具或函式呼叫搭配使用。

JavaScript

1
const response = await openai.responses.create({
2
model: "gpt-4o",
3
tools: [ { type: "web_search_preview" } ],
4
input: "What was a positive news story that happened today?",
5
});
6

7
console.log(response.output_text);

在早期測試中,我們觀察到開發人員利用網路搜尋建立了多種使用案例,包括購物助理、研究代理程式以及旅遊訂票代理程式等各式需要即時網路資訊的應用場景。

例如,Hebbia(在新視窗中開啟) 利用網路搜尋工具,幫助資產管理公司、私募股權與信貸公司以及法律事務所等,從大量公開及私人資料集中快速提取可據以採取行動的深入解析。Hebbia 將即時搜尋功能整合到研究工作流程中,從而提供更豐富且符合具體情境的市場情報,並持續提升分析的準確性與相關性,表現優於現有基準。

API 中的網路搜尋功能由和 ChatGPT 搜尋功能相同的模型支援。SimpleQA 是一個評估大型語言模型回答簡短事實性問題準確度的基準測試,在測試中,GPT‑4o 搜尋預覽版與 GPT‑4o mini 搜尋預覽版的得分分別為 90% 和 88%。

SimpleQA 準確率 (越高越好)
63%38%47%15%90%88%準確率

透過 API 中的網站搜尋產生的回覆會包含來源連結,例如新聞報導和部落格文章,以利使用者就能進一步瞭解相關內容。有了這些清晰的內嵌式引用內容,使用者便能以全新的方式與資訊互動,而內容擁有者也有更多機會觸及更廣泛的受眾。

任何網站或內容發佈者都可以選擇是否出現(在新視窗中開啟)在 API 的網頁搜尋結果中。

網路搜尋工具已開放所有開發人員使用 Responses API 預覽版。我們也將透過 gpt-4o-search-previewgpt-4o-mini-search-preview,在 Chat Completions API 中開放開發人員直接使用我們精調過的搜尋模型。GPT‑4o 搜尋功能與 GPT‑4o‑mini 搜尋功能的定價(在新視窗中開啟)分別為每千次查詢 30 美元與 25 美元起。請在 Playground(在新視窗中開啟) 試用網路搜尋功能,並參閱我們的文件(在新視窗中開啟),瞭解更多相關資訊。

檔案搜尋

現在,開發人員可以利用改良後的檔案搜尋工具,從大量文件中輕鬆檢索相關資訊。這些工具支援多種檔案類型、查詢最佳化、中繼資料篩選及自訂重排序,能夠提供快速、精確的搜尋結果。同樣地,透過 Responses API,只需幾行程式碼即可完成整合。

JavaScript

1
const productDocs = await openai.vectorStores.create({
2
name: "Product Documentation",
3
file_ids: [file1.id, file2.id, file3.id],
4
});
5

6
const response = await openai.responses.create({
7
model: "gpt-4o-mini",
8
tools: [{
9
type: "file_search",
10
vector_store_ids: [productDocs.id],
11
}],
12
input: "What is deep research by OpenAI?",
13
});
14

15
console.log(response.output_text);

這款檔案搜尋工具可用於各種實際情境,包括協助客戶支援代理程式輕鬆存取常見問答、幫助法務助理為專業人士快速查閱過往案例,以及輔助程式設計代理程式查詢技術文件。例如,Navan(在新視窗中開啟) 在其由 AI 支援的旅遊助理代理程式中使用了檔案搜尋功能,能夠迅速從知識庫文章(如公司旅遊政策)中為使用者找到精確答案。藉助內建的查詢最佳化與重排序功能,他們得以建立一個強大的 RAG(檢索增強產生)流程,而無需額外的調校或設定。Navan 透過為每個使用者群體設定專屬的向量儲存空間, 可以依據個別帳戶設定與使用者角色量身打造回應,不僅節省顧客與內部人員的時間,也有助於提供精確且個人化的支援服務。

所有開發人員都可以透過 Responses API 使用這個工具。使用費用(在新視窗中開啟)為每千次查詢 2.50 美元,檔案儲存則為每 GB 每天 0.10 美元 (前 1 GB 免費)。使用者透過 Assistants API 便可以持續使用這個工具。最後,我們也在 Vector Store API 物件中新增了一個全新的搜尋端點,可讓使用者直接查詢資料,方便用於其他應用程式與 API。請參閱文件(在新視窗中開啟)瞭解更多詳情,以及在 Playground(在新視窗中開啟) 進行測試。

電腦使用

為了打造能在電腦上完成任務的代理程式,開發人員現在可以在 Responses API 運用電腦使用工具,該工具係由同一套驅動 Operator電腦使用代理程式 (CUA) 模型提供支援。這個研究預覽模型在多項評估中創下新的最先進紀錄:在 OSWorld(在新視窗中開啟) 的完整電腦使用任務中達成 38.1% 的成功率,在 WebArena(在新視窗中開啟) 上達成 58.1% 成功率,在 WebVoyager(在新視窗中開啟) 的網頁互動任務中甚至達到 87% 成功率。

內建電腦使用工具可以擷取由模型產生的滑鼠與鍵盤動作,讓開發人員能夠將這些動作直接轉換為其環境中可執行的指令,從而自動執行電腦使用任務。

JavaScript

1
const response = await openai.responses.create({
2
model: "computer-use-preview",
3
tools: [{
4
type: "computer_use_preview",
5
display_width: 1024,
6
display_height: 768,
7
environment: "browser",
8
}],
9
truncation: "auto",
10
input: "I'm looking for a new camera. Help me find the best one.",
11
});
12

13
console.log(response.output);

開發人員可以利用電腦使用工具來自動化以瀏覽器為基礎的工作流程,例如對網頁應用程式執行品質保證工作,或在舊系統之間執行資料輸入任務。例如,Unify(在新視窗中開啟) 是一套用於提升營收的行動系統,透過代理程式來辨識意圖、研究帳戶並與買家互動。透過 OpenAI 的電腦使用工具,Unify 的代理程式得以取得過去無法透過 API 取得的資訊,例如協助物業管理公司透過線上地圖確認某企業是否擴張了房地產足跡。這項研究以一種客製化訊號的方式,觸發個人化的客戶開發策略,讓市場推廣團隊能夠精準且大規模接觸潛在買家。

另一個範例是,Luminai(在新視窗中開啟) 整合了電腦使用工具,為缺乏 API 介面和標準化資料、使用傳統系統的大型企業,實現複雜營運流程自動化。在最近與一家大型社區服務組織合作的探索研究中,Luminai 僅用了幾天時間就將申請處理和使用者註冊流程自動化,而傳統的機器人流程自動化(RPA)縱使經過數月努力仍然難以達成此目標。

去年在 Operator 推出 CUA 之前,我們針對三個關鍵風險領域:濫用風險、模型錯誤和前瞻性風險,進行了全面安全測試和紅隊測試。為了解決在 API 中透過 CUA 將 Operator 功能擴展到本機作業系統所帶來的風險,我們額外進行了安全評估和紅隊測試。我們還為開發人員新增了多項緩解措施,其中包括防範提示注入的安全檢查、執行敏感任務前的確認提示、協助開發人員隔離環境的工具,以及經過強化的潛在政策違規偵測機制。儘管這些防範措施有助於降低風險,模型仍可能在非瀏覽器環境中出現非預期的錯誤。例如,CUA 在 OSWorld(用以衡量 AI 代理程式在真實世界任務表現的基準測試)上的表現目前為 38.1%,顯示該模型在作業系統自動化任務方面尚未具備高度可靠性。針對這些情境,我們建議進行人工監督。如需瞭解更多關於我們針對 API 所採取安全工作的詳細資訊,請參閱我們最新的系統說明卡

基準測試類型基準測試電腦使用 (通用介面)網頁瀏覽代理程式人類
OpenAI CUA先前的 SOTA先前的 SOTA
電腦使用OSWorld38.1%22.0%-72.4%
瀏覽器使用WebArena58.1%36.2%57.1%78.2%
WebVoyager87.0%56.0%87.0%-
評估細節請參見此處

即日起,電腦使用工具將作為研究預覽功能,開放給使用層級 3 至 5(在新視窗中開啟) 的特定開發人員,於 Responses API 中使用。使用費用定價(在新視窗中開啟)為每百萬輸入權杖 3 美元和每百萬輸出權杖 12 美元。如需瞭解詳情,請參閱文件(在新視窗中開啟),並查看範例應用(在新視窗中開啟),瞭解如何使用此工具進行開發。

代理程式 SDK

除了建立代理程式的核心邏輯並賦予它們使用工具的能力來提升效用外,開發人員還需要協調代理程式的工作流程。我們新推出的開源代理程式 SDK 大幅簡化了多代理程式工作流程的協調作業,相較於去年發佈的實驗性 SDK Swarm(在新視窗中開啟) 已大幅改進。這套 Swarm SDK 不僅獲得開發人員社群的廣泛採用,而且多個客戶都已成功實際部署使用。

這些改善項目包括:

  • 代理程式:使用清楚的指引和內建工具輕鬆設定 LLM。
  • 交接:在多個代理程式之間以智慧方式移交控制權。
  • 護欄:可設定的輸入輸出驗證安全檢查機制。
  • 追蹤與可觀察性:將代理程式執行追蹤路徑視覺化,以便偵錯與提升效能。

Python

1
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2

3
@function_tool
4
def submit_refund_request(item_id: str, reason: str):
5
# Your refund logic goes here
6
return "success"
7

8
support_agent = Agent(
9
name="Support & Returns",
10
instructions="You are a support agent who can submit refunds [...]",
11
tools=[submit_refund_request],
12
)
13

14
shopping_agent = Agent(
15
name="Shopping Assistant",
16
instructions="You are a shopping assistant who can search the web [...]",
17
tools=[WebSearchTool()],
18
)
19

20
triage_agent = Agent(
21
name="Triage Agent",
22
instructions="Route the user to the correct agent.",
23
handoffs=[shopping_agent, support_agent],
24
)
25

26
output = Runner.run_sync(
27
starting_agent=triage_agent,
28
input="What shoes might work best with my outfit so far?",
29
)

代理程式 SDK 適合用於多種實際應用場景,包含客戶支援自動化、多重步驟研究、內容產生、程式碼審查以及銷售潛在客戶開發等領域。舉例來說,Coinbase(在新視窗中開啟) 運用代理程式 SDK 快速進行原型開發並部署了 AgentKit,這套工具組能讓 AI 代理程式流暢地與加密貨幣錢包及各類鏈上活動互動。Coinbase 僅花費數小時,便將其開發人員平台 SDK 中的自訂動作整合至一個功能完備的代理程式中。AgentKit 簡化後的架構大幅降低了新增代理程式動作的複雜度,讓開發人員可以更專注於實質整合工作,無需將精力花費在繁瑣的代理程式設定流程。 

Box(在新視窗中開啟) 僅耗時數日便能運用網頁搜尋功能與 Agents SDK 快速打造出代理系統,協助企業從 Box 儲存的非結構化資料以及公開網路來源中搜尋、查詢並擷取深入解析。此方法不僅能讓客戶獲得最新資訊,還能完全遵循企業內部的權限設定與安全政策,以安全合規的方式搜尋其內部專有資料。以金融服務公司為例,可以打造專屬代理程式,透過呼叫 Box AI 代理程式,將儲存於 Box 的內部市場分析資料,與來自網路的即時新聞及經濟資料整合,為分析師提供投資決策所需的全面性視野。

代理程式 SDK 能夠與 Responses API 及 Chat Completions API 協同運作。只要其他供應商的模型提供 Chat Completions API 端點,該 SDK 便也可以與之相容運作。開發人員可以立即將其整合至 Python 程式碼庫,Node.js 支援功能也即將推出。閱讀相關文件(在新視窗中開啟),深入瞭解詳情。

在設計代理程式 SDK 的過程中,我們團隊從社群的 Pydantic(在新視窗中開啟)Griffe(在新視窗中開啟)MkDocs(在新視窗中開啟) 等其他許多優秀作品中得到啟發。我們致力於將代理程式 SDK 持續發展為開源框架,讓社群中的開發人員能夠在此基礎上延伸拓展。

未來發展:打造代理程式專屬平台

我們深信,代理程式不久後會成為工作團隊不可或缺的一環,大幅提升各產業著的生產力。越來越多企業希望運用 AI 處理複雜任務,因此我們致力提供核心技術模組,讓開發人員與企業可以有效建立具實際影響力的自主運作系統。

藉由今日發佈的更新內容,我們推出了第一批基礎組件,協助開發人員與企業更輕鬆地打造、部署並擴展穩定且高效能的 AI 代理系統。隨著模型能力日益代理程式化,我們會在 API 整合與開發新工具方面持續投入,協助企業在實際生產中部署、評估及改善代理程式。我們的目標是要為開發人員提供順暢無阻的平台體驗,用於建立可以協助各產業完成多種任務的代理程式。我們熱切期待看到開發人員未來的創新成果。請參閱我們的文件(在新視窗中開啟),持續關注即將發佈的其他更新內容,開始您的探索之旅。

作者

OpenAI