跳至主要內容
OpenAI

2026年5月15日

Databricks 將 GPT‑5.5 導入企業智慧體工作流程

GPT‑5.5 在 OfficeQA Pro 上創下全新最先進表現;這是 Databricks 用於複雜企業智慧體任務的基準測試。

Databricks 客戶案例主視覺圖片。
公司規模: 企業
地區: 北美
產業: 科技
產品: Codex

50%

OfficeQA Pro 基準測試的準確率(最先進水準)

46%

相較於 GPT-5.4,在 OfficeQA Pro 基準測試上的錯誤減少幅度

載入中…

Databricks 在 GPT‑5.5 於 OfficeQA Pro(該公司用於複雜企業文件任務的基準測試)創下全新最先進表現後,將此模型提供給客戶的智慧體工作流程使用。

OfficeQA Pro 評估模型在涉及掃描 PDF、舊式檔案與長上下文文件的工作流程中,處理剖析、擷取與具依據推理的能力;這些任務經常讓正式環境中的智慧體系統失效。

在 agent-harness 測試環境中,GPT‑5.5 相較於 GPT‑5.4 將錯誤減少了 46%,並成為首個在 OfficeQA Pro 上準確率突破 50% 的模型。

「搭載 5.5 的 Codex 現在在所有現有智慧體與模型中都屬於最先進水準。」
–Arnav Singhvi,研究工程師

OfficeQA Pro 上的最先進表現

OfficeQA Pro 包含大量掃描或舊式企業文件,在這些文件中,剖析時的微小擷取錯誤可能會沿著後續流程一路擴大。 「一旦無法擷取某個數字或數值,就會改變智慧體後續處理內容的整體走向,」Singhvi 解釋道。

在這類高度依賴文件剖析的工作流程中,GPT‑5.5 為 Databricks 帶來了最顯著的效能提升。 「像 5.4 這樣的早期模型無法正確剖析所有數字,但 5.5 似乎在剖析舊文件與掃描 PDF 方面帶來了躍進式提升,」Singhvi 表示。

團隊也觀察到多步驟任務中的協調能力有所改善。 「我們在 5.4 上看到的一個情況是,它有時會繞進一些不必要的搜尋路徑,導致整體流程非常沒效率,」Singhvi 表示。

相較於早期模型,GPT‑5.5 在擷取相關上下文,以及無需額外監督就完成複雜工作流程方面更可靠。

將 GPT‑5.5 導入正式環境工作流程

Databricks 現在透過 AI Unity Gateway 提供 GPT‑5.5,客戶可在以 AgentBricks 與 Agent Supervisor API 建立的工作流程中使用此模型。 在這些系統中,GPT‑5.5 會協調專門化智慧體之間的剖析、擷取與執行。

「我們將會看到許多客戶使用 AgentBricks 和 Agent Supervisor API 來建立自訂智慧體工作流程,」Singhvi 表示。 「由 GPT‑5.5 來監督這些工作流程,真的令人非常期待。」

「GPT-5.5 在知識能力提升方面表現非常出色。 對我們的知識工作而言,這是一次躍進式的改變。」
—Arnav Singhvi,研究工程師

加入工作新時代

全球超過 100 萬家企業正透過 OpenAI 取得實質成果。