2026年5月15日

Databricks 將 GPT‑5.5 導入企業智慧體工作流程

GPT‑5.5 在 OfficeQA Pro 上創下全新最先進表現；這是 Databricks 用於複雜企業智慧體任務的基準測試。

公司規模: 企業

地區: 北美洲

產業: 科技

產品: Codex

50%

OfficeQA Pro 基準測試的準確率（最先進水準）

46%

相較於 GPT-5.4，在 OfficeQA Pro 基準測試上的錯誤減少幅度

載入中…

Databricks 在 GPT‑5.5 於 OfficeQA Pro（該公司用於複雜企業文件任務的基準測試）創下全新最先進表現後，將此模型提供給客戶的智慧體工作流程使用。

OfficeQA Pro 評估模型在涉及掃描 PDF、舊式檔案與長上下文文件的工作流程中，處理剖析、擷取與具依據推理的能力；這些任務經常讓正式環境中的智慧體系統失效。

在 agent-harness 測試環境中，GPT‑5.5 相較於 GPT‑5.4 將錯誤減少了 46%，並成為首個在 OfficeQA Pro 上準確率突破 50% 的模型。

「搭載 5.5 的 Codex 現在在所有現有智慧體與模型中都屬於最先進水準。」

–Arnav Singhvi，研究工程師

OfficeQA Pro 上的最先進表現

OfficeQA Pro 包含大量掃描或舊式企業文件，在這些文件中，剖析時的微小擷取錯誤可能會沿著後續流程一路擴大。「一旦無法擷取某個數字或數值，就會改變智慧體後續處理內容的整體走向，」Singhvi 解釋道。

在這類高度依賴文件剖析的工作流程中，GPT‑5.5 為 Databricks 帶來了最顯著的效能提升。「像 5.4 這樣的早期模型無法正確剖析所有數字，但 5.5 似乎在剖析舊文件與掃描 PDF 方面帶來了躍進式提升，」Singhvi 表示。

團隊也觀察到多步驟任務中的協調能力有所改善。「我們在 5.4 上看到的一個情況是，它有時會繞進一些不必要的搜尋路徑，導致整體流程非常沒效率，」Singhvi 表示。

相較於早期模型，GPT‑5.5 在擷取相關上下文，以及無需額外監督就完成複雜工作流程方面更可靠。

Databricks 現在透過 AI Unity Gateway 提供 GPT‑5.5，客戶可在以 AgentBricks 與 Agent Supervisor API 建立的工作流程中使用此模型。在這些系統中，GPT‑5.5 會協調專門化智慧體之間的剖析、擷取與執行。

「我們將會看到許多客戶使用 AgentBricks 和 Agent Supervisor API 來建立自訂智慧體工作流程，」Singhvi 表示。「由 GPT‑5.5 來監督這些工作流程，真的令人非常期待。」

「GPT-5.5 在知識能力提升方面表現非常出色。對我們的知識工作而言，這是一次躍進式的改變。」

—Arnav Singhvi，研究工程師

全球超過 100 萬家企業正透過 OpenAI 創造實質成果。

公司2026年6月25日

公司2026年6月24日

國際事務2026年6月23日