跳到主要內容
OpenAI

2026年5月15日

Databricks 將 GPT‑5.5 引入企業智能代理工作流程

GPT‑5.5 在 OfficeQA Pro(Databricks 用於複雜企業智能代理任務的基準測試)創下新的前沿水平。

Databricks 客戶應用實例主視覺圖片。
公司規模: 企業
地區: 北美洲
行業: 科技
產品: Codex

50%

OfficeQA Pro 基準測試準確率(前沿水平)

46%

相較 GPT-5.4,在 OfficeQA Pro 基準測試中的錯誤率減幅

正在載入...

在該模型於 OfficeQA Pro(該公司的複雜企業文件任務基準測試)創下新的前沿水平後,Databricks 正為客戶智能代理工作流程提供 GPT‑5.5。

OfficeQA Pro 評估模型如何在涉及掃描 PDF、舊有檔案及長上下文文件的工作流程中處理剖析、檢索及有依據的推理,而這些任務經常令生產環境中的智能代理系統失效。

在智能代理執行框架設定下,GPT‑5.5 與 GPT‑5.4 相比將錯誤減少 46%,並成為首個在 OfficeQA Pro 上突破 50% 準確率的模型。

「採用 GPT-5.5 的 Codex 現已在市面上所有智能代理和模型之中達到最先進水平。」
–研究工程師 Arnav Singhvi

OfficeQA Pro 上的前沿表現

OfficeQA Pro 包含大量掃描或舊式企業文件,在這些文件中,剖析期間的細微擷取錯誤可能會在下游工作流程中連鎖放大。Singhvi 解釋:「一旦你無法擷取某個數字或數值,智能代理後續處理的整個方向都會改變。」

Databricks 在這些以剖析為主的工作流程中,從 GPT‑5.5 獲得最大提升。Singhvi 表示:「像 ChatGPT‑5.4 這類較早期模型無法正確剖析所有數字,但 ChatGPT‑5.5 在剖析舊文件和掃描 PDF 方面似乎有躍升式提升。」

團隊亦看到多步驟任務中的編排能力有所改善。Singhvi 表示:「我們在 ChatGPT‑5.4 上看到的一點是,它有時會走上一些不必要的搜尋繞路,導致執行路徑非常低效。」

與較早期模型相比,GPT‑5.5 在檢索相關上下文及無需額外監督下完成複雜工作流程方面更為可靠。

將 GPT‑5.5 引入生產環境工作流程

Databricks 現透過 AI Unity Gateway 提供 GPT‑5.5,客戶可在以 AgentBricks 和 Agent Supervisor API 建立的工作流程中使用此模型。在這些系統中,GPT‑5.5 會在專門化智能代理之間編排剖析、檢索及執行。

Singhvi 表示:「我們將會看到很多客戶使用 AgentBricks 和 Agent Supervisor API 來建立自訂智能代理工作流程。」「由 GPT‑5.5 監督這些工作流程,實在令人非常期待。」

「GPT-5.5 在知識能力提升方面表現非常出色。對我們的知識工作而言,這是一次躍升式提升。」
—研究工程師 Arnav Singhvi

迎接全新工作時代

全球已有超過 100 萬家企業透過 OpenAI 取得實際成果。