Databricks 将 GPT‑5.5 引入企业智能体工作流
GPT‑5.5 在 OfficeQA Pro 上创下新的最先进水平。OfficeQA Pro 是 Databricks 用于复杂企业智能体任务的基准测试。

50%
OfficeQA Pro 基准测试准确率(最先进水平)
46%
与 GPT-5.4 相比,OfficeQA Pro 基准测试中的错误减少
在该模型于 OfficeQA Pro——这家公司用于复杂企业文档任务的基准测试——创下新的最先进水平后,Databricks 开始向客户智能体工作流提供 GPT‑5.5。
OfficeQA Pro 评估模型在涉及扫描 PDF、旧版文件和长上下文文档的工作流中,如何处理解析、检索和有依据的推理;这些任务常常会让生产级智能体系统失效。
在 agent-harness 设置下,与 GPT‑5.4 相比,GPT‑5.5 将错误减少了 46%,并成为首个在 OfficeQA Pro 上准确率超过 50% 的模型。
“搭载 5.5 的 Codex 现在已成为现有所有智能体和模型中的最先进水平。”
OfficeQA Pro 包含大量扫描版或旧版企业文档,在这些文档中,解析阶段的微小提取错误会沿着工作流其余环节层层传递并放大。“一旦某个数字无法被提取出来,就会改变智能体后续处理的整个轨迹,”Singhvi 解释道。
Databricks 在这些以解析为主的工作流中看到了 GPT‑5.5 带来的最大提升。“像 5.4 这样的早期模型无法正确解析所有数字,但看起来 5.5 在解析旧文档和扫描 PDF 方面实现了阶跃式提升,”Singhvi 说。
团队还看到了多步骤任务编排方面的改进。“我们在 5.4 上看到的一点是,它有时会绕去做一些没必要的搜索,这会导致执行路径非常低效,”Singhvi 说。
与早期模型相比,GPT‑5.5 在检索相关上下文并在无需额外监督的情况下完成复杂工作流方面更可靠。
Databricks 现已通过 AI Unity Gateway 提供 GPT‑5.5,客户可在使用 AgentBricks 和 Agent Supervisor API 构建的工作流中使用该模型。在这些系统中,GPT‑5.5 负责跨专用智能体编排解析、检索和执行。
“我们将看到很多客户使用 AgentBricks 和 Agent Supervisor API 来构建自定义智能体工作流,”Singhvi 说。“由 GPT‑5.5 来监督这些工作流,真的令人兴奋。”
“GPT-5.5 在知识能力提升方面表现非常出色。对我们来说,它在知识工作方面带来了阶跃式变化。”


