Databricks、GPT‑5.5を企業向けエージェントワークフローに導入
GPT‑5.5は、複雑な企業向けエージェントタスクに関するDatabricksのベンチマークOfficeQA Proで新たな最先端を打ち立てました。

50%
OfficeQA Proベンチマークでの精度(最先端)
46%
OfficeQA ProベンチマークでのGPT-5.4比のエラー削減
Databricksは、複雑な企業文書タスクに関する同社ベンチマークOfficeQA Proでこのモデルが新たな最先端を打ち立てたことを受け、顧客のエージェントワークフロー向けにGPT‑5.5の提供を開始しています。
OfficeQA Proは、スキャンされたPDF、レガシーファイル、長文コンテキスト文書を含むワークフロー全体で、モデルが解析、検索、根拠に基づく推論をどのように処理するかを評価します。これらは本番のエージェントシステムがしばしば破綻するタスクです。
エージェントハーネス設定では、GPT‑5.5はGPT‑5.4と比べてエラーを46%削減し、OfficeQA Proで精度50%を超えた初のモデルとなりました。
「5.5を搭載したCodexは、現在あるすべてのエージェントとモデルの中で最先端です。」
OfficeQA Proには、スキャン済みまたはレガシーな企業文書が大量に含まれており、解析時の小さな抽出ミスがワークフローの残り全体に下流で連鎖することがあります。 「特定の桁や数字を抽出できなくなると、それによってエージェントが扱う内容の流れ全体が変わってしまいます」とSinghviは説明します。
Databricksは、こうした解析負荷の高いワークフローでGPT‑5.5から最大の改善を確認しました。 「5.4のような以前のモデルでは、すべての数字を正しく解析できませんでしたが、5.5では古い文書やスキャンPDFの解析に段違いの向上が見られるようです」とSinghviは述べています。
チームはまた、複数ステップのタスク全体にわたるオーケストレーションの改善も確認しました。 「5.4で見られたことの1つは、ときどき不要な検索の寄り道をしてしまい、それが非常に非効率な進行を招いていたことです」とSinghviは言います。
以前のモデルと比べて、GPT‑5.5は関連するコンテキストの取得と、追加の監督なしで複雑なワークフローを完了する点で、より信頼性が高くなっていました。
Databricksは現在、AI Unity Gatewayを通じてGPT‑5.5を提供しており、顧客はAgentBricksとAgent Supervisor APIで構築したワークフロー内でこのモデルを利用しています。 これらのシステムでは、GPT‑5.5が専門化されたエージェント全体で解析、検索、実行をオーケストレーションします。
「多くの顧客が、カスタムのエージェントワークフロー向けにAgentBricksとAgent Supervisor APIを使うようになるでしょう」とSinghviは言います。 「GPT‑5.5がこうしたワークフローを監督するのは本当に楽しみです。」
「GPT-5.5は知識面の向上という点で非常に優れています。 私たちにとって、知識労働を行ううえで段違いの変化です。」


