2026年5月15日

Databricks、GPT‑5.5を企業向けエージェントワークフローに導入

GPT‑5.5は、複雑な企業向けエージェントタスクに関するDatabricksのベンチマークOfficeQA Proで新たな最先端を打ち立てました。

営業担当へのお問い合わせ

従業員数: エンタープライズ

地域: 北米

業種: テクノロジー

製品: Codex

50%

OfficeQA Proベンチマークでの精度（最先端）

46%

OfficeQA ProベンチマークでのGPT-5.4比のエラー削減

読み込んでいます...

Databricksは、複雑な企業文書タスクに関する同社ベンチマークOfficeQA Proでこのモデルが新たな最先端を打ち立てたことを受け、顧客のエージェントワークフロー向けにGPT‑5.5の提供を開始しています。

OfficeQA Proは、スキャンされたPDF、レガシーファイル、長文コンテキスト文書を含むワークフロー全体で、モデルが解析、検索、根拠に基づく推論をどのように処理するかを評価します。これらは本番のエージェントシステムがしばしば破綻するタスクです。

エージェントハーネス設定では、GPT‑5.5はGPT‑5.4と比べてエラーを46%削減し、OfficeQA Proで精度50%を超えた初のモデルとなりました。

「5.5を搭載したCodexは、現在あるすべてのエージェントとモデルの中で最先端です。」

–Arnav Singhvi、リサーチエンジニア

OfficeQA Proでの最先端の性能

OfficeQA Proには、スキャン済みまたはレガシーな企業文書が大量に含まれており、解析時の小さな抽出ミスがワークフローの残り全体に下流で連鎖することがあります。「特定の桁や数字を抽出できなくなると、それによってエージェントが扱う内容の流れ全体が変わってしまいます」とSinghviは説明します。

Databricksは、こうした解析負荷の高いワークフローでGPT‑5.5から最大の改善を確認しました。「5.4のような以前のモデルでは、すべての数字を正しく解析できませんでしたが、5.5では古い文書やスキャンPDFの解析に段違いの向上が見られるようです」とSinghviは述べています。

チームはまた、複数ステップのタスク全体にわたるオーケストレーションの改善も確認しました。「5.4で見られたことの1つは、ときどき不要な検索の寄り道をしてしまい、それが非常に非効率な進行を招いていたことです」とSinghviは言います。

以前のモデルと比べて、GPT‑5.5は関連するコンテキストの取得と、追加の監督なしで複雑なワークフローを完了する点で、より信頼性が高くなっていました。

GPT‑5.5を本番ワークフローへ導入

Databricksは現在、AI Unity Gatewayを通じてGPT‑5.5を提供しており、顧客はAgentBricksとAgent Supervisor APIで構築したワークフロー内でこのモデルを利用しています。これらのシステムでは、GPT‑5.5が専門化されたエージェント全体で解析、検索、実行をオーケストレーションします。

「多くの顧客が、カスタムのエージェントワークフロー向けにAgentBricksとAgent Supervisor APIを使うようになるでしょう」とSinghviは言います。「GPT‑5.5がこうしたワークフローを監督するのは本当に楽しみです。」