2026년 5월 15일

Databricks, GPT‑5.5를 엔터프라이즈 에이전트 워크플로에 도입

GPT‑5.5는 복잡한 엔터프라이즈 에이전트 작업을 위한 Databricks의 벤치마크인 OfficeQA Pro에서 새로운 최고 성능을 기록했습니다.

세일즈 문의

회사 규모: 엔터프라이즈

지역: 북미

산업: 기술

제품: Codex

50%

OfficeQA Pro 벤치마크 정확도(최고 수준)

46%

GPT-5.4 대비 OfficeQA Pro 벤치마크 오류 감소

로딩 중...

Databricks는 복잡한 엔터프라이즈 문서 작업을 위한 자사 벤치마크인 OfficeQA Pro에서 이 모델이 새로운 최고 성능을 기록한 뒤, 고객 에이전트 워크플로에 GPT‑5.5를 제공하고 있습니다.

OfficeQA Pro는 스캔된 PDF, 레거시 파일, 긴 컨텍스트 문서가 포함된 워크플로 전반에서 모델이 파싱, 검색 및 문맥 기반 추론을 얼마나 잘 수행하는지 평가합니다. 이러한 작업은 실제 운영 환경의 에이전트 시스템에서 자주 문제를 일으킵니다.

에이전트 하니스 환경에서 GPT‑5.5는 GPT‑5.4 대비 오류를 46% 줄였고, OfficeQA Pro에서 정확도 50%를 넘은 최초의 모델이 되었습니다.

“5.5를 탑재한 Codex는 이제 현존하는 모든 에이전트와 모델 가운데 최고 수준입니다.”

–Arnav Singhvi, 리서치 엔지니어

OfficeQA Pro에서의 최고 성능

OfficeQA Pro에는 스캔되었거나 레거시 형식의 엔터프라이즈 문서가 대량 포함되어 있으며, 파싱 중의 작은 추출 오류도 이후 워크플로 전체로 연쇄적으로 퍼질 수 있습니다. “특정 숫자 하나를 추출하지 못하는 순간, 에이전트가 다루는 내용의 전체 흐름이 바뀝니다.”라고 Singhvi는 설명합니다.

Databricks는 이런 파싱 중심 워크플로에서 GPT‑5.5로 가장 큰 향상을 확인했습니다. “5.4 같은 이전 모델은 모든 숫자를 정확히 파싱하지 못했지만, 5.5는 오래된 문서와 스캔된 PDF를 파싱하는 능력에서 단계적 도약을 이룬 것으로 보입니다.”라고 Singhvi는 말합니다.

팀은 또한 여러 단계 작업 전반의 오케스트레이션에서도 개선을 확인했습니다. “5.4에서 우리가 본 한 가지는 때때로 불필요한 검색 우회를 한다는 점이었고, 그 때문에 매우 비효율적인 경로가 생기곤 했습니다.”라고 Singhvi는 말합니다.

이전 모델과 비교해 GPT‑5.5는 관련 맥락을 검색하고 추가 감독 없이 복잡한 워크플로를 완료하는 데 더 신뢰할 수 있었습니다.

GPT‑5.5를 실제 운영 워크플로에 도입하기

이제 Databricks는 AI Unity Gateway를 통해 GPT‑5.5를 제공하며, 고객은 AgentBricks와 Agent Supervisor API로 구축한 워크플로 안에서 이 모델을 사용합니다. 이러한 시스템에서 GPT‑5.5는 전문화된 에이전트 전반에 걸쳐 파싱, 검색, 실행을 오케스트레이션합니다.

“많은 고객이 맞춤형 에이전트 워크플로를 위해 AgentBricks와 Agent Supervisor API를 사용하게 될 것입니다.”라고 Singhvi는 말합니다. “GPT‑5.5가 이런 워크플로를 감독하게 된다는 점이 정말 기대됩니다.”