15 de maig del 2026

Databricks porta GPT‑5.5 als fluxos de treball d’agents

GPT‑5.5 va establir un nou estat de l’art a OfficeQA Pro, el benchmark de Databricks per a tasques complexes d’agents empresarials.

Contacta amb vendes

Imatge principal del cas de client de Databricks.

Mida de l'empresa: Empresa

Regió: Amèrica del Nord

Indústria: Tecnologia

Productes: Codex

50%

Precisió al benchmark OfficeQA Pro (estat de l’art)

46%

Reducció d’errors al benchmark OfficeQA Pro vs. GPT-5.4

S'està carregant…

Databricks posa GPT‑5.5 a disposició dels fluxos de treball d’agents dels clients després que el model establís un nou estat de l’art a OfficeQA Pro, el benchmark de l’empresa per a tasques complexes de documents empresarials.

OfficeQA Pro avalua com els models gestionen l’anàlisi, la recuperació i el raonament fonamentat en fluxos de treball amb PDF escanejats, fitxers heretats i documents de context llarg, tasques que sovint trenquen els sistemes d’agents en producció.

En l’entorn agent-harness, GPT‑5.5 va reduir els errors un 46% en comparació amb GPT‑5.4 i es va convertir en el primer model a superar el 50% de precisió a OfficeQA Pro.

«Codex amb 5.5 és ara l’estat de l’art entre tots els agents i models disponibles.»

–Arnav Singhvi, enginyer de recerca

Rendiment SOTA a OfficeQA Pro

OfficeQA Pro inclou una gran quantitat de documents empresarials escanejats o heretats, on petits errors d’extracció durant l’anàlisi poden propagar-se en cascada per la resta del flux de treball. «Quan no pots extreure una xifra o un número determinat, això canvia tota la trajectòria del que processa l’agent», explica Singhvi.

Databricks va veure els guanys més grans de GPT‑5.5 en aquests fluxos de treball intensius en anàlisi. «Els models anteriors com 5.4 no podien analitzar correctament totes les xifres, però sembla que 5.5 aporta un salt qualitatiu en l’anàlisi de documents antics i PDF escanejats», diu Singhvi.

L’equip també va observar millores en l’orquestració de tasques de diversos passos. «Una cosa que vam veure amb 5.4 és que de vegades feia aquestes desviacions de cerca innecessàries, i això provocava trajectòries molt ineficients», diu Singhvi.

En comparació amb models anteriors, GPT‑5.5 era més fiable a l’hora de recuperar context rellevant i completar fluxos de treball complexos sense supervisió addicional.

Portar GPT‑5.5 als fluxos de treball en producció

Databricks ara posa GPT‑5.5 a disposició a través d’AI Unity Gateway, on els clients fan servir el model dins de fluxos de treball creats amb AgentBricks i l’API Agent Supervisor. En aquests sistemes, GPT‑5.5 orquestra l’anàlisi, la recuperació i l’execució entre agents especialitzats.

«Veurem molts clients fent servir AgentBricks i l’API Agent Supervisor per a fluxos de treball d’agents personalitzats», diu Singhvi. «És realment emocionant que GPT‑5.5 supervisi aquests fluxos de treball.»

«GPT-5.5 ha estat excel·lent pel que fa al salt de coneixement. És un canvi de magnitud en la manera com fem el treball del coneixement».

—Arnav Singhvi, enginyer de recerca

Uneix-te a la nova era del treball

Més d’un milió d’empreses d’arreu del món estan aconseguint resultats significatius amb OpenAI.

Contacta amb vendes

Continuar llegint

How agents are transforming work

Empresa25 de juny del 2026

OpenAI and Broadcom Jalapeño inference chip card image

OpenAI and Broadcom unveil LLM-optimized inference chip

Empresa24 de juny del 2026

Helping build shared standards for advanced AI

Afers globals23 de juny del 2026