Salta al contingut principal
OpenAI

15 de maig del 2026

Databricks porta GPT‑5.5 als fluxos de treball d’agents

GPT‑5.5 va establir un nou estat de l’art a OfficeQA Pro, el benchmark de Databricks per a tasques complexes d’agents empresarials.

Imatge principal del cas de client de Databricks.
Mida de l'empresa: Empresa
Regió: Amèrica del Nord
Indústria: Tecnologia
Productes: Codex

50%

Precisió al benchmark OfficeQA Pro (estat de l’art)

46%

Reducció d’errors al benchmark OfficeQA Pro vs. GPT-5.4

S'està carregant…

Databricks posa GPT‑5.5 a disposició dels fluxos de treball d’agents dels clients després que el model establís un nou estat de l’art a OfficeQA Pro, el benchmark de l’empresa per a tasques complexes de documents empresarials.

OfficeQA Pro avalua com els models gestionen l’anàlisi, la recuperació i el raonament fonamentat en fluxos de treball amb PDF escanejats, fitxers heretats i documents de context llarg, tasques que sovint trenquen els sistemes d’agents en producció.

En l’entorn agent-harness, GPT‑5.5 va reduir els errors un 46% en comparació amb GPT‑5.4 i es va convertir en el primer model a superar el 50% de precisió a OfficeQA Pro.

«Codex amb 5.5 és ara l’estat de l’art entre tots els agents i models disponibles.»
–Arnav Singhvi, enginyer de recerca

Rendiment SOTA a OfficeQA Pro

OfficeQA Pro inclou una gran quantitat de documents empresarials escanejats o heretats, on petits errors d’extracció durant l’anàlisi poden propagar-se en cascada per la resta del flux de treball. «Quan no pots extreure una xifra o un número determinat, això canvia tota la trajectòria del que processa l’agent», explica Singhvi.

Databricks va veure els guanys més grans de GPT‑5.5 en aquests fluxos de treball intensius en anàlisi. «Els models anteriors com 5.4 no podien analitzar correctament totes les xifres, però sembla que 5.5 aporta un salt qualitatiu en l’anàlisi de documents antics i PDF escanejats», diu Singhvi.

L’equip també va observar millores en l’orquestració de tasques de diversos passos. «Una cosa que vam veure amb 5.4 és que de vegades feia aquestes desviacions de cerca innecessàries, i això provocava trajectòries molt ineficients», diu Singhvi.

En comparació amb models anteriors, GPT‑5.5 era més fiable a l’hora de recuperar context rellevant i completar fluxos de treball complexos sense supervisió addicional.

Portar GPT‑5.5 als fluxos de treball en producció

Databricks ara posa GPT‑5.5 a disposició a través d’AI Unity Gateway, on els clients fan servir el model dins de fluxos de treball creats amb AgentBricks i l’API Agent Supervisor. En aquests sistemes, GPT‑5.5 orquestra l’anàlisi, la recuperació i l’execució entre agents especialitzats.

«Veurem molts clients fent servir AgentBricks i l’API Agent Supervisor per a fluxos de treball d’agents personalitzats», diu Singhvi. «És realment emocionant que GPT‑5.5 supervisi aquests fluxos de treball.»

«GPT-5.5 ha estat excel·lent pel que fa al salt de coneixement. És un canvi de magnitud en la manera com fem el treball del coneixement».
—Arnav Singhvi, enginyer de recerca

Uneix-te a la nova era del treball

Més d’un milió d’empreses d’arreu del món estan aconseguint resultats significatius amb OpenAI.