Databricks porta GPT‑5.5 als fluxos de treball d’agents
GPT‑5.5 va establir un nou estat de l’art a OfficeQA Pro, el benchmark de Databricks per a tasques complexes d’agents empresarials.

50%
Precisió al benchmark OfficeQA Pro (estat de l’art)
46%
Reducció d’errors al benchmark OfficeQA Pro vs. GPT-5.4
Databricks posa GPT‑5.5 a disposició dels fluxos de treball d’agents dels clients després que el model establís un nou estat de l’art a OfficeQA Pro, el benchmark de l’empresa per a tasques complexes de documents empresarials.
OfficeQA Pro avalua com els models gestionen l’anàlisi, la recuperació i el raonament fonamentat en fluxos de treball amb PDF escanejats, fitxers heretats i documents de context llarg, tasques que sovint trenquen els sistemes d’agents en producció.
En l’entorn agent-harness, GPT‑5.5 va reduir els errors un 46% en comparació amb GPT‑5.4 i es va convertir en el primer model a superar el 50% de precisió a OfficeQA Pro.
«Codex amb 5.5 és ara l’estat de l’art entre tots els agents i models disponibles.»
OfficeQA Pro inclou una gran quantitat de documents empresarials escanejats o heretats, on petits errors d’extracció durant l’anàlisi poden propagar-se en cascada per la resta del flux de treball. «Quan no pots extreure una xifra o un número determinat, això canvia tota la trajectòria del que processa l’agent», explica Singhvi.
Databricks va veure els guanys més grans de GPT‑5.5 en aquests fluxos de treball intensius en anàlisi. «Els models anteriors com 5.4 no podien analitzar correctament totes les xifres, però sembla que 5.5 aporta un salt qualitatiu en l’anàlisi de documents antics i PDF escanejats», diu Singhvi.
L’equip també va observar millores en l’orquestració de tasques de diversos passos. «Una cosa que vam veure amb 5.4 és que de vegades feia aquestes desviacions de cerca innecessàries, i això provocava trajectòries molt ineficients», diu Singhvi.
En comparació amb models anteriors, GPT‑5.5 era més fiable a l’hora de recuperar context rellevant i completar fluxos de treball complexos sense supervisió addicional.
Databricks ara posa GPT‑5.5 a disposició a través d’AI Unity Gateway, on els clients fan servir el model dins de fluxos de treball creats amb AgentBricks i l’API Agent Supervisor. En aquests sistemes, GPT‑5.5 orquestra l’anàlisi, la recuperació i l’execució entre agents especialitzats.
«Veurem molts clients fent servir AgentBricks i l’API Agent Supervisor per a fluxos de treball d’agents personalitzats», diu Singhvi. «És realment emocionant que GPT‑5.5 supervisi aquests fluxos de treball.»
«GPT-5.5 ha estat excel·lent pel que fa al salt de coneixement. És un canvi de magnitud en la manera com fem el treball del coneixement».


