15 de mayo de 2026

Databricks lleva GPT‑5.5 a flujos de agentes empresariales

GPT‑5.5 estableció un nuevo estándar de vanguardia en OfficeQA Pro, las pruebas de referencia de Databricks para tareas complejas de agentes empresariales.

Contáctanos

Imagen principal del caso de cliente de Databricks.

Tamaño de la empresa: Empresa establecida

Región: Norteamérica

Sector: Tecnología

Productos: Codex

50%

Precisión en las pruebas de referencia de OfficeQA Pro (estándar de vanguardia)

46%

Reducción de errores en las pruebas de referencia de OfficeQA Pro frente a GPT-5.4

Cargando…

Databricks está poniendo GPT‑5.5 a disposición de los flujos de trabajo de agentes de sus clientes después de que el modelo estableciera un nuevo estándar de vanguardia (SOTA) en OfficeQA Pro, las pruebas de referencia de la empresa para tareas complejas con documentos empresariales.

OfficeQA Pro evalúa cómo los modelos gestionan el análisis, la recuperación y el razonamiento fundamentado en flujos de trabajo con PDF escaneados, archivos heredados y documentos de contexto largo, tareas que con frecuencia rompen los sistemas de agentes en producción.

En el entorno agent-harness, GPT‑5.5 redujo los errores un 46 % en comparación con GPT‑5.4 y se convirtió en el primer modelo en superar el 50 % de precisión en OfficeQA Pro.

«Codex con 5.5 es ahora el estándar de vanguardia entre todos los agentes y modelos que existen».

-Arnav Singhvi, ingeniero de investigación

Rendimiento del SOTA en OfficeQA Pro

OfficeQA Pro incluye grandes cantidades de documentos empresariales escaneados o heredados, donde pequeños errores de extracción durante el análisis pueden propagarse en cascada por el resto del flujo de trabajo. «En cuanto no puedes extraer un determinado dígito o número, eso cambia toda la trayectoria de aquello con lo que trabaja el agente», explica Singhvi.

Databricks observó las mayores mejoras de GPT‑5.5 en estos flujos de trabajo con gran carga de análisis. «Los modelos anteriores, como 5.4, no podían analizar correctamente todos los dígitos, pero parece que 5.5 aporta una mejora radical en el análisis de documentos antiguos y PDF escaneados», afirma Singhvi.

El equipo también observó mejoras en la orquestación de tareas de varios pasos. «Una cosa que vimos con 5.4 es que a veces se desviaba en búsquedas innecesarias y eso provocaba trayectorias muy ineficientes», señala Singhvi.

En comparación con modelos anteriores, GPT‑5.5 fue más fiable a la hora de recuperar contexto relevante y completar flujos de trabajo complejos sin supervisión adicional.

Llevar GPT‑5.5 a flujos de trabajo en producción

Databricks ya ofrece GPT‑5.5 a través de AI Unity Gateway, donde los clientes usan el modelo dentro de flujos de trabajo creados con AgentBricks y la API de Agent Supervisor. En estos sistemas, GPT‑5.5 orquesta el análisis, la recuperación y la ejecución entre agentes especializados.

«Vamos a ver a muchos clientes usar AgentBricks y la API de Agent Supervisor para flujos de trabajo de agentes personalizados», asegura Singhvi. «Es muy interesante que GPT‑5.5 supervise estos flujos de trabajo».

«GPT-5.5 ha sido excelente en términos de mejora del conocimiento. Para nosotros, supone un cambio radical en lo que respecta al trabajo intelectual».

-Arnav Singhvi, ingeniero de investigación

Únete a la nueva era del trabajo

Más de un millón de empresas en todo el mundo logran resultados significativos con OpenAI.

Contactar con un experto

Sigue leyendo

How agents are transforming work

Empresa25 jun 2026

OpenAI and Broadcom Jalapeño inference chip card image

OpenAI and Broadcom unveil LLM-optimized inference chip

Empresa24 jun 2026

Helping build shared standards for advanced AI - card image

Ayudar a crear estándares compartidos para IA avanzada

Asuntos internacionales23 jun 2026