Ir al contenido principal
OpenAI

9 de junio de 2026

El rediseño de GPT‑5 en Notion impulsa flujos autónomos con IA

Al reconstruir su sistema de agentes con GPT‑5, Notion creó un área de trabajo de IA que puede razonar, actuar y adaptarse a distintos flujos de trabajo.

Tamaño de la empresa: Empresa establecida
Región: Norteamérica
Sector: Software e ingeniería, Productividad
Productos: Codex

2 Weeks → 3 hours

Codex reduced development time

Cargando…

A finales de 2022, a las pocas semanas de obtener acceso a GPT‑4, Notion ya había lanzado un asistente de redacción, implementado funciones de preguntas y respuestas para toda el área de trabajo e integrado profundamente los modelos de OpenAI en sus herramientas de búsqueda, contenido y planificación.

Pero, con el avance de los modelos —y a medida que los usuarios empezaron a pedir a los agentes que completaran flujos de trabajo completos—, el equipo de Notion detectó límites en la arquitectura de su sistema. El enfoque anterior, basado en dar instrucciones para tareas aisladas, limitaba lo que su plataforma podía lograr. Los agentes necesitaban tomar decisiones, orquestar herramientas y razonar ante situaciones ambiguas, y ese cambio exigía algo más que ingeniería de prompts.

«No queríamos adaptar el sistema. Necesitábamos una arquitectura que realmente respondiera a la forma en que funcionan los modelos de razonamiento».
Sarah Sachs, directora de modelos de IA en Notion

Dentro del lanzamiento

Reconstruir para los modelos de razonamiento, en lugar de adaptar lo existente a ellos

En lugar de ajustar su stack existente, Notion lo reconstruyó. Sustituyó las cadenas de prompts para tareas específicas por un modelo de razonamiento central que coordina subagentes modulares. Estos agentes pueden buscar en Notion, Slack o la web; agregar contenido a bases de datos o editarlas; y generar respuestas con las herramientas que requiera cada tarea.

Con el lanzamiento de Notion 3.0, la IA ya no solo forma parte de los flujos de trabajo: ahora puede ejecutarlos. Los usuarios asignan una tarea compleja, por ejemplo, recopilar comentarios de las personas interesadas, y el agente planifica, ejecuta y presenta los resultados. El paso hacia agentes que deciden cómo trabajar obligó a diseñar el sistema desde el principio pensando en la autonomía del modelo.

Resultados de un vistazo

Pruebas de GPT‑5 con cargas de trabajo reales

Para validar el cambio de arquitectura, Notion evaluó GPT‑5 frente a otros modelos de vanguardia a partir de tareas reales de usuarios.

Las evaluaciones se basaron en comentarios que Notion ya había marcado como de alta prioridad, incluidas preguntas del modo de investigación, tareas extensas que requerían razonamiento en varios pasos y contenido ambiguo o desactualizado, donde el criterio del modelo resultaba clave.

El equipo utilizó una combinación de puntuación basada en un LLM como juez, escenarios de prueba estructurados y comentarios etiquetados por humanos.

Resultados clave:

  • Mejora del 7,6 % frente a modelos de vanguardia en resultados alineados con los comentarios reales de los usuarios
  • Mejoró el rendimiento en un 15 % en preguntas complejas del modo de investigación
  • Mejora de más del 100 % en tareas estructuradas y de varios pasos, como la actualización de fechas límite e investigación de la competencia
  • El único modelo que satura por completo las pruebas de referencia con entradas contradictorias o desactualizadas

Estas evaluaciones permitieron a Notion identificar en qué casos GPT‑5 aportaba más valor —por ejemplo, en tareas de razonamiento, gestión de la ambigüedad e investigación— y en cuáles era necesario ajustar el entorno para mejorar los resultados.

«No escogimos las tareas. Eran flujos de trabajo clave de nuestro producto; ahí es donde realmente se notan las diferencias entre los modelos».
—Sarah Sachs, directora de modelos de IA en Notion
Nueve personas están sentadas y sonríen alrededor de una mesa de conferencias en una sala de reuniones luminosa de una oficina. Algunas sostienen portátiles y hacen el gesto de la paz. Una pantalla grande a la derecha muestra una videollamada con tres participantes remotos. Todos se ven relajados y contentos, lo que sugiere una reunión híbrida de equipo colaborativa.

Lecciones de liderazgo

Lecciones para equipos que desarrollan con GPT‑5

La reconstrucción de Notion no se limitó al lanzamiento de Notion 3.0. Buscó crear un sistema capaz de respaldar las nuevas capacidades de los modelos y adaptarse a medida que estos se vuelven más avanzados. Su enfoque ofrece una estrategia clara para otros equipos que implementan IA con agentes en producción:

  • Evalúa lo que realmente importa. Usa tareas reales de tus usuarios, no pruebas de referencia sintéticas.
  • Pon a prueba los casos complejos. GPT‑5 destaca cuando la información es ambigua, está desactualizada o requiere varios pasos.
  • Diseña para la autonomía. Si los agentes toman decisiones, tu sistema debe darles espacio para razonar y herramientas para ejecutar.
  • La claridad impulsa el rendimiento. Incluso los mejores modelos se quedan cortos si no hay descripciones claras de las herramientas y un buen diseño de la interfaz.
  • Es mejor reconstruir que seguir ajustando sobre lo existente. Si tu sistema se diseñó para modelos de completado, es probable que no funcione bien con agentes.
«Ya estamos viendo resultados de esta reconstrucción. Si el próximo modelo trae nuevas capacidades, haremos lo necesario para aprovecharlas».
—Sarah Sachs, directora de modelos de IA en Notion

Únete a la nueva era del trabajo

Más de un millón de empresas en todo el mundo logran resultados significativos con OpenAI.