Reconstrução da Notion com GPT‑5 libera fluxos autônomos de IA
Ao reconstruir seu sistema de agentes com GPT‑5, a Notion criou um workspace de IA que consegue raciocinar, agir e se adaptar entre fluxos de trabalho.
2 Weeks → 3 hours
Codex reduced development time
No fim de 2022, poucas semanas após ter acesso ao GPT‑4, a Notion já havia lançado um assistente de escrita, implementado recursos de perguntas e respostas em todo o workspace e integrado profundamente modelos da OpenAI às suas ferramentas de busca, conteúdo e planejamento.
Mas, conforme os modelos avançavam - e os usuários começaram a pedir que agentes concluíssem fluxos de trabalho inteiros - a equipe da Notion viu limites na arquitetura do sistema. O antigo padrão de instruir modelos a fazer tarefas isoladas estava limitando o teto do que era possível na plataforma. Agentes precisavam tomar decisões, orquestrar ferramentas e raciocinar diante de ambiguidades, e essa mudança exigia mais do que engenharia de prompts.
"Não queríamos adaptar o sistema. Precisávamos de uma arquitetura que realmente suporte como modelos de raciocínio funcionam."
Por dentro do lançamento
Reconstruindo para modelos de raciocínio, não tentando encaixá-los depois
Em vez de remendar a stack existente, a Notion a reconstruiu. Eles substituíram cadeias de prompts específicas por tarefa por um modelo central de raciocínio que coordena subagentes modulares. Esses agentes podem pesquisar no Notion, no Slack ou na web; adicionar ou editar bancos de dados; e sintetizar respostas usando as ferramentas que a tarefa exigir.
Com o lançamento do Notion 3.0, a IA não está apenas embutida nos fluxos de trabalho; agora ela pode executá-los. Os usuários atribuem uma tarefa ampla - por exemplo, compilar feedback de stakeholders - e o agente planeja, executa e retorna com um relatório. Essa mudança para agentes que escolhem como trabalhar significou projetar para autonomia do modelo desde o início.
Resultados em resumo
Testando o GPT‑5 com cargas de trabalho reais do produto
Para validar a mudança de arquitetura, a Notion avaliou o GPT‑5 em comparação com outros modelos de ponta usando tarefas reais de usuários.
As avaliações se basearam em feedback que a Notion já havia marcado como de alta prioridade, incluindo perguntas que surgiram no Modo Pesquisa, tarefas longas que exigiam raciocínio em várias etapas e conteúdo ambíguo ou desatualizado, em que o julgamento do modelo fazia diferença.
A equipe usou uma combinação de pontuação com LLM como juiz, fixtures de teste estruturadas e feedback rotulado por humanos.
Principais resultados:
- Melhora de 7,6% em relação a modelos de ponta em resultados alinhados ao feedback real de usuários
- 15% melhor desempenho em perguntas difíceis no Modo Pesquisa
- Melhora de 100%+ em tarefas estruturadas de várias etapas, como atualizações de prazos e pesquisa de concorrentes
- Único modelo a atingir o máximo nos benchmarks com entradas conflitantes ou desatualizadas
Essas avaliações ajudaram a Notion a identificar onde o GPT‑5 agregou valor - por exemplo, em raciocínio, ambiguidade, pesquisa - e onde um ajuste específico do ambiente melhoraria os resultados.
"Não escolhemos tarefas a dedo. Eram fluxos de trabalho de alta relevância do nosso produto....É aí que as diferenças entre modelos realmente aparecem."

Lições de liderança
Lições para equipes que desenvolvem com GPT‑5
A reconstrução da Notion não foi só sobre lançar o Notion 3.0. Foi sobre projetar um sistema capaz de sustentar novas capacidades de modelos e se adaptar conforme esses modelos ficam mais inteligentes. A abordagem oferece um roteiro claro para outras equipes que implantam IA agentiva em produção:
- Avalie o que importa. Use tarefas que seus usuários realmente fazem, não benchmarks sintéticos.
- Teste o que é difícil. O GPT‑5 brilha quando a informação é ambígua, desatualizada ou envolve várias etapas.
- Projete para autonomia. Se os agentes estão tomando decisões, seu sistema precisa dar espaço para eles raciocinarem e ferramentas para agirem.
- Clareza impulsiona o desempenho. Até os melhores modelos ficam aquém sem descrições claras de ferramentas e um bom design de interface.
- Reconstruir é melhor do que remendar. Se seu sistema foi criado para modelos de completion, ele talvez não escale para agentes.
"Já estamos vendo retorno da reconstrução....Se o próximo modelo liberar algo novo, faremos o que for necessário para dar suporte a isso."


