Pular para o conteúdo principal
OpenAI

9 de junho de 2026

Reconstrução da Notion com GPT‑5 libera fluxos autônomos de IA

Ao reconstruir seu sistema de agentes com GPT‑5, a Notion criou um workspace de IA que consegue raciocinar, agir e se adaptar entre fluxos de trabalho.

Tamanho da empresa: Enterprise
Região: América do Norte
Setor: Software e Engenharia, Produtividade
Produtos: Codex

2 Weeks → 3 hours

Codex reduced development time

Carregando…

No fim de 2022, poucas semanas após ter acesso ao GPT‑4, a Notion já havia lançado um assistente de escrita, implementado recursos de perguntas e respostas em todo o workspace e integrado profundamente modelos da OpenAI às suas ferramentas de busca, conteúdo e planejamento.

Mas, conforme os modelos avançavam - e os usuários começaram a pedir que agentes concluíssem fluxos de trabalho inteiros - a equipe da Notion viu limites na arquitetura do sistema. O antigo padrão de instruir modelos a fazer tarefas isoladas estava limitando o teto do que era possível na plataforma. Agentes precisavam tomar decisões, orquestrar ferramentas e raciocinar diante de ambiguidades, e essa mudança exigia mais do que engenharia de prompts.

"Não queríamos adaptar o sistema. Precisávamos de uma arquitetura que realmente suporte como modelos de raciocínio funcionam."
Sarah Sachs, líder de Modelagem de IA na Notion

Por dentro do lançamento

Reconstruindo para modelos de raciocínio, não tentando encaixá-los depois

Em vez de remendar a stack existente, a Notion a reconstruiu. Eles substituíram cadeias de prompts específicas por tarefa por um modelo central de raciocínio que coordena subagentes modulares. Esses agentes podem pesquisar no Notion, no Slack ou na web; adicionar ou editar bancos de dados; e sintetizar respostas usando as ferramentas que a tarefa exigir.

Com o lançamento do Notion 3.0, a IA não está apenas embutida nos fluxos de trabalho; agora ela pode executá-los. Os usuários atribuem uma tarefa ampla - por exemplo, compilar feedback de stakeholders - e o agente planeja, executa e retorna com um relatório. Essa mudança para agentes que escolhem como trabalhar significou projetar para autonomia do modelo desde o início.

Resultados em resumo

Testando o GPT‑5 com cargas de trabalho reais do produto

Para validar a mudança de arquitetura, a Notion avaliou o GPT‑5 em comparação com outros modelos de ponta usando tarefas reais de usuários.

As avaliações se basearam em feedback que a Notion já havia marcado como de alta prioridade, incluindo perguntas que surgiram no Modo Pesquisa, tarefas longas que exigiam raciocínio em várias etapas e conteúdo ambíguo ou desatualizado, em que o julgamento do modelo fazia diferença.

A equipe usou uma combinação de pontuação com LLM como juiz, fixtures de teste estruturadas e feedback rotulado por humanos.

Principais resultados:

  • Melhora de 7,6% em relação a modelos de ponta em resultados alinhados ao feedback real de usuários
  • 15% melhor desempenho em perguntas difíceis no Modo Pesquisa
  • Melhora de 100%+ em tarefas estruturadas de várias etapas, como atualizações de prazos e pesquisa de concorrentes
  • Único modelo a atingir o máximo nos benchmarks com entradas conflitantes ou desatualizadas

Essas avaliações ajudaram a Notion a identificar onde o GPT‑5 agregou valor - por exemplo, em raciocínio, ambiguidade, pesquisa - e onde um ajuste específico do ambiente melhoraria os resultados.

"Não escolhemos tarefas a dedo. Eram fluxos de trabalho de alta relevância do nosso produto....É aí que as diferenças entre modelos realmente aparecem."
—Sarah Sachs, líder de Modelagem de IA na Notion
Um grupo de nove pessoas senta e sorri ao redor de uma mesa de reunião em uma sala iluminada, algumas com notebooks e fazendo o sinal de paz. Uma tela grande à direita mostra uma chamada de vídeo com três participantes remotos. Todos parecem relaxados e felizes, sugerindo uma reunião híbrida e colaborativa da equipe.

Lições de liderança

Lições para equipes que desenvolvem com GPT‑5

A reconstrução da Notion não foi só sobre lançar o Notion 3.0. Foi sobre projetar um sistema capaz de sustentar novas capacidades de modelos e se adaptar conforme esses modelos ficam mais inteligentes. A abordagem oferece um roteiro claro para outras equipes que implantam IA agentiva em produção:

  • Avalie o que importa. Use tarefas que seus usuários realmente fazem, não benchmarks sintéticos.
  • Teste o que é difícil. O GPT‑5 brilha quando a informação é ambígua, desatualizada ou envolve várias etapas.
  • Projete para autonomia. Se os agentes estão tomando decisões, seu sistema precisa dar espaço para eles raciocinarem e ferramentas para agirem.
  • Clareza impulsiona o desempenho. Até os melhores modelos ficam aquém sem descrições claras de ferramentas e um bom design de interface.
  • Reconstruir é melhor do que remendar. Se seu sistema foi criado para modelos de completion, ele talvez não escale para agentes.
"Já estamos vendo retorno da reconstrução....Se o próximo modelo liberar algo novo, faremos o que for necessário para dar suporte a isso."
—Sarah Sachs, líder de Modelagem de IA na Notion

Entre na nova era do trabalho

Mais de 1 milhão de empresas em todo o mundo estão alcançando resultados significativos com a OpenAI.