Pular para o conteúdo principal
OpenAI

27 de maio de 2026

Engenharia

Criando agentes de IA tributária que se autoaperfeiçoam com Codex

Por membros da equipe técnica: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)

Carregando…

Como a Thrive Holdings e a OpenAI codesenvolveram o Tax AI para contadores da Crete ao unir a expertise de profissionais a um ciclo orientado pelo Codex

Sistemas do mundo real se comportam de forma diferente em produção do que em laboratório, falhando de maneiras difíceis de antecipar antes da implantação. As equipes muitas vezes descobrem essas falhas após o lançamento e então passam semanas inspecionando casos de borda, ajustando prompts e traduzindo feedback de produção em melhorias duradouras no produto. O ciclo de feedback é manual e lento, e só melhora quando um engenheiro o faz avançar. Mas hoje, com uma infraestrutura de avaliação cuidadosamente projetada, acesso direto a profissionais e ambientes do mundo real, e as capacidades agentivas de fronteira do Codex, você pode construir agentes que se autoaperfeiçoam.

Neste post, vamos detalhar como usamos o Codex para construir esse tipo de agente. Nos últimos seis meses, engenheiros e pesquisadores destacados em campo da OpenAI, junto com engenheiros da Thrive Holdings, colaboraram para construir o Tax AI ao lado e para a rede de mais de 30 empresas de contabilidade da Crete(abre em uma nova janela), ajudando a preparar declarações de imposto cada vez mais complexas. Em vez de depender de engenheiros para encontrar e corrigir cada falha, o Tax AI usa o Codex para transformar o uso em produção em sinais estruturados que alimentam a melhoria autônoma.

Os profissionais da Crete preparam dezenas de milhares de declarações de imposto a cada temporada, o que exige trabalhar com milhões de documentos subjacentes. Para declarações de média a alta complexidade, só a entrada de dados pode levar oito horas por declaração, muitas vezes envolvendo fontes de dados desorganizadas, documentos do ano anterior e extração e cálculo manuais. Eles nos apontaram a preparação de impostos como um gargalo significativo durante o período mais intenso da temporada fiscal.

Para resolver esse problema, o Tax AI processou 7.000 declarações de imposto nas empresas da Crete que participaram do piloto nesta temporada fiscal. O sistema automatiza grande parte do processo demorado de preparar declarações 1040 e 1041, mas ainda mais convincente do que os ganhos de eficiência é o fato de que o próprio sistema é mensuravelmente melhor do que a versão implantada pela primeira vez há três meses.

Autoaperfeiçoamento mensurável

No Tax AI, os profissionais fazem upload de arquivos de origem junto com quaisquer observações específicas do cliente. O Tax AI então cria um envio para o mecanismo tributário, pronto para revisão. Ele economiza aos profissionais cerca de um terço do tempo de preparação de impostos, redige declarações com até 97% de precisão e aumenta a taxa de processamento em cerca de 50%, criando mais espaço para passarem tempo com clientes. 

Podemos quantificar essa melhoria entendendo com que precisão o Tax AI consegue concluir uma declaração sem precisar de correção posterior. Medimos a precisão verificando qual parcela das declarações atinge 75%, 90% ou 100% de preenchimento correto dos campos. No lançamento, apenas um quarto das declarações atingia 75% de preenchimento correto dos campos, mas em seis semanas 86% alcançaram essa marca. O sistema mostrou crescimento ainda mais rápido nos níveis de 90% e 100% de preenchimento correto dos campos. Esses limiares nos dão uma visão prática de quanto acompanhamento profissional diferentes declarações ainda exigem. 

No início, o Tax AI lidava com trabalhos mais simples, como W-2s e 1099s. À medida que a temporada avançava, ele passou a lidar com declarações mais complexas com K-1s, anexos e casos de borda mais difíceis. Cada nova capacidade economizou mais tempo por declaração do que a anterior porque as tarefas assumidas eram mais difíceis e mais demoradas de fazer manualmente. Continuamos vendo progresso contínuo hoje.

A seguir, vamos mostrar como nossas equipes codesenvolveram o Tax AI para que ele se autoaperfeiçoe com base em três pilares críticos: 1) feedback de profissionais especialistas, 2) rastros de produção (um histórico estruturado das entradas até a saída final) e 3) um ciclo de iteração orientado pelo Codex com base em evals sob medida para permitir desenvolvimento contínuo e mais rápido do produto. Esperamos que nossa experiência seja útil para outros construtores em domínios nos quais a expertise de profissionais é fundamental para moldar a qualidade do sistema mais amplo e dos dados que passam por ele.

À medida que o Tax AI se expandiu para declarações mais complexas, a parcela de declarações avaliadas que atingiram 75%, 90% e conclusão total continuou a subir ao longo da temporada fiscal.

O problema

À medida que avançávamos para partes mais difíceis da preparação de impostos (K-1s, anexos de imóveis para locação e formulários fiscais em que os valores precisavam ser reconciliados entre vários arquivos de origem), ficou óbvio que o verdadeiro desafio era se o produto conseguiria tornar falhas complexas de produção visíveis, compreensíveis e acionáveis.

Nos primeiros dias do produto, a maior parte da correção era manual. Os profissionais podiam corrigir erros do sistema, mas o produto não capturava o contexto completo: um valor alterado antes do envio podia refletir uma falha real de extração, um problema de mapeamento, falta de suporte do produto ou ruído esperado do fluxo de trabalho. Separar esses casos ainda exigia acompanhamento da equipe de engenharia. Os engenheiros podiam usar agentes de codificação, mas o sistema ainda não havia sido projetado para usar IA de forma significativa dentro de um ciclo de melhoria. Não tínhamos o sinal para identificar a meta certa a perseguir.

Nossa abordagem: um ciclo em três partes

Isso nos levou a projetar o sistema em torno de três pilares:

  1. Fique próximo dos profissionais: As pessoas que fazem o trabalho precisam orientar o que o produto aprende. Sua intuição e compreensão revelam quais erros importam e ajudam a informar em quais partes do fluxo de trabalho vale a pena focar em seguida.
  2. Construa o produto para que a produção gere evidências: O produto precisa capturar mais do que apenas entradas e saídas; precisa capturar o caminho completo do material de origem aos campos extraídos e sua proveniência, até o envio downstream e a correção por especialistas.
  3. Crie um ciclo de melhoria orientado pelo Codex: Quando os problemas de produção se tornam visíveis e estruturados, eles podem virar descobertas, evals sob medida e tarefas de engenharia delimitadas. O Codex pode então ajudar a investigar, propor mudanças, validá-las com evals direcionadas e de regressão e fazer o produto avançar mais rápido do que um ciclo de iteração puramente manual. 

O exemplo de imóveis para locação abaixo mostra como esse ciclo funciona na prática, guiando você por como uma correção do profissional se torna uma descoberta estruturada, depois um alvo de avaliação e, por fim, uma tarefa de engenharia delimitada para o Codex.

Exemplo de imóvel para locação

A renda de imóvel para locação é reportada no Schedule E de uma declaração individual de imposto. Do ponto de vista de engenharia, a tarefa de extraí-la é simples de descrever, mas difícil de executar bem. O sistema precisa ler material de origem desorganizado (anotações manuscritas, e-mails, planilhas e outros arquivos do cliente), extrair os campos de imóvel para locação que consegue mapear com confiança para o mecanismo tributário e preservar evidência suficiente para que um profissional possa aprovar ou corrigir o resultado. O exemplo simplificado abaixo mostra como esses arquivos de origem e saídas extraídas podem parecer.

""

Um pacote de origem de imóvel para locação é normalizado em campos citados antes de ser mapeado para conceitos downstream do mecanismo tributário.

1. Uma correção do profissional revela uma falha

Uma diferença entre o valor previsto pelo agente e o valor real da declaração de imposto enviada pode refletir uma falha real de extração, mas também pode ser uma preferência do profissional, um valor trazido da declaração do ano anterior no mecanismo tributário ou um valor introduzido ou alterado em outra parte do fluxo de declaração. Os profissionais nos ajudaram a distinguir esses casos para que pudéssemos identificar quais ações exigiam uma correção do profissional ou bloqueavam um envio.

Como podíamos ver essas correções em detalhe, transformamos o processo de revisão de uma etapa terminal, pós-falha, em um ciclo contínuo de aprendizado. Projetamos o fluxo de trabalho para capturar ações de especialistas como dados estruturados. Agora, cada intervenção alimenta o ciclo de melhoria do produto ao registrar exatamente o que o Tax AI propôs, o que o profissional modificou e o que acabou entrando na declaração enviada.

2. Rastros do produto transformam correções em evals

Para um fluxo complexo como o de imóveis para locação, o sistema precisa preservar o que acontece entre os arquivos de origem e a declaração enviada. Ao longo desse caminho, os documentos são organizados, divididos e classificados; os campos de imóveis para locação são extraídos com citações de volta ao material de origem; esses valores são mapeados para o mecanismo tributário; e os profissionais ainda podem corrigi-los antes do envio. Esses rastros em nível de produto tornam possível investigar onde ocorreu uma falha. Para transformar correções de profissionais em alvos de avaliação úteis, o sistema as processa em três etapas:

  • Capturar a diferença: A saída do Tax AI é comparada com a declaração enviada para produzir linhas de revisão em nível de campo que capturam o valor esperado, o valor previsto e se a diferença parece acionável.
  • Agrupar falhas relacionadas: Linhas de revisão semelhantes são agrupadas para separar falhas recorrentes do produto do ruído esperado do fluxo de trabalho. Por exemplo, correções repetidas de profissionais podem mostrar que o Tax AI frequentemente deixa passar campos de “dias de locação a valor justo”, lida mal com “outras despesas” ou confunde vários imóveis para locação no mesmo pacote de origem.
  • Transformar padrões repetidos em alvos de avaliação: Depois de revisadas e medidas, descobertas repetidas se tornam alvos de avaliação claros para o Codex melhorar.
""

Linhas de revisão de imóveis para locação separam falhas recorrentes do produto do ruído esperado e então transformam os casos acionáveis em alvos de avaliação que dão ao Codex uma meta a perseguir.

3. A descoberta se torna uma meta a ser alcançada pelo Codex

O terceiro pilar é criar um ciclo de engenharia capaz de agir sobre essas novas evals. É aqui que o Codex se torna central.

Suponha que nosso pipeline de eval sinalize que o Tax AI consistentemente deixa de preencher o campo "dias de locação a valor justo", enquanto os profissionais o preenchem de forma confiável. Como essa descoberta já foi empacotada em um conjunto de avaliação direcionado, com pacotes de origem representativos e saídas esperadas, o Codex pode investigar a causa raiz diretamente dentro do arcabouço do produto.

O Codex não está trabalhando apenas com uma saída final abaixo do ideal. Ele inspeciona juntos o rastro, a avaliação, o repositório e as skills:

  • Investigar o pipeline: Inspecionar pacotes de origem, schemas de extração, comportamento do mapeador e caminhos de código para determinar se o problema é um campo não suportado, um padrão de extração perdido, um problema de seleção de origem, uma lacuna no mapeador ou um problema no avaliador.
  • Implementar correções direcionadas: Estender o schema de extração, melhorar a seleção de origem para documentos de imóveis para locação, atualizar o mapeador do mecanismo tributário ou refinar o avaliador se o ruído esperado do fluxo de trabalho estiver sendo contado como falha.
  • Validar e propor: Executar novamente a avaliação direcionada, rodar suítes mais amplas de regressão e apresentar uma pull request candidata para revisão de engenharia.
  • Fechar o ciclo: Transformar uma correção recorrente do profissional em uma tarefa de engenharia mensurável. Se a evidência for ambígua ou não puder ser automatizada com segurança, o caso volta para a equipe de produto em vez de ser forçado pelo ciclo.
""

O ciclo completo de autoaperfeiçoamento: rastros de produção revelam correções repetidas em nível de campo, que se tornam sinais de falha que o Codex pode inspecionar junto com o rastro, evals, repositório e skills. Padrões acionáveis se tornam evals delimitadas e possíveis mudanças no produto; casos ambíguos voltam para engenheiros revisarem. Cada melhoria lançada cria novas evidências de produção para o próximo ciclo.

Como usar o Codex para construir esse ciclo

O exemplo de imóvel para locação é emblemático de um padrão reutilizável mais amplo: usar artefatos e rastros de produção para melhorar as capacidades de um agente. Dadas descobertas revisadas a partir de dados de produção, rastros de origem, saída esperada do mecanismo tributário, exemplos de código relevantes e comandos de avaliação como um conjunto de entradas, o Codex pode melhorar materialmente o desempenho e a precisão ao longo de semanas e meses. Isso se baseia nos princípios descritos em nosso trabalho sobre engenharia de harness e Symphony, que explicam como tornar tarefas legíveis para o Codex, fornecer contexto e ferramentas delimitados e manter validação e revisão humana como parte do ambiente. 

Essa evidência não se torna automaticamente uma tarefa para o Codex. Uma correção do profissional pode refletir uma falha de extração, um problema de mapeamento, um comportamento de produto não suportado, julgamento tributário ou ruído esperado do fluxo de trabalho. Somente depois que diferenças repetidas forem revisadas e agrupadas em uma descoberta acionável o sistema as transforma em uma tarefa delimitada com uma condição clara de sucesso.

Aplicamos essa automação a uma camada delimitada do produto. Essa camada realiza extração e mapeia documentos de origem para fluxos de trabalho tributários. Os engenheiros continuam responsáveis pela arquitetura, pelas decisões de produto e pelo lançamento. Os profissionais orientam o ciclo de melhoria por meio do trabalho que já fazem: corrigir valores extraídos, revisar declarações e aprovar envios finais.

Para o Codex, o resultado não é um alerta vago, mas uma tarefa de engenharia delimitada, com evidências, superfícies editáveis do produto e portas explícitas de validação. O contexto de uma tarefa representativa de imóvel para locação pode ser resumido da seguinte forma:

Texto simples

1
/candidates/FIND-RENTAL-0042/
2
3
├── repo/ [1]
4
│ └── branch: codex/fix-rental-0042
5
│ │
6
│ ├── AGENTS.md
7
│ │
8
│ ├── tasks/FIND-RENTAL-0042/
9
│ │ ├── task.yaml
10
│ │ ├── EXEC_PLAN.md
11
│ │ └── RESULTS.md
12
│ │
13
│ ├── app/tax-ai/rental-income/ [2]
14
│ │ ├── agent.ts
15
│ │ ├── schema.ts
16
│ │ ├── provenance.ts
17
│ │ └── mapper.ts
18
│ │
19
│ ├── evals/ [3]
20
│ │ ├── datasets/fair-rental-days.yaml
21
│ │ ├── suites/fair-rental-days.yaml
22
│ │ ├── suites/rental-income-regression.yaml
23
│ │ └── graders/rental-income.yaml
24
│ │
25
│ ├── skills/ [4]
26
│ │ ├── eval-runner/
27
│ │ └── tax-field-docs/
28
│ │
29
│ └── docs/ [4]
30
│ ├── architecture/
31
│ └── task-environments/
32
33
└── scoped-tools/ [5]
34
├── production-trace
35
├── source-artifacts
36
└── tax-engine-docs

Um ambiente de tarefa delimitada do Codex separa a worktree gravável [1] do contexto de produção somente leitura [5]. A worktree contém a superfície delimitada do produto que o Codex pode inspecionar ou modificar [2], as evals direcionadas e de regressão que definem sucesso [3] e skills/docs reutilizáveis que codificam como executar a tarefa e respeitar decisões anteriores [4]. O contexto somente leitura fornece o rastro de produção, documentos de origem, previsão do Tax AI, declaração finalizada e documentação de campos do mecanismo tributário, para que o Codex possa investigar a falha sem alterar a evidência subjacente.

Expandindo para novos domínios

O mesmo ciclo se aplica além de imóveis para locação. Imóveis para locação levaram cerca de seis semanas e supervisão substancial de engenharia para atingir 90% de precisão e recall, mas esse trabalho produziu abstrações reutilizáveis, artefatos de revisão, convenções de avaliação e padrões de implementação que facilitaram o suporte a anexos de complexidade semelhante, como Schedule C e Schedule A.

O Tax AI comprova um caminho para construir agentes que se autoaperfeiçoam. Os profissionais geram sinais de feedback de alto valor ao prestar o serviço. Os fluxos de trabalho do produto preservam esses sinais como evidências estruturadas. Sistemas de engenharia apoiados por evals validam melhorias antes que cheguem à produção, e um ciclo impulsionado por agente mantém o sistema em um fluxo contínuo de autoaperfeiçoamento. 

A estrutura da Thrive Holdings nos permite replicar esse ambiente em setores específicos. A Holdings é ao mesmo tempo proprietária e operadora, então nossas equipes combinadas de engenharia conseguem trabalhar diretamente com profissionais e dados de produção de dentro de empresas como a Crete, não como fornecedor, mas como parceiras. Isso significa que a tecnologia, o produto e o serviço ficam todos sob o mesmo teto para nos ajudar a avançar mais rápido e construir produtos excepcionais.

Uma contadora sênior que passou 180 horas em preparação de impostos no ano passado gastou apenas 15 horas nisso neste ano. Ela dedicou parte desse tempo a ligar para cada um de seus clientes e orientá-los em suas declarações, um nível de serviço altamente próximo que não era possível um ano atrás. O restante desse tempo ela usou para assumir novos clientes e expandir para novas ofertas de serviço.

Juntas, nossas equipes agora estão usando o mesmo design em três partes do Tax AI como modelo para construir fluxos de trabalho em outros domínios na Thrive Holdings(abre em uma nova janela); fluxos contábeis como escrituração e auditoria, e fluxos operacionais como automação de help desk de TI. Em domínios e setores, a promessa mais ampla de agentes que se autoaperfeiçoam se mantém. Os melhores agentes são orientados por pessoas para aprender a se tornar mais capazes, mais confiáveis e mais valiosos com o tempo.

Para saber mais sobre a equipe da OpenAI que trabalhou neste projeto, entre em contato.

Autoria

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo, John de Wasseige