27 de maig del 2026

Construint agents fiscals que s'automilloren amb Codex

Per membres del personal tècnic: Aravind Srinivasan i Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo i John de Wasseige (OpenAI)

S'està carregant…

Com Thrive Holdings i OpenAI van codesenvolupar Tax AI per als comptables de Crete fusionant l'expertesa dels professionals amb un bucle impulsat per Codex

Els sistemes del món real es comporten de manera diferent en producció que en un laboratori, i fallen de maneres difícils d'anticipar abans del desplegament. Els equips sovint descobreixen aquestes fallades després del llançament i després passen setmanes inspeccionant casos límit, ajustant indicacions i traduint la retroalimentació de producció en millores duradores del producte. El bucle de retroalimentació és manual i lent, i només millora quan un enginyer el fa avançar. Però avui, amb una infraestructura d'avaluació dissenyada amb cura, accés directe a professionals i entorns del món real, i les capacitats agentives d'avantguarda de Codex, pots construir agents que s'automilloren.

En aquest article, explicarem com vam utilitzar Codex per construir aquest tipus d'agent. Durant els darrers sis mesos, enginyers i investigadors desplegats sobre el terreny d'OpenAI, juntament amb els enginyers de Thrive Holdings, van col·laborar per construir Tax AI al costat de i per a la xarxa de més de 30 firmes comptables de Crete⁠(s'obre en una finestra nova) per ajudar a preparar declaracions fiscals cada vegada més complexes. En lloc de dependre dels enginyers per trobar i corregir cada fallada, Tax AI utilitza Codex per convertir l'ús en producció en senyals estructurats que impulsen la millora autònoma.

Els professionals de Crete preparen desenes de milers de declaracions fiscals cada temporada, cosa que requereix treballar amb milions de documents subjacents. Per a presentacions de complexitat mitjana o alta, només l'entrada de dades pot requerir vuit hores per declaració, sovint amb fonts de dades desordenades, documents de l'any anterior i extracció i càlcul manuals. Ens van assenyalar la preparació d'impostos com un coll d'ampolla important durant el període més intens de la temporada fiscal.

Per resoldre aquest problema, Tax AI va processar 7.000 declaracions fiscals a les firmes de Crete que van participar en el pilot aquesta temporada fiscal. El sistema automatitza gran part del procés intensiu en temps de preparar declaracions fiscals 1040 i 1041, però encara més convincent que els guanys d'eficiència és que el mateix sistema és mesurablement millor que la versió desplegada per primera vegada fa tres mesos.

Automillora mesurable

A Tax AI, els professionals pugen fitxers d'origen juntament amb qualsevol nota específica del client. Tax AI crea llavors una presentació al motor fiscal, a punt per revisar. Els estalvia aproximadament un terç del temps de preparació d'impostos, redacta declaracions amb fins a un 97% de precisió i augmenta el rendiment aproximadament un 50%, creant més marge perquè puguin dedicar temps als clients.

Podem quantificar aquesta millora entenent amb quina precisió Tax AI pot completar una declaració sense necessitat de correccions posteriors. Mesurem la precisió comprovant quina proporció de declaracions arriba al 75%, 90% o 100% de compleció correcta dels camps. En el llançament, només una quarta part de les declaracions arribava al 75% de compleció correcta dels camps, però en sis setmanes el 86% va assolir aquesta marca. El sistema va mostrar un creixement encara més ràpid als nivells del 90% i del 100% de compleció correcta dels camps. Aquests llindars ens donen una visió pràctica de quant seguiment dels professionals encara requereixen les diferents declaracions.

Al principi, Tax AI gestionava feines més senzilles, com ara W-2 i 1099. A mesura que avançava la temporada, va passar a declaracions més complexes amb K-1, annexos i casos límit més difícils. Cada nova capacitat estalviava més temps per declaració que l'anterior perquè les tasques que assumia eren més difícils i requerien més temps manualment. Continuem veient un progrés sostingut avui dia.

A continuació, explicarem com els nostres equips van coenginyeritzar Tax AI perquè s'automillori recolzant-se en tres pilars crítics: 1) la retroalimentació d'experts professionals, 2) les traces de producció (un historial estructurat des de les entrades fins a la sortida final) i 3) un bucle d'iteració impulsat per Codex basat en avaluacions adaptades per permetre un desenvolupament continu i més ràpid del producte. Esperem que la nostra experiència sigui útil per a altres creadors en dominis on l'expertesa dels professionals és clau per donar forma a la qualitat del sistema general i de les dades que hi circulen.

A mesura que Tax AI es va ampliar a declaracions més complexes, la proporció de declaracions puntuades que arribaven al 75%, 90% i a la compleció total va continuar augmentant durant la temporada fiscal.

El problema

A mesura que ens endinsàvem en parts més difícils de la preparació d'impostos (K-1, annexos d'immobles de lloguer i formularis fiscals on els valors s'havien de reconciliar entre diversos fitxers d'origen), es va fer evident que el veritable repte era si el producte podia fer visibles, comprensibles i accionables les fallades complexes de producció.

En els primers dies del producte, la major part de la correcció era manual. Els professionals podien corregir errors del sistema, però el producte no capturava tot el context: un valor modificat abans de la presentació podia reflectir un error real d'extracció, un problema d'assignació, manca de suport del producte o soroll esperat del flux de treball. Destriar aquests casos encara requeria seguiment per part de l'equip d'enginyeria. Els enginyers podien utilitzar agents de codificació, però el sistema encara no estava dissenyat per utilitzar la IA de manera significativa dins d'un bucle de millora. No teníem el senyal per identificar la meta adequada a assolir.

El nostre enfocament: un bucle de tres parts

Això ens va portar a dissenyar el sistema al voltant de tres pilars:

Mantenir-se a prop dels professionals: Les persones que fan la feina han d'orientar allò que aprèn el producte. La seva intuïció i comprensió revelen quins errors importen i ajuden a informar en quines parts del flux de treball val la pena centrar-se després.
Construir el producte perquè la producció generi proves: El producte ha de capturar més que només entrades i sortides; ha de capturar tot el camí des del material d'origen, passant pels camps extrets i la seva procedència, fins a la presentació posterior i la correcció experta.
Crear un bucle de millora impulsat per Codex: Un cop els problemes de producció són visibles i estructurats, poden convertir-se en troballes, avaluacions adaptades i tasques d'enginyeria acotades. Codex pot llavors ajudar a investigar, proposar canvis, validar-los amb avaluacions específiques i de regressió, i fer avançar el producte més ràpid que un cicle d'iteració purament manual.

L'exemple d'immobles de lloguer de sota mostra com funciona aquest bucle a la pràctica i t'explica com una correcció d'un professional es converteix en una troballa estructurada, després en un objectiu d'avaluació i finalment en una tasca d'enginyeria acotada per Codex.

Exemple d'immoble de lloguer

Els ingressos d'immobles de lloguer s'informen al Schedule E d'una declaració fiscal individual. Des d'una perspectiva d'enginyeria, la tasca d'extreure'ls és fàcil de descriure però difícil de fer bé. El sistema ha de llegir material d'origen desordenat (notes manuscrites, correus electrònics, fulls de càlcul i altres fitxers del client), extreure els camps d'immobles de lloguer que el sistema pot assignar amb confiança al motor fiscal i preservar prou proves perquè un professional pugui aprovar o corregir el resultat. L'exemple simplificat de sota mostra com podrien ser aquests fitxers d'origen i les sortides extretes.

*Un paquet de fonts d'immobles de lloguer es normalitza en camps citats abans de assignar-los a conceptes posteriors del motor fiscal.*

1. Una correcció del professional revela una fallada

Una diferència entre el valor predit per l'agent i el valor real de la declaració fiscal presentada pot reflectir un error real d'extracció, però també pot ser una preferència del professional, un valor arrossegat d'una declaració de l'any anterior al motor fiscal o un valor introduït o modificat en una altra part del flux de presentació. Els professionals ens van ajudar a distingir aquests casos perquè poguéssim identificar quines accions requerien una correcció del professional o bloquejaven una presentació.

Com que podíem veure aquestes correccions amb detall, vam transformar el procés de revisió d'un pas terminal posterior a la fallada en un cicle d'aprenentatge continu. Vam dissenyar el flux de treball per capturar les accions expertes com a dades estructurades. Ara, cada intervenció alimenta el bucle de millora del producte registrant exactament què va proposar Tax AI, què va modificar el professional i què es va incloure finalment a la declaració presentada.

2. Les traces del producte converteixen les correccions en avaluacions

Per a un flux de treball complex com el de les propietats de lloguer, el sistema ha de preservar el que succeeix entre els fitxers d'origen i la declaració presentada. Al llarg d'aquest procés, els documents s'organitzen, es divideixen i es classifiquen; s'extreuen els camps de les propietats de lloguer amb citacions que remeten al material d'origen; aquests valors s'assignen al motor fiscal; i els professionals poden corregir-los abans de presentar la declaració. Aquests registres a nivell de producte permeten investigar on va ocórrer una fallada. Per convertir les correccions dels professionals en objectius d'avaluació útils, el sistema les processa en tres passos:

Capturar la diferència: La sortida de Tax AI es compara amb la declaració presentada per produir files de revisió a nivell de camp que capturen el valor esperat, el valor predit i si la diferència sembla accionable.
Agrupar fallades relacionades: Les files de revisió similars s'agrupen per separar les fallades recurrents del producte del soroll esperat del flux de treball. Per exemple, correccions repetides dels professionals poden mostrar que Tax AI sovint omet els camps de «dies de lloguer computables», gestiona malament «altres despeses» o confon diversos immobles de lloguer dins del mateix paquet d'origen.
Convertir patrons repetits en objectius d'avaluació: Un cop revisades i mesurades, les troballes repetides es converteixen en objectius d'avaluació clars perquè Codex els millori.

Les files de revisió d'immobles de lloguer separen les fallades recurrents del producte del soroll esperat i després converteixen els casos accionables en objectius d'avaluació que donen a Codex una meta a assolir.

3. La troballa es converteix en una meta a assolir per Codex

El tercer pilar és crear un bucle d'enginyeria capaç d'actuar sobre aquestes noves avaluacions. Aquí és on Codex esdevé central.

Suposem que el nostre flux de valoració assenyala que l'IA fiscal omet de manera constant el camp «dies de lloguer computables», mentre que els professionals l'omplen de manera fiable. Com que aquest resultat ja s'ha inclòs en un conjunt de valoració específic, amb paquets de dades de font representatius i resultats esperats, Codex pot investigar la causa arrel directament dins l'estructura del producte.

Codex no treballa únicament amb una sortida final deficient. Inspecciona conjuntament la traça, l'avaluació, el repositori i les habilitats:

Investigar el flux: Inspecciona els paquets de font, els esquemes d'extracció, el comportament de l'assignador i les rutes de codi per determinar si el problema és un camp no admès, un patró d'extracció oblidat, un problema de selecció de fonts, una bretxa en l'assignador o un problema del qualificador.
Implementar correccions específiques: Ampliar l'esquema d'extracció, millorar la selecció de fonts per als documents d'immobles de lloguer, actualitzar l'assignador del motor fiscal o refinar el graduador si el soroll esperat del flux de treball s'està comptant com una fallada.
Validar i proposar: Tornar a executar l'avaluació específica, executar suites de regressió més àmplies i mostrar una sol·licitud d'extracció candidata per a la revisió d'enginyeria.
Tancar el bucle: Convertir una correcció recurrent del professional en una tasca d'enginyeria mesurable. Si les proves són ambigües o no es poden automatitzar amb seguretat, el cas es deriva de nou a l'equip de producte en lloc de forçar-lo a passar pel bucle.

El bucle de millora personal de principi a fi: les pistes de producció mostren correccions repetides a nivell de camp, que es converteixen en senyals d'error que el Codex pot inspeccionar juntament amb la pista, les avaluacions, el repositori i les habilitats. Els patrons accionables es converteixen en avaluacions limitades i propostes de canvis de producte; els casos ambigus es retornen als enginyers per a revisió. Cada millora distribuïda crea nova evidència de producció per al cicle següent.

Com utilitzar Codex per construir aquest bucle

L'exemple de l'immoble de lloguer és emblemàtic d'un patró reutilitzable més ampli: utilitzar artefactes i traces de producció per millorar les capacitats d'un agent. Tenint com a entrada els resultats revisats de les dades de producció, els rastres de font, la sortida esperada del motor d'impostos, exemples de codi rellevants i les ordres d'avaluació, Codex pot millorar de manera significativa el rendiment i la precisió al llarg de setmanes i mesos. Això es basa en els principis descrits al nostre treball sobre enginyeria de harness i Symphony, que expliquen com fer que les tasques siguin llegibles per a Codex, proporcionar context i eines acotats i mantenir la validació i la revisió humana com a part de l'entorn.

Aquesta evidència no es converteix automàticament en una tasca per a Codex. Una correcció del professional pot reflectir un error d'extracció, un problema d'assignació, un comportament del producte no compatible, un judici fiscal o soroll esperat del flux de treball. Només després que les diferències repetides s'hagin revisat i agrupat en una troballa accionable, el sistema les converteix en una tasca acotada amb una condició d'èxit clara.

Apliquem aquesta automatització a una capa acotada del producte. Aquesta capa fa l'extracció i assigna documents d'origen a fluxos de treball fiscals. Els enginyers continuen sent responsables de l'arquitectura, les decisions de producte i el desplegament. Els professionals orienten el bucle de millora mitjançant la feina que ja fan: corregir valors extrets, revisar declaracions i aprovar presentacions finals.

Per a Codex, el resultat no és una alerta vaga sinó una tasca d'enginyeria acotada amb proves, superfícies de producte editables i portes de validació explícites. El context d'una tasca representativa d'immobles de lloguer es pot resumir així:

Text sense format

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

Un entorn de tasca acotat de Codex separa l'arbre de treball editable [1] del context de producció de només lectura [5]. L'arbre de treball conté la superfície de producte acotada que Codex pot inspeccionar o modificar [2], les avaluacions específiques i de regressió que defineixen l'èxit [3], i habilitats/docs reutilitzables que codifiquen com executar la tasca i respectar decisions prèvies [4]. El context de només lectura proporciona la traça de producció, els documents d'origen, la predicció de Tax AI, la declaració finalitzada i la documentació de camps del motor fiscal, de manera que Codex pugui investigar la fallada sense modificar les proves subjacents.

Expansió a nous dominis

El mateix bucle s'aplica més enllà dels immobles de lloguer. Els immobles de lloguer van requerir unes sis setmanes i una supervisió d'enginyeria considerable per arribar al 90% de precisió i exhaustivitat, però aquella feina va produir abstraccions reutilitzables, artefactes de revisió, convencions d'avaluació i patrons d'implementació que van facilitar donar suport a annexos igualment complexos com el Schedule C i el Schedule A.

Tax AI demostra un camí per construir agents que s'automilloren. Els professionals generen senyals de retroalimentació d'alt valor prestant el servei. Els fluxos de treball del producte preserven aquests senyals com a proves estructurades. Els sistemes d'enginyeria recolzats per avaluacions validen les millores abans que arribin a producció, i un bucle impulsat per agents manté el sistema en un flux continu d'automillora.

L'estructura de Thrive Holdings ens permet replicar aquest entorn en indústries específiques. Holdings és alhora propietari i operador, de manera que els nostres equips d'enginyeria combinats poden treballar directament amb professionals i dades de producció des de dins d'empreses com Crete, no com a proveïdor sinó com a socis. Això significa que la tecnologia, el producte i el servei es troben tots sota un mateix sostre per ajudar-nos a avançar més ràpid i construir productes excepcionals.

Una comptable sènior que l'any passat va dedicar 180 hores a la preparació d'impostos enguany només hi va dedicar 15 hores. Va dedicar part d'aquest temps a trucar a cadascun dels seus clients i repassar amb ells les seves declaracions, un nivell de servei molt personalitzat que fa un any no era possible. La resta d'aquest temps el va utilitzar per assumir nous clients i ampliar la seva oferta de serveis.

Ara, conjuntament, els nostres equips utilitzen el mateix disseny en tres parts de Tax AI com a model per construir fluxos de treball en altres dominis dins de Thrive Holdings⁠(s'obre en una finestra nova); fluxos de treball comptables com la comptabilitat i l'auditoria, i fluxos de treball operatius com l'automatització del servei d'ajuda informàtica. En tots els dominis i sectors, es manté la promesa més àmplia dels agents que s'automilloren. Els millors agents són guiats per persones per aprendre a ser més capaços, més fiables i més valuosos amb el temps.

Per obtenir més informació sobre l'equip d'OpenAI que va treballar en aquest projecte, posa't en contacte.