Costruire agenti fiscali che si auto-migliorano con Codex
Di membri del Technical Staff: Aravind Srinivasan e Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo e John de Wasseige (OpenAI)
Come Thrive Holdings e OpenAI hanno co-sviluppato Tax AI per i commercialisti di Crete fondendo l’esperienza dei professionisti con un ciclo guidato da Codex
I sistemi dei contesti reali si comportano diversamente in produzione rispetto a un laboratorio, rompendosi in modi difficili da anticipare prima del deployment. I team spesso scoprono questi errori dopo il lancio e poi trascorrono settimane a ispezionare casi limite, regolare i prompt e tradurre il feedback di produzione in miglioramenti durevoli del prodotto. Il ciclo di feedback è manuale e lento e migliora solo quando un ingegnere lo fa avanzare. Ma oggi, con un’infrastruttura di eval progettata con attenzione, accesso diretto ai professionisti e ad ambienti reali, e le capacità agentiche di frontiera di Codex, puoi costruire agenti che si auto-migliorano.
In questo articolo spiegheremo come abbiamo usato Codex per costruire questo tipo di agente. Negli ultimi sei mesi, ingegneri e ricercatori di OpenAI impiegati sul campo insieme agli ingegneri di Thrive Holdings hanno collaborato per costruire Tax AI insieme e per la rete di oltre 30 studi contabili di Crete(si apre in una nuova finestra), per aiutare a preparare dichiarazioni fiscali sempre più complesse. Invece di affidarsi agli ingegneri per trovare e correggere ogni errore, Tax AI usa Codex per trasformare l’uso in produzione in segnali strutturati che alimentano un miglioramento autonomo.
Ogni stagione i professionisti di Crete preparano decine di migliaia di dichiarazioni fiscali, il che richiede di lavorare su milioni di documenti sottostanti. Per le dichiarazioni di complessità medio-alta, il solo inserimento dati può richiedere otto ore per dichiarazione, spesso con fonti di dati disordinate, documenti dell’anno precedente ed estrazione e calcolo manuali. Ci hanno indicato la preparazione fiscale come un collo di bottiglia significativo durante il periodo più intenso della stagione fiscale.
Per risolvere questo problema, Tax AI ha elaborato 7.000 dichiarazioni fiscali negli studi Crete che hanno partecipato al pilota in questa stagione fiscale. Il sistema automatizza gran parte del processo, ad alta intensità di tempo, di preparazione delle dichiarazioni fiscali 1040 e 1041, ma ancora più convincente dei guadagni di efficienza è il fatto che il sistema stesso è misurabilmente migliore della versione distribuita per la prima volta tre mesi fa.
In Tax AI, i professionisti caricano i file sorgente insieme a eventuali note specifiche del cliente. Tax AI crea quindi un invio al motore fiscale, pronto per la revisione. Fa risparmiare ai professionisti circa un terzo del loro tempo nella preparazione fiscale, redige dichiarazioni con un’accuratezza fino al 97% e aumenta la capacità di elaborazione di circa il 50%, creando più spazio per dedicare tempo ai clienti.
Possiamo quantificare questo miglioramento comprendendo con quale accuratezza Tax AI riesce a completare una dichiarazione senza richiedere correzioni successive. Misuriamo l’accuratezza verificando quale quota di dichiarazioni raggiunge il 75%, il 90% o il 100% di completamento corretto dei campi. Al lancio, solo un quarto delle dichiarazioni raggiungeva il 75% di completamento corretto dei campi, ma entro sei settimane l’86% aveva raggiunto quel livello. Il sistema ha mostrato una crescita ancora più rapida ai livelli del 90% e del 100% di completamento corretto dei campi. Queste soglie ci offrono una visione pratica di quanto follow-up del professionista richiedano ancora le diverse dichiarazioni.
All’inizio, Tax AI gestiva lavori più semplici, come W-2 e 1099. Con il procedere della stagione, è passato a dichiarazioni più complesse con K-1, schedule e casi limite più difficili. Ogni nuova capacità faceva risparmiare più tempo per dichiarazione della precedente, perché i compiti che assumeva erano più difficili e richiedevano più tempo se svolti manualmente. Continuiamo a vedere progressi costanti ancora oggi.
Ora illustreremo come i nostri team hanno co-progettato Tax AI per renderlo auto-migliorante facendo leva su tre pilastri critici: 1) feedback di professionisti esperti, 2) tracce di produzione (una cronologia strutturata dagli input all’output finale) e 3) un ciclo di iterazione guidato da Codex basato su eval su misura per consentire uno sviluppo del prodotto continuo e più rapido. Speriamo che la nostra esperienza possa essere utile ad altri builder in domini in cui l’esperienza dei professionisti è fondamentale per modellare la qualità del sistema complessivo e dei dati che lo attraversano.
Man mano che Tax AI si è esteso a dichiarazioni più complesse, la quota di dichiarazioni valutate che raggiungevano il 75%, il 90% e il completamento totale ha continuato a crescere durante la stagione fiscale.
Quando ci siamo spinti nelle parti più difficili della preparazione fiscale (K-1, prospetti immobiliari in locazione e moduli fiscali in cui i valori dovevano essere riconciliati tra più file sorgente), è diventato evidente che la vera sfida era se il prodotto potesse rendere visibili, comprensibili e utilizzabili i complessi errori di produzione.
Nei primi giorni del prodotto, la maggior parte delle correzioni era manuale. I professionisti potevano correggere gli errori del sistema, ma il prodotto non acquisiva il contesto completo: un valore modificato prima della presentazione poteva riflettere un vero errore di estrazione, un problema di mapping, un supporto di prodotto mancante o le variazioni attese del flusso di lavoro. Per distinguere questi casi era ancora necessario il follow-up del team di ingegneria. Gli ingegneri potevano usare agenti di coding, ma il sistema non era ancora progettato per usare l’IA in modo significativo all’interno di un ciclo di miglioramento. Non avevamo il segnale per individuare la sfida giusta su cui concentrarsi.
Questo ci ha portato a progettare il sistema attorno a tre pilastri:
- Restare vicini ai professionisti: le persone che svolgono il lavoro devono guidare ciò che il prodotto apprende. La loro intuizione e comprensione rivelano quali errori contano e aiutano a capire su quali parti del flusso di lavoro valga la pena concentrarsi dopo.
- Costruire il prodotto in modo che la produzione crei evidenze: il prodotto deve acquisire più dei soli input e output; deve acquisire l’intero percorso dal materiale sorgente, ai campi estratti e alla provenienza, fino all'invio nelle fasi successive e alla correzione dell’esperto.
- Creare un ciclo di miglioramento guidato da Codex: una volta che i problemi di produzione sono visibili e strutturati, possono diventare riscontri, eval su misura e attività ingegneristiche delimitate. Codex può quindi aiutare a indagare, proporre modifiche, convalidarle rispetto a eval mirate e di regressione e far avanzare il prodotto più rapidamente di un ciclo di iterazione puramente manuale.
L’esempio degli immobili in locazione qui sotto mostra come questo ciclo funzioni nella pratica, illustrando come una correzione del professionista diventi un riscontro strutturato, poi un obiettivo di eval e infine un’attività ingegneristica delimitata per Codex.
Il reddito da immobile in locazione viene riportato nello Schedule E di una dichiarazione fiscale individuale. Dal punto di vista ingegneristico, il compito di estrarlo è semplice da descrivere ma difficile da eseguire bene. Il sistema deve leggere materiale sorgente disordinato (note scritte a mano, email, fogli di calcolo e altri file del cliente), estrarre i campi dell’immobile in locazione che il sistema può mappare con sicurezza al motore fiscale e preservare evidenze sufficienti perché un professionista possa approvare o correggere il risultato. L’esempio semplificato qui sotto mostra come potrebbero apparire quei file sorgente e gli output estratti.
Un pacchetto di documenti sorgente relativi a un immobile in locazione viene normalizzato in campi corredati di citazioni prima di essere associato ai corrispondenti concetti del motore fiscale.
Una differenza tra il valore previsto dall’agente e il valore effettivo della dichiarazione fiscale presentata può riflettere un vero errore di estrazione, ma può anche dipendere da una preferenza del professionista, da un valore riportato dalla dichiarazione dell’anno precedente nel motore fiscale o da un valore introdotto o modificato altrove nel flusso di presentazione. I professionisti ci hanno aiutato a distinguere questi casi, così da identificare quali azioni richiedevano una correzione del professionista o bloccavano un invio.
Poiché potevamo vedere queste correzioni nel dettaglio, abbiamo trasformato il processo di revisione da fase terminale post-errore a ciclo di apprendimento continuo. Abbiamo progettato il flusso di lavoro per acquisire le azioni degli esperti come dati strutturati. Ora ogni intervento alimenta il ciclo di miglioramento del prodotto registrando esattamente cosa ha proposto Tax AI, cosa ha modificato il professionista e cosa è infine confluito nella dichiarazione presentata.
Per un flusso di lavoro complesso come quello degli immobili in locazione, il sistema deve preservare ciò che accade tra i file sorgente e la dichiarazione presentata. Lungo questo percorso, i documenti vengono organizzati, suddivisi e classificati; i campi degli immobili in locazione vengono estratti con citazioni che rimandano al materiale sorgente; questi valori vengono mappati nel motore fiscale e i professionisti possono ancora correggerli prima della presentazione. Queste tracce a livello di prodotto rendono possibile indagare dove si è verificato un errore. Per trasformare le correzioni dei professionisti in obiettivi di valutazione utili, il sistema le elabora in tre passaggi:
- Acquisire la differenza: l’output di Tax AI viene confrontato con la dichiarazione presentata per produrre righe di revisione a livello di campo che registrano il valore atteso, il valore previsto e se la differenza appare utilizzabile.
- Raggruppare gli errori correlati: righe di revisione simili vengono raggruppate per distinguere i problemi ricorrenti del prodotto dalle variazioni attese del flusso di lavoro. Per esempio, correzioni ripetute dei professionisti possono mostrare che Tax AI spesso non rileva i campi dei “giorni di locazione equa”, gestisce male le “altre spese” o confonde più immobili in locazione nello stesso pacchetto sorgente.
- Trasformare i pattern ripetuti in obiettivi di eval: una volta esaminati e misurati, i riscontri ripetuti diventano chiari obiettivi di eval su cui Codex può migliorare.
Le righe di revisione degli immobili in locazione distinguono i problemi ricorrenti del prodotto dalle discrepanze attese, poi trasformano i casi utilizzabili in obiettivi di eval che diventano la sfida giusta su cui concentrarsi.
Il terzo pilastro consiste nel creare un ciclo ingegneristico capace di agire su queste nuove eval. È qui che Codex diventa centrale.
Supponiamo che la nostra pipeline di eval segnali che Tax AI omette sistematicamente il campo "giorni di locazione equa", mentre i professionisti lo compilano in modo affidabile. Poiché questo riscontro è già stato confezionato in un set di eval mirato, con pacchetti sorgente rappresentativi e output attesi, Codex può indagare direttamente la causa radice all’interno dell'architettura del prodotto.
Codex non lavora solo con un output finale scadente. Esamina insieme traccia, eval, repo e skill:
- Indagare la pipeline: ispezionare pacchetti sorgente, schemi di estrazione, comportamento del mapper e percorsi del codice per determinare se il problema è un campo non supportato, un pattern di estrazione mancato, un problema di selezione della sorgente, una lacuna del mapper o un problema del grader.
- Implementare correzioni mirate: estendere lo schema di estrazione, migliorare la selezione della sorgente per i documenti degli immobili in locazione, aggiornare il mapper del motore fiscale o affinare il grader se le variazioni attese del flusso di lavoro vengono conteggiate come errore.
- Convalidare e proporre: rieseguire l’eval mirata, eseguire suite di regressione più ampie e presentare una pull request candidata per la revisione ingegneristica.
- Chiudere il ciclo: trasformare una correzione ricorrente del professionista in un’attività ingegneristica misurabile. Se l’evidenza è ambigua o non automatizzabile in sicurezza, il caso torna al team di prodotto invece di essere forzato attraverso il ciclo.
Il ciclo completo di auto-miglioramento: le tracce di produzione fanno emergere correzioni ripetute a livello di campo, che diventano segnali di errore che Codex può esaminare insieme a traccia, eval, repo e skill. I pattern utilizzabili diventano eval delimitate e potenziali modifiche al prodotto; i casi ambigui tornano agli ingegneri per la revisione. Ogni miglioramento rilasciato crea nuove evidenze di produzione per il ciclo successivo.
L’esempio degli immobili in locazione è emblematico di un pattern riutilizzabile più ampio: usare artefatti e tracce di produzione per migliorare le capacità di un agente. Dati riscontri revisionati dai dati di produzione, tracce sorgente, output atteso del motore fiscale, esempi di codice pertinenti e comandi di eval come insieme di input, Codex può migliorare in modo sostanziale prestazioni e accuratezza nel corso di settimane e mesi. Questo si basa sui principi descritti nel nostro lavoro su harness engineering e Symphony, che illustrano come rendere i compiti leggibili per Codex, fornire contesto e strumenti delimitati e mantenere convalida e revisione umana come parte dell’ambiente.
Quell’evidenza non diventa automaticamente un compito per Codex. Una correzione del professionista può riflettere un errore di estrazione, un problema di mapping, un comportamento del prodotto non supportato, un giudizio fiscale o le variazioni attese del flusso di lavoro. Solo dopo che differenze ripetute sono state esaminate e raggruppate in un riscontro su cui intervenire, il sistema le trasforma in un compito delimitato con una chiara condizione di successo.
Applichiamo questa automazione a uno strato delimitato del prodotto. Questo strato esegue l’estrazione e mappa i documenti sorgente nei flussi di lavoro fiscali. Gli ingegneri restano responsabili di architettura, decisioni di prodotto e rilascio. I professionisti guidano il ciclo di miglioramento attraverso il lavoro che già svolgono: correggere valori estratti, rivedere dichiarazioni e approvare le presentazioni finali.
Per Codex, il risultato non è un avviso vago ma un compito ingegneristico delimitato con evidenze, superfici di prodotto modificabili e gate di convalida espliciti. Il contesto per un’attività rappresentativa sugli immobili in locazione può essere riassunto come segue:
Lo stesso ciclo si applica oltre gli immobili in locazione. Gli immobili in locazione hanno richiesto circa sei settimane e una sostanziale supervisione ingegneristica per raggiungere il 90% di precisione e recall, ma quel lavoro ha prodotto astrazioni riutilizzabili, artefatti di revisione, convenzioni di eval e pattern di implementazione che hanno reso più semplice supportare prospetti di complessità simile come Schedule C e Schedule A.
Tax AI dimostra un percorso per costruire agenti che si auto-migliorano. I professionisti generano segnali di feedback ad alto valore erogando il servizio. I flussi di lavoro del prodotto preservano questi segnali come evidenze strutturate. I sistemi ingegneristici supportati da eval convalidano i miglioramenti prima che raggiungano la produzione, e un ciclo alimentato da agenti mantiene il sistema in un flusso continuo di auto-miglioramento.
La struttura di Thrive Holdings ci consente di replicare questo ambiente in settori specifici. Holdings è sia proprietario sia operatore, quindi i nostri team di ingegneria combinati possono lavorare direttamente con professionisti e dati di produzione dall’interno di aziende come Crete, non come fornitore ma come partner. Questo significa che tecnologia, prodotto e servizio si trovano tutti sotto lo stesso tetto per aiutarci a muoverci più rapidamente e costruire prodotti eccezionali.
Una contabile senior che l’anno scorso ha dedicato 180 ore alla preparazione fiscale quest’anno ne ha impiegate solo 15. Ha dedicato parte di quel tempo a chiamare ciascuno dei suoi clienti e accompagnarli nella revisione delle loro dichiarazioni, un livello di servizio altamente personalizzato che un anno fa non era possibile. Il resto di quel tempo lo ha usato per acquisire nuovi clienti ed espandersi verso nuove offerte di servizio.
Insieme, i nostri team stanno ora usando lo stesso design in tre parti di Tax AI come modello per costruire flussi di lavoro in altri domini in Thrive Holdings(si apre in una nuova finestra); flussi di lavoro contabili come contabilità e audit, e flussi di lavoro operativi come l’automazione dell’help desk IT. Tra domini e settori, la promessa più ampia degli agenti che si auto-migliorano resta valida. I migliori agenti sono guidati dalle persone per imparare a diventare nel tempo più capaci, più affidabili e più preziosi.
Per saperne di più sul team OpenAI che ha lavorato a questo progetto, contattaci.


