Sari la conținutul principal
OpenAI

27 mai 2026

Inginerie

Construirea de agenți fiscali autoîmbunătățibili prin Codex

De către membrii echipei tehnice: Aravind Srinivasan și Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo și John de Wasseige (OpenAI)

Se încarcă…

Cum au colaborat Thrive Holdings și OpenAI pentru a crea Tax AI pentru contabilii Crete, integrând experiența practică a specialiștilor într-un proces continuu de îmbunătățire susținut de Codex.

Sistemele din lumea reală se comportă diferit în producție față de cele din laborator, cedând în moduri greu de anticipat înainte de implementare. Echipele descoperă adesea aceste eșecuri după lansare, apoi petrec săptămâni inspectând cazuri-limită, ajustând solicitări și transformând feedbackul din producție în îmbunătățiri durabile ale produsului. Bucla de feedback este manuală și lentă și se îmbunătățește doar când un inginer o avansează. Dar astăzi, cu o infrastructură de evaluare concepută atent, acces direct la specialiști și medii reale și capabilitățile agentive de vârf ale Codex, poți construi agenți care se autoîmbunătățesc.

În această postare, vom explica cum am folosit Codex pentru a construi acest tip de agent. În ultimele șase luni, ingineri și cercetători OpenAI detașați pe teren, împreună cu inginerii Thrive Holdings, au colaborat pentru a construi Tax AI alături de și pentru rețeaua Crete(se deschide într-o fereastră nouă) de peste 30 de firme de contabilitate, pentru a ajuta la pregătirea unor declarații fiscale tot mai complexe. În loc să se bazeze pe ingineri pentru a găsi și remedia fiecare eșec, Tax AI folosește Codex pentru a transforma utilizarea în producție în semnale structurate care alimentează îmbunătățirea autonomă.

Practicienii Crete pregătesc zeci de mii de declarații fiscale în fiecare sezon, ceea ce necesită parcurgerea a milioane de documente subiacente. Pentru depuneri cu complexitate medie spre mare, doar introducerea datelor poate dura opt ore per declarație, implicând adesea surse de date dezordonate, documente din anul anterior și extragere și calcul manual. Ei ne-au indicat pregătirea fiscală drept un blocaj semnificativ în cea mai aglomerată perioadă a sezonului fiscal.

Pentru a rezolva această problemă, Tax AI a procesat 7.000 de declarații fiscale în firmele Crete care au participat la pilot în acest sezon fiscal. Sistemul automatizează o mare parte din procesul consumator de timp al pregătirii declarațiilor fiscale 1040 și 1041, dar și mai convingător decât câștigurile de eficiență este faptul că sistemul însuși este vizibil mai bun decât versiunea implementată inițial acum trei luni.

Autoîmbunătățire măsurabilă

În Tax AI, specialiștii încarcă documentele sursă împreună cu eventualele note specifice fiecărui client. Tax AI generează apoi o declarație fiscală în motorul fiscal, pregătită pentru revizuire. Soluția le economisește aproximativ o treime din timpul alocat pregătirii declarațiilor fiscale, redactează declarații cu o acuratețe de până la 97% și crește productivitatea cu aproximativ 50%, oferindu-le mai mult timp pentru interacțiunea cu clienții. 

Putem cuantifica această îmbunătățire înțelegând cât de precis poate Tax AI să finalizeze o declarație fără a necesita corecții ulterioare. Măsurăm acuratețea verificând ce proporție din declarațiile fiscale ajung la 75%, 90% sau 100% completare corectă a câmpurilor. La lansare, doar un sfert dintre declarații atingeau 75% completare corectă a câmpurilor, dar în șase săptămâni 86% au atins acest prag. Sistemul a arătat o creștere și mai rapidă la nivelurile de 90% și 100% completare corectă a câmpurilor. Aceste praguri ne oferă o imagine practică asupra volumului de intervenție ulterioară din partea specialistului pe care îl mai necesită diferite declarații fiscale. 

La început, Tax AI gestiona activități mai simple, precum formularele W-2 și 1099. Pe măsură ce sezonul a avansat, a trecut la declarații mai complexe, cu K-1, anexe și cazuri-limită mai dificile. Fiecare capabilitate nouă a economisit mai mult timp per declarație decât precedenta, deoarece sarcinile preluate erau mai dificile și consumau mai mult timp dacă erau făcute manual. Continuăm să vedem progrese și astăzi.

În continuare, vom prezenta modul în care echipele noastre au proiectat împreună Tax AI pentru a se îmbunătăți continuu, bazându-se pe trei piloni esențiali: 1) feedbackul oferit de specialiști, 2) traseele de execuție din producție (un istoric structurat al procesului, de la datele de intrare până la rezultatul final) și 3) o buclă iterativă bazată pe Codex și pe evaluări personalizate, care permite dezvoltarea continuă și accelerată a produsului. Sperăm ca experiența noastră să fie utilă și altor dezvoltatori care activează în domenii în care expertiza specialiștilor joacă un rol esențial în modelarea calității întregului sistem și a datelor pe care acesta le procesează.

Pe măsură ce Tax AI s-a extins la declarații mai complexe, ponderea declarațiilor evaluate care au atins 75%, 90% și completarea integrală a continuat să crească pe parcursul sezonului fiscal.

Problema

Pe măsură ce am avansat către părți mai dificile ale pregătirii fiscale (K-1, anexe pentru proprietăți imobiliare de închiriat și formulare fiscale în care valorile trebuiau reconciliate între mai multe fișiere sursă), a devenit evident că adevărata provocare era dacă produsul putea face eșecurile complexe din producție vizibile, inteligibile și acționabile.

În primele etape ale dezvoltării produsului, majoritatea corecțiilor erau efectuate manual. Specialiștii puteau corecta erorile sistemului, însă produsul nu captura întregul context: o valoare modificată înainte de depunerea declarației putea indica o eroare reală de extragere a datelor, o problemă de mapare, lipsa unei funcționalități în produs sau pur și simplu o variație normală a fluxului de lucru. Identificarea cauzei reale necesita în continuare intervenții și investigații suplimentare din partea echipei de inginerie. Inginerii puteau utiliza agenți de programare, însă sistemul nu era încă proiectat pentru a integra AI într-un proces de îmbunătățire continuă cu adevărat eficient. Nu dispuneam încă de semnalele necesare pentru a identifica problema potrivită asupra căreia să ne concentrăm eforturile de îmbunătățire.

Abordarea noastră: o buclă în trei părți

Asta ne-a determinat să proiectăm sistemul în jurul a trei piloni:

  1. Rămâi aproape de specialiști: oamenii care fac munca trebuie să ghideze ceea ce învață produsul. Intuiția și înțelegerea lor dezvăluie care erori contează și ajută la informarea asupra părților din fluxul de lucru pe care merită să ne concentrăm în continuare.
  2. Construiește produsul astfel încât producția să creeze dovezi: produsul trebuie să capteze mai mult decât intrări și ieșiri; trebuie să surprindă întregul traseu de la materialul sursă, la câmpurile extrase și proveniența lor, până la depunerea din aval și corecția expertului.
  3. Creează o buclă de îmbunătățire bazată pe Codex: odată ce problemele din producție sunt vizibile și structurate, ele pot deveni constatări, evaluări personalizate și sarcini inginerești delimitate. Codex poate apoi să ajute la investigare, să propună modificări, să le valideze față de evaluări țintite și de regresie și să ducă produsul înainte mai repede decât un ciclu de iterație pur manual. 

Exemplul privind proprietățile închiriate prezentat mai jos ilustrează modul în care funcționează în practică această buclă de îmbunătățire, arătând cum o corecție efectuată de un specialist este transformată mai întâi într-o constatare structurată, apoi într-un obiectiv de evaluare și, în final, într-o sarcină de inginerie bine delimitată pentru Codex.

Exemplu din categoria proprietăților închiriate

Venitul din proprietăți închiriate este raportat în Schedule E al unei declarații fiscale individuale. Din perspectivă inginerească, sarcina de a-l extrage este simplu de descris, dar greu de realizat bine. Sistemul trebuie să citească material sursă dezordonat (note scrise de mână, e-mailuri, foi de calcul și alte fișiere ale clienților), să extragă câmpurile pentru proprietăți închiriate pe care sistemul le poate mapa cu încredere în motorul fiscal și să păstreze suficiente dovezi pentru ca un specialist să poată aproba sau corecta rezultatul. Exemplul simplificat de mai jos arată cum ar putea arăta acele fișiere sursă și rezultate extrase.

„”

Un pachet sursă de documente privind o proprietate închiriată este normalizat în câmpuri cu surse citate, înainte ca acestea să fie mapate la conceptele corespunzătoare din motorul fiscal utilizat în etapele ulterioare.

1. O corecție a specialistului dezvăluie un eșec

O diferență între valoarea prezisă de agent și valoarea reală din declarația fiscală depusă poate reflecta o omisiune reală de extragere, dar poate fi și o preferință a specialistului, o valoare preluată din declarația anului anterior în motorul fiscal sau o valoare introdusă ori modificată în altă parte a fluxului de depunere. Specialiștii ne-au ajutat să distingem aceste cazuri, astfel încât să putem identifica ce acțiuni necesitau o corecție din partea specialistului sau blocau o depunere.

Pentru că puteam vedea aceste corecții în detaliu, am transformat procesul de revizuire dintr-un pas terminal, de după eșec, într-un ciclu continuu de învățare. Am conceput fluxul de lucru pentru a capta acțiunile experților ca date structurate. Acum, fiecare intervenție alimentează bucla de îmbunătățire a produsului prin înregistrarea exactă a ceea ce a propus Tax AI, a ceea ce a modificat specialistul și a ceea ce a ajuns în cele din urmă în declarația depusă.

2. Urmele produsului transformă corecțiile în evaluări

Pentru un flux de lucru complex precum proprietățile de închiriat, sistemul trebuie să păstreze ceea ce se întâmplă între fișierele sursă și declarația depusă. Pe acest traseu, documentele sunt organizate, împărțite și clasificate; câmpurile pentru proprietăți de închiriat sunt extrase cu citări către materialul sursă; aceste valori sunt mapate în motorul fiscal; iar specialiștii le pot corecta înainte de depunere. Aceste urme la nivel de produs fac posibilă investigarea locului în care a apărut un eșec. Pentru a transforma corecțiile specialiștilor în ținte utile de evaluare, sistemul le procesează în trei pași:

  • Captarea diferențelor: rezultatul generat de Tax AI este comparat cu declarația fiscală depusă pentru a produce înregistrări de revizuire la nivel de câmp, care surprind valoarea așteptată, valoarea prezisă și dacă diferența identificată pare să necesite o acțiune de corectare.
  • Gruparea erorilor similare: înregistrările de revizuire similare sunt grupate pentru a separa erorile recurente ale produsului de variațiile normale ale fluxului de lucru. De exemplu, corecțiile repetate efectuate de specialiști pot indica faptul că Tax AI omite frecvent câmpurile referitoare la zilele de închiriere la valoarea de piață, gestionează incorect categoria „alte cheltuieli” sau confundă mai multe proprietăți închiriate din același pachet de documente sursă.
  • Transformarea tiparelor repetate în ținte de evaluare: odată revizuite și măsurate, constatările repetate devin ținte clare de evaluare pentru îmbunătățirea de către Codex.
„”

Rândurile de analiză pentru proprietățile închiriate separă erorile recurente ale produsului de zgomotul așteptat, apoi transformă cazurile asupra cărora se poate acționa în obiective de evaluare care îi oferă lui Codex un reper clar de îmbunătățire.

3. Constatarea devine un obiectiv de atins pentru Codex

Al treilea pilon este crearea unei bucle de inginerie capabile să acționeze pe baza acestor noi evaluări. Aici Codex devine elementul central.

Să presupunem că sistemul nostru de evaluare identifică faptul că Tax AI omite în mod constant câmpul „zile de închiriere la valoarea de piață”, în timp ce specialiștii îl completează în mod consecvent. Deoarece această constatare a fost deja transformată într-un set de evaluare țintit, care include pachete de documente sursă reprezentative și rezultatele așteptate, Codex poate investiga direct cauza principală a problemei în cadrul structurii produsului.

Codex nu lucrează doar cu un rezultat final sub nivelul dorit. Acesta inspectează împreună traseul de execuție, evaluările, depozitul de cod și competențele:

  • Investigarea fluxului de procesare: analizează pachetele de documente sursă, schemele de extragere a datelor, comportamentul mecanismelor de mapare și traseele de cod pentru a determina dacă problema este cauzată de un câmp neacceptat, de un tipar de extragere neidentificat, de o selecție incorectă a surselor, de o lacună în procesul de mapare sau de o eroare a mecanismului de evaluare.
  • Implementarea corecțiilor țintite: extinde schema de extragere a datelor, îmbunătățește selecția surselor pentru documentele privind proprietățile închiriate, actualizează mecanismul de mapare al motorului fiscal sau rafinează sistemul de evaluare dacă variațiile normale ale fluxului de lucru sunt interpretate în mod eronat ca erori.
  • Validare și propunere: rulează din nou evaluarea țintită, execută seturi mai ample de teste de regresie și generează o propunere de tip pull request pentru a fi analizată de echipa de inginerie.
  • Închiderea buclei: transformă o corecție recurentă efectuată de specialiști într-o sarcină de inginerie măsurabilă. Dacă dovezile sunt ambigue sau cazul nu poate fi automatizat în condiții de siguranță, acesta este redirecționat către echipa de produs, în loc să fie forțat să treacă prin bucla de automatizare.
„”

Bucla completă de autoîmbunătățire: urmele de execuție din producție evidențiază corecții repetate la nivel de câmp, care devin semnale de eroare pe care Codex le poate analiza împreună cu traseul de execuție, evaluările, depozitul de cod și competențele. Modelele de probleme care permit acțiuni concrete sunt transformate în evaluări bine delimitate și în propuneri de modificări ale produsului, iar cazurile ambigue sunt redirecționate către ingineri pentru analiză. Fiecare îmbunătățire implementată generează noi dovezi din mediul de producție, care alimentează următorul ciclu de îmbunătățire.

Cum să folosești Codex pentru a construi această buclă

Exemplul proprietăților închiriate ilustrează un model reutilizabil mai amplu: utilizarea artefactelor și a traseelor de execuție din mediul de producție pentru a îmbunătăți capacitățile unui agent. Având la dispoziție, ca set de intrări, concluzii validate pe baza datelor din producție, trasee ale surselor, rezultatele așteptate ale motorului fiscal, exemple relevante de cod și comenzi de evaluare, Codex poate aduce îmbunătățiri semnificative ale performanței și acurateței pe parcursul săptămânilor și lunilor. Această abordare se bazează pe principiile prezentate în lucrările noastre despre ingineria infrastructurii de testare și validare și Symphony, care explică modul în care sarcinile pot fi făcute inteligibile pentru Codex, cum poate fi furnizat contextul și setul de instrumente necesare într-un mod bine delimitat și cum pot fi menținute validarea și revizuirea umană ca părți integrante ale mediului de lucru. 

Acele dovezi nu sunt transformate automat într-o sarcină pentru Codex. O corecție efectuată de un specialist poate reflecta o eroare de extragere a datelor, o problemă de mapare, un comportament al produsului care nu este încă suportat, o decizie ce ține de interpretarea fiscală sau pur și simplu o variație normală a fluxului de lucru. Abia după ce diferențele repetate au fost analizate și grupate într-o constatare asupra căreia se poate acționa, sistemul le transformă într-o sarcină bine delimitată, cu un criteriu clar de succes.

Aplicăm această automatizare la un nivel bine delimitat al produsului. Acest nivel se ocupă de extragerea informațiilor și de maparea documentelor sursă către fluxurile de lucru fiscale. Inginerii rămân responsabili pentru arhitectură, deciziile de produs și lansarea modificărilor. Specialiștiii fiscali contribuie la procesul de îmbunătățire prin activitățile pe care le desfășoară deja: corectarea valorilor extrase, revizuirea declarațiilor fiscale și aprobarea depunerilor finale.

Pentru Codex, rezultatul nu este o alertă vagă, ci o sarcină de inginerie bine delimitată, însoțită de dovezi, componente ale produsului care pot fi modificate și criterii explicite de validare. Contextul unei sarcini reprezentative privind o proprietate închiriată poate fi rezumat astfel:

Text simplu

1
/candidates/FIND-RENTAL-0042/
2
3
├── repo/ [1]
4
│ └── branch: codex/fix-rental-0042
5
│ │
6
│ ├── AGENTS.md
7
│ │
8
│ ├── tasks/FIND-RENTAL-0042/
9
│ │ ├── task.yaml
10
│ │ ├── EXEC_PLAN.md
11
│ │ └── RESULTS.md
12
│ │
13
│ ├── app/tax-ai/rental-income/ [2]
14
│ │ ├── agent.ts
15
│ │ ├── schema.ts
16
│ │ ├── provenance.ts
17
│ │ └── mapper.ts
18
│ │
19
│ ├── evals/ [3]
20
│ │ ├── datasets/fair-rental-days.yaml
21
│ │ ├── suites/fair-rental-days.yaml
22
│ │ ├── suites/rental-income-regression.yaml
23
│ │ └── graders/rental-income.yaml
24
│ │
25
│ ├── skills/ [4]
26
│ │ ├── eval-runner/
27
│ │ └── tax-field-docs/
28
│ │
29
│ └── docs/ [4]
30
│ ├── architecture/
31
│ └── task-environments/
32
33
└── scoped-tools/ [5]
34
├── production-trace
35
├── source-artifacts
36
└── tax-engine-docs

Un mediu de lucru Codex bine delimitat separă spațiul de lucru modificabil [1] de contextul de producție disponibil doar în regim de citire [5]. Spațiul de lucru conține suprafața de produs limitată pe care Codex o poate inspecta sau modifica [2], evaluările țintite și testele de regresie care definesc criteriile de succes [3], precum și competențe/documentații reutilizabile care descriu modul de executare a sarcinii și respectarea deciziilor anterioare [4]. Contextul disponibil doar pentru citire oferă traseul de execuție din producție, documentele sursă, predicția generată de Tax AI, declarația fiscală finalizată și documentația câmpurilor din motorul fiscal, astfel încât Codex să poată investiga cauza erorii fără a modifica dovezile care stau la baza analizei.

Extinderea către domenii noi

Aceeași buclă de îmbunătățire se aplică și dincolo de cazul proprietăților închiriate. A fost nevoie de aproximativ șase săptămâni și de o supraveghere semnificativă din partea echipei de inginerie pentru ca procesarea proprietăților închiriate să atingă o precizie și o rată de identificare corectă de 90%, însă această muncă a generat abstracții reutilizabile, artefacte de revizuire, convenții de evaluare și modele de implementare care au facilitat extinderea suportului către alte formulare fiscale complexe, precum Schedule C și Schedule A.

Tax AI demonstrează o cale practică pentru construirea unor agenți capabili să se îmbunătățească continuu. Specialiștii generează semnale valoroase de feedback în timp ce furnizează serviciul. Fluxurile de lucru ale produsului păstrează aceste semnale sub formă de dovezi structurate. Sistemele de inginerie bazate pe evaluări validează îmbunătățirile înainte ca acestea să ajungă în producție, iar o buclă susținută de agenți AI menține sistemul într-un proces continuu de autoîmbunătățire. 

Structura Thrive Holdings ne permite să replicăm acest mediu în industrii specifice. Holdings este atât proprietar, cât și operator, astfel încât echipele noastre inginerești combinate pot lucra direct cu practicienii și cu datele de producție din interiorul unor afaceri precum Crete, nu ca furnizor, ci ca parteneri. Asta înseamnă că tehnologia, produsul și serviciul se află toate sub același acoperiș pentru a ne ajuta să ne mișcăm mai repede și să construim produse excepționale.

O contabilă senior care a petrecut 180 de ore cu pregătirea fiscală anul trecut a petrecut doar 15 ore anul acesta. A folosit o parte din acest timp pentru a-și suna fiecare client și a-i explica declarația, un nivel de servicii personalizate care nu era posibil acum un an. Restul timpului l-a folosit pentru a prelua clienți noi și a extinde oferta de servicii.

Împreună, echipele noastre folosesc acum același design în trei părți din Tax AI ca plan pentru construirea de fluxuri de lucru în alte domenii din Thrive Holdings(se deschide într-o fereastră nouă); fluxuri contabile precum contabilitatea curentă și auditul, precum și fluxuri operaționale precum automatizarea biroului de asistență IT. În toate domeniile și industriile, promisiunea mai largă a agenților care se autoîmbunătățesc rămâne valabilă. Cei mai buni agenți sunt ghidați de oameni pentru a învăța să devină mai capabili, mai de încredere și mai valoroși în timp.

Pentru a afla mai multe despre echipa OpenAI care a lucrat la acest proiect, ia legătura cu noi.

Autor

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo, John de Wasseige