27. svibnja 2026.

Razvoj poreznih agenata koji se sami poboljšavaju uz Codex

Autori, članovi tehničkog osoblja: Aravind Srinivasan i Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo i John de Wasseige (OpenAI)

Učitavanje…

Kako su Thrive Holdings i OpenAI zajedno razvili Tax AI za računovođe u Creteu spajajući stručnost praktičara s petljom koju pokreće Codex

Sustavi iz stvarnog svijeta u produkciji se ponašaju drukčije nego u laboratoriju te se lome na načine koje je teško predvidjeti prije implementacije. Timovi te neuspjehe često otkriju nakon lansiranja, a zatim tjednima ispituju rubne slučajeve, prilagođavaju upite i prevode produkcijske povratne informacije u trajna poboljšanja proizvoda. Petlja povratnih informacija ručna je i spora te se poboljšava samo kada je inženjer unaprijedi. No danas, uz promišljeno osmišljenu infrastrukturu evaluacije, izravan pristup stručnjacima i stvarnim okruženjima te napredne agentske sposobnosti Codexa, možete graditi agente koji se sami poboljšavaju.

U ovom ćemo tekstu objasniti kako smo upotrijebili Codex za razvoj takve vrste agenta. Tijekom proteklih šest mjeseci, inženjeri i istraživači OpenAI-ja raspoređeni na terenu zajedno s inženjerima Thrive Holdingsa surađivali su na razvoju Tax AI-ja uz mrežu Cretea⁠(otvara se u novom prozoru), koja obuhvaća više od 30 računovodstvenih tvrtki, kako bi pomogli u pripremi sve složenijih poreznih prijava. Umjesto da se oslanja na inženjere da pronađu i isprave svaki neuspjeh, Tax AI koristi Codex kako bi produkcijsku upotrebu pretvorio u strukturirane signale koji potiču autonomno poboljšanje.

Stručnjaci u Creteu svake sezone pripreme desetke tisuća poreznih prijava, što zahtijeva rad s milijunima temeljnih dokumenata. Za prijave srednje do visoke složenosti sam unos podataka može trajati osam sati po prijavi, često uz neuredne izvore podataka, dokumente iz prethodne godine te ručnu ekstrakciju i izračun. Ukazali su nam na pripremu poreza kao na značajno usko grlo tijekom najintenzivnijeg dijela porezne sezone.

Kako bi riješio taj problem, Tax AI je ove porezne sezone obradio 7000 poreznih prijava u tvrtkama iz Creteove mreže koje su sudjelovale u pilotu. Sustav automatizira velik dio vremenski zahtjevnog procesa pripreme poreznih prijava 1040 i 1041, ali još je uvjerljivije od dobitaka u učinkovitosti to što je sam sustav mjerljivo bolji od verzije koja je prvi put implementirana prije tri mjeseca.

Mjerljivo samopoboljšanje

U Tax AI-ju stručnjaci prenose izvorne datoteke zajedno sa svim bilješkama specifičnima za klijenta. Tax AI zatim izrađuje podnesak za porezni sustav, spreman za pregled. To stručnjacima štedi oko trećinu vremena za pripremu poreza, izrađuje nacrte prijava s točnošću do 97 % i povećava propusnost za oko 50 %, stvarajući više prostora da vrijeme provedu s klijentima.

To poboljšanje možemo kvantificirati razumijevanjem koliko točno Tax AI može dovršiti prijavu bez potrebe za kasnijim ispravcima. Točnost mjerimo provjerom koliki udio prijava doseže 75 %, 90 % ili 100 % ispravno popunjenih polja. Pri lansiranju je samo četvrtina prijava bila na 75 % ispravno popunjenih polja, no unutar šest tjedana 86 % dosegnulo je tu razinu. Sustav je pokazao još brži rast na razinama od 90 % i 100 % ispravno popunjenih polja. Ti pragovi daju nam praktičan uvid u to koliko naknadnog rada stručnjaka različite prijave još zahtijevaju.

U početku je Tax AI obrađivao jednostavnije zadatke, poput obrazaca W-2 i 1099. Kako je sezona odmicala, prelazio je na složenije prijave s K-1 obrascima, rasporedima i težim rubnim slučajevima. Svaka nova sposobnost štedjela je više vremena po prijavi od prethodne jer su zadaci koje je preuzimao bili teži i vremenski zahtjevniji za ručnu obradu. I danas nastavljamo bilježiti stalan napredak.

Zatim ćemo objasniti kako su naši timovi zajednički inženjerski oblikovali Tax AI da se sam poboljšava oslanjajući se na tri ključna stupa: 1) povratne informacije stručnjaka, 2) produkcijske tragove (strukturiranu povijest od ulaza do konačnog izlaza) i 3) iteracijsku petlju koju pokreće Codex na temelju prilagođenih evaluacija kako bi se omogućio kontinuiran i brži razvoj proizvoda. Nadamo se da će naše iskustvo biti korisno drugim timovima koji razvijaju rješenja u područjima u kojima je stručnost praktičara ključna za oblikovanje kvalitete nadređenog sustava i podataka koji kroz njega prolaze.

Kako se Tax AI širio na složenije prijave, udio ocijenjenih prijava koje su dosegle 75 %, 90 % i potpunu popunjenost nastavio je rasti tijekom porezne sezone.

Problem

Kako smo ulazili u teže dijelove pripreme poreza (K-1 obrasci, rasporedi za nekretnine za najam i porezni obrasci u kojima je vrijednosti trebalo uskladiti kroz više izvornih datoteka), postalo je očito da je pravi izazov može li proizvod složene produkcijske neuspjehe učiniti vidljivima, razumljivima i primjenjivima.

U ranim danima proizvoda većina ispravaka bila je ručna. Stručnjaci su mogli ispraviti pogreške sustava, ali proizvod nije bilježio puni kontekst: promijenjena vrijednost prije predaje mogla je odražavati stvarni propust u ekstrakciji, problem mapiranja, nedostatak podrške proizvoda ili očekivani šum tijeka rada. Razvrstavanje tih slučajeva i dalje je zahtijevalo dodatni rad inženjerskog tima. Inženjeri su mogli koristiti agente za kodiranje, ali sustav još nije bio osmišljen da smisleno koristi AI unutar petlje poboljšanja. Nismo imali signal za prepoznavanje pravog uspona koji treba savladati.

Naš pristup: trodijelna petlja

To nas je navelo da sustav osmislimo oko tri stupa:

Ostanite blizu stručnjacima: ljudi koji obavljaju posao trebaju usmjeravati ono što proizvod uči. Njihova intuicija i razumijevanje otkrivaju koje su pogreške važne i pomažu odrediti na koje se dijelove tijeka rada isplati usredotočiti sljedeće.
Izgradite proizvod tako da produkcija stvara dokaze: proizvod mora bilježiti više od samih ulaza i izlaza; mora zabilježiti cijeli put od izvornog materijala, preko izdvojenih polja i njihova podrijetla, do nizvodne predaje i stručne ispravke.
Stvorite petlju poboljšanja koju pokreće Codex: kad su produkcijski problemi vidljivi i strukturirani, mogu postati nalazi, prilagođene evaluacije i ograničeni inženjerski zadaci. Codex tada može pomoći u istraživanju, predlaganju promjena, njihovoj validaciji prema ciljanim i regresijskim evaluacijama te bržem pomicanju proizvoda naprijed nego što bi to omogućio isključivo ručni iteracijski ciklus.

Primjer nekretnina za najam u nastavku pokazuje kako ta petlja funkcionira u praksi, vodeći vas kroz to kako ispravak stručnjaka postaje strukturirani nalaz, zatim cilj evaluacije i naposljetku inženjerski zadatak ograničen za Codex.

Primjer nekretnine za najam

Prihod od nekretnine za najam prijavljuje se u Schedule E pojedinačne porezne prijave. Iz inženjerske perspektive, zadatak njegova izdvajanja jednostavno je opisati, ali ga je teško dobro izvesti. Sustav mora pročitati neuredan izvorni materijal (rukom pisane bilješke, e-poštu, proračunske tablice i druge klijentske datoteke), izdvojiti polja za nekretnine za najam koja sustav može pouzdano mapirati u porezni sustav i sačuvati dovoljno dokaza da stručnjak može odobriti ili ispraviti rezultat. Pojednostavljeni primjer u nastavku pokazuje kako bi te izvorne datoteke i izdvojeni izlazi mogli izgledati.

*Izvorni paket za nekretninu za najam normalizira se u citirana polja prije nego što se ta polja mapiraju na koncepte u poreznom sustavu koji se dalje upotrebljavaju.*

1. Ispravak stručnjaka otkriva neuspjeh

Razlika između vrijednosti koju je predvidio agent i stvarne vrijednosti iz predane porezne prijave može odražavati stvarni propust u ekstrakciji, ali može biti i preferencija stručnjaka, vrijednost prenesena iz prijave prethodne godine u poreznom sustavu ili vrijednost uvedena ili promijenjena drugdje u tijeku podnošenja prijave. Stručnjaci su nam pomogli razlučiti te slučajeve kako bismo mogli utvrditi koje su radnje zahtijevale ispravak stručnjaka ili blokirale predaju.

Budući da smo te ispravke mogli detaljno vidjeti, pretvorili smo proces pregleda iz završnog koraka nakon neuspjeha u kontinuirani ciklus učenja. Osmislili smo tijek rada tako da bilježi radnje stručnjaka kao strukturirane podatke. Sada svaka intervencija hrani petlju poboljšanja proizvoda bilježeći točno što je Tax AI predložio, što je stručnjak izmijenio i što je na kraju ušlo u predanu prijavu.

2. Tragovi proizvoda pretvaraju ispravke u evaluacije

Za složen tijek rada poput nekretnina za najam, sustav mora sačuvati ono što se događa između izvornih datoteka i predane prijave. Na tom putu dokumenti se organiziraju, dijele i klasificiraju; polja za nekretnine za najam izdvajaju se s citatima koji vode natrag do izvornog materijala; te se vrijednosti mapiraju u porezni sustav; a stručnjaci ih i dalje mogu ispraviti prije predaje. Ti tragovi na razini proizvoda omogućuju istraživanje mjesta na kojem je došlo do neuspjeha. Kako bi se ispravci stručnjaka pretvorili u korisne ciljeve evaluacije, sustav ih obrađuje u tri koraka:

Zabilježite razliku: izlaz Tax AI-ja uspoređuje se s predanom prijavom kako bi se proizveli retci pregleda na razini polja koji bilježe očekivanu vrijednost, predviđenu vrijednost i izgleda li razlika primjenjivo.
Grupirajte povezane neuspjehe: slični retci pregleda grupiraju se kako bi se odvojili ponavljani kvarovi proizvoda od očekivanog šuma tijeka rada. Na primjer, ponavljani ispravci stručnjaka mogu pokazati da Tax AI često propušta polja „dani najma po tržišnoj cijeni”, pogrešno obrađuje „ostale troškove” ili miješa više nekretnina za najam unutar istog izvornog paketa.
Pretvorite ponavljane obrasce u ciljeve evaluacije: nakon pregleda i mjerenja, ponavljani nalazi postaju jasni ciljevi evaluacije koje Codex treba poboljšati.

Retci pregleda nekretnina za najam odvajaju ponavljane kvarove proizvoda od očekivanog šuma, a zatim primjenjive slučajeve pretvaraju u ciljeve evaluacije koji Codexu daju konkretan problem koji treba riješiti.

3. Nalaz postaje uspon koji Codex treba savladati

Treći stup je stvaranje inženjerske petlje sposobne djelovati na temelju tih novih evaluacija. Tu Codex postaje središnji.

Pretpostavimo da naš cjevovod za evaluacije označi da Tax AI dosljedno propušta polje „dani najma po tržišnoj vrijednosti”, dok ga stručnjaci pouzdano popunjavaju. Budući da je taj nalaz već zapakiran u ciljani skup evaluacije, s reprezentativnim izvornim paketima i očekivanim izlazima, Codex može istražiti temeljni uzrok izravno unutar okvira proizvoda.

Codex ne radi samo s ispodprosječnim konačnim izlazom. Zajedno pregledava trag, evaluaciju, repozitorij i vještine:

Istražite cjevovod: pregledajte izvorne pakete, sheme ekstrakcije, ponašanje mapera i putanje koda kako biste utvrdili je li problem nepodržano polje, propušten obrazac ekstrakcije, problem odabira izvora, manjak u maperu ili problem s ocjenjivačem.
Provedite ciljane ispravke: proširite shemu ekstrakcije, poboljšajte odabir izvora za dokumente o nekretninama za najam, ažurirajte mapper poreznog sustava ili doradite ocjenjivač ako se očekivani šum tijeka rada broji kao neuspjeh.
Potvrdite i predložite: ponovno pokrenite ciljanu evaluaciju, pokrenite šire regresijske skupove i prikažite kandidatski pull request za inženjerski pregled.
Zatvorite petlju: Pretvorite ponavljani ispravak stručnjaka u mjerljiv inženjerski zadatak. Ako su dokazi nejasni ili se ne mogu sigurno automatizirati, slučaj se vraća timu za proizvod umjesto da se na silu provuče kroz petlju.

Cjelovita petlja samopoboljšanja: produkcijski tragovi otkrivaju ponavljane ispravke na razini polja, koji postaju signali neuspjeha koje Codex može pregledati zajedno s tragom, evaluacijama, repozitorijem i vještinama. Primjenjivi obrasci postaju ograničene evaluacije i kandidatske promjene proizvoda; nejasni slučajevi vraćaju se inženjerima na pregled. Svako isporučeno poboljšanje stvara nove produkcijske dokaze za sljedeći ciklus.

Kako koristiti Codex za izgradnju ove petlje

Primjer nekretnine za najam simbolizira širi, ponovno upotrebljiv obrazac: korištenje produkcijskih artefakata i tragova za poboljšanje sposobnosti agenta. Uz pregledane nalaze iz produkcijskih podataka, izvorne tragove, očekivani izlaz poreznog sustava, relevantne primjere koda i naredbe za evaluaciju kao skup ulaza, Codex može tijekom tjedana i mjeseci znatno poboljšati izvedbu i točnost. To se nadovezuje na načela opisana u našem radu o harness engineeringu i Symphonyju, koji objašnjavaju kako zadatke učiniti čitljivima za Codex, pružiti ograničen kontekst i alate te zadržati validaciju i ljudski pregled kao dio okruženja.

Ti dokazi ne postaju automatski zadatak za Codex. Ispravak stručnjaka može odražavati propust u ekstrakciji, problem mapiranja, nepodržano ponašanje proizvoda, poreznu prosudbu ili očekivani šum tijeka rada. Tek nakon što se ponavljane razlike pregledaju i grupiraju u primjenjiv nalaz, sustav ih pretvara u ograničen zadatak s jasnim uvjetom uspjeha.

Ovu automatizaciju primjenjujemo na ograničeni sloj proizvoda. Taj sloj obavlja ekstrakciju i mapira izvorne dokumente u porezne tijekove rada. Inženjeri i dalje ostaju odgovorni za arhitekturu, odluke o proizvodu i isporuku. Stručnjaci usmjeravaju petlju poboljšanja kroz posao koji već rade: ispravljanje izdvojenih vrijednosti, pregled prijava i odobravanje konačnih predaja.

Za Codex rezultat nije nejasno upozorenje nego ograničen inženjerski zadatak s dokazima, površinama proizvoda koje se mogu uređivati i jasnim kontrolnim točkama za validaciju.

Običan tekst

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

Ograničeno okruženje zadataka za Codex odvaja zapisivo radno stablo [1] od produkcijskog konteksta samo za čitanje [5]. Radno stablo sadrži ograničenu površinu proizvoda koju Codex može pregledati ili mijenjati [2], ciljane i regresijske evaluacije koje definiraju uspjeh [3] te ponovno upotrebljive vještine/dokumente koji kodiraju kako izvršiti zadatak i poštovati prethodne odluke [4]. Kontekst samo za čitanje pruža produkcijski trag, izvorne dokumente, predviđanje Tax AI-ja, finaliziranu prijavu i dokumentaciju polja poreznog sustava, tako da Codex može istražiti neuspjeh bez mijenjanja temeljnih dokaza.

Širenje na nova područja

Ista se petlja primjenjuje i izvan nekretnina za najam. Za nekretnine za najam trebalo je oko šest tjedana i znatan inženjerski nadzor da bi se dosegla preciznost i odziv od 90 %, ali taj je rad proizveo ponovno upotrebljive apstrakcije, artefakte pregleda, konvencije za evaluaciju i obrasce implementacije koji su olakšali podršku za slično složene rasporede kao što su Schedule C i Schedule A.

Tax AI pokazuje put prema razvoju agenata koji se sami poboljšavaju. Stručnjaci stvaraju visokovrijedne signale povratnih informacija pružanjem usluge. Tijekovi rada proizvoda čuvaju te signale kao strukturirane dokaze. Inženjerski sustavi potkrijepljeni evaluacijama potvrđuju poboljšanja prije nego što stignu u produkciju, a petlja koju pokreće agent održava sustav u kontinuiranom toku samopoboljšanja.

Struktura Thrive Holdingsa omogućuje nam repliciranje tog okruženja u određenim sektorima. Thrive Holdings je i vlasnik i operater, pa naši objedinjeni inženjerski timovi mogu raditi izravno sa stručnjacima i produkcijskim podacima unutar tvrtki poput Cretea, ne kao dobavljači, nego kao partneri. To znači da su tehnologija, proizvod i usluga pod istim krovom, što nam pomaže da brže radimo i razvijamo iznimne proizvode.

Jedna viša računovotkinja koja je prošle godine provela 180 sati na pripremi poreza ove je godine na to potrošila samo 15 sati. Dio tog vremena uložila je u to da nazove svakog svog klijenta i provede ga kroz njegovu prijavu, razinu vrlo osobne usluge koja prije godinu dana nije bila moguća. Preostalo vrijeme iskoristila je za preuzimanje novih klijenata i širenje na nove usluge.

Naši timovi sada zajedno koriste isti trodijelni dizajn iz Tax AI-ja kao nacrt za izgradnju tijekova rada u drugim područjima diljem Thrive Holdingsa⁠(otvara se u novom prozoru); računovodstvenih tijekova rada poput knjigovodstva i revizije te operativnih tijekova rada poput automatizacije IT službe za pomoć. U svim područjima i industrijama vrijedi šire obećanje agenata koji se sami poboljšavaju. Najbolje agente usmjeravaju ljudi kako bi s vremenom postajali sposobniji, pouzdaniji i vrjedniji.

Da biste saznali više o timu OpenAI-ja koji je radio na ovom projektu, javite nam se.

Autor

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo i John de Wasseige

Nastavite čitati

Prikaži sve

Epidemiologija core dumpova: ispravak 18-godišnjeg buga

Inženjerstvo30. lip 2026.

Izgradnja sigurnog, učinkovitog sandboxa za omogućavanje Codexa u sustavu Windows

Inženjerstvo13. svi 2026.

Odakle su došli goblini

Inženjerstvo5. svi 2026.