Preskočite na glavno vsebino
OpenAI

27. maj 2026

Tehnologija

Gradnja samoizboljševalnih davčnih agentov s Codex

Avtorji, člani tehničnega osebja: Aravind Srinivasan in Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo in John de Wasseige (OpenAI)

Nalaganje …

Kako sta Thrive Holdings in OpenAI skupaj razvila Tax AI za računovodje Crete z združitvijo strokovnega znanja praktikov in zanke, ki jo poganja Codex

Sistemi iz resničnega sveta se v produkciji vedejo drugače kot v laboratoriju in odpovedujejo na načine, ki jih je pred uvedbo težko predvideti. Ekipe te napake pogosto odkrijejo po zagonu, nato pa tedne porabijo za pregled robnih primerov, prilagajanje pozivov in pretvarjanje produkcijskih povratnih informacij v trajne izboljšave izdelka. Zanka povratnih informacij je ročna in počasna ter se izboljša le, ko jo premakne inženir. Toda danes lahko s premišljeno zasnovano infrastrukturo evalvacije, neposrednim dostopom do strokovnjakov in resničnih okolij ter najsodobnejšimi agentskimi zmožnostmi Codex gradite agente, ki se sami izboljšujejo.

V tem prispevku bomo razložili, kako smo s Codex zgradili takšno vrsto agenta. V zadnjih šestih mesecih so OpenAI-jevi terensko vključeni inženirji in raziskovalci skupaj z inženirji Thrive Holdings sodelovali pri gradnji Tax AI skupaj z mrežo več kot 30 računovodskih podjetij Crete(odpre se v novem oknu) in zanjo, da bi pomagali pripravljati vse bolj zapletene davčne napovedi. Namesto da bi se Tax AI zanašal na inženirje pri iskanju in odpravljanju vsake napake, uporablja Codex za pretvorbo produkcijske uporabe v strukturirane signale, ki poganjajo avtonomne izboljšave.

Strokovnjaki v Crete vsako sezono pripravijo več deset tisoč davčnih napovedi, kar zahteva obdelavo milijonov osnovnih dokumentov. Pri napovedih srednje do visoke zahtevnosti lahko že sam vnos podatkov traja osem ur na napoved, pogosto pa vključuje neurejene vire podatkov, dokumente iz prejšnjega leta ter ročno ekstrakcijo in izračunavanje. Opozorili so nas, da je priprava davkov pomembno ozko grlo v najbolj obremenjenem delu davčne sezone.

Za rešitev te težave je Tax AI v tej davčni sezoni obdelal 7.000 davčnih napovedi v podjetjih Crete, ki so sodelovala v pilotu. Sistem avtomatizira velik del časovno zahtevnega postopka priprave davčnih napovedi 1040 in 1041, še bolj prepričljivo od pridobitev učinkovitosti pa je, da je sam sistem merljivo boljši od različice, ki je bila prvič uvedena pred tremi meseci.

Merljivo samoizboljševanje

V Tax AI strokovnjaki naložijo izvorne datoteke skupaj z morebitnimi opombami, specifičnimi za stranko. Tax AI nato ustvari oddajo za davčni pogon, pripravljeno za pregled. Strokovnjakom prihrani približno tretjino časa za pripravo davkov, pripravi osnutke napovedi z do 97-odstotno natančnostjo in poveča prepustnost za približno 50 %, s čimer jim omogoči več časa za stranke. 

To izboljšavo lahko kvantificiramo tako, da razumemo, kako natančno lahko Tax AI dokonča napoved, ne da bi pozneje potrebovala popravek. Natančnost merimo tako, da preverimo, kolikšen delež napovedi doseže 75 %, 90 % ali 100 % pravilno izpolnjenih polj. Ob zagonu je le četrtina napovedi dosegla 75 % pravilno izpolnjenih polj, vendar je v šestih tednih to mejo doseglo 86 %. Sistem je pokazal še hitrejšo rast pri ravneh 90 % in 100 % pravilno izpolnjenih polj. Ti pragovi nam dajejo praktičen vpogled v to, koliko nadaljnjega dela strokovnjaka različne napovedi še zahtevajo. 

Na začetku je Tax AI obravnaval enostavnejše delo, kot so W-2 in 1099. Ko je sezona napredovala, je prešel na bolj zapletene napovedi s K-1, prilogami in zahtevnejšimi robnimi primeri. Vsaka nova zmožnost je prihranila več časa na napoved kot prejšnja, ker so bile naloge, ki jih je prevzela, težje in bolj zamudne za ročno izvedbo. Napredek opažamo še danes.

V nadaljevanju bomo prikazali, kako so naše ekipe skupaj zasnovale Tax AI kot samoizboljševalen sistem, ki temelji na treh ključnih stebrih: 1) povratne informacije strokovnjakov, 2) produkcijske sledi (strukturirana zgodovina od vhodov do končnega izhoda) in 3) iteracijska zanka, ki jo poganja Codex in temelji na prilagojenih evalvacijah za neprekinjen in hitrejši razvoj izdelka. Upamo, da bodo naše izkušnje koristne tudi drugim ustvarjalcem na področjih, kjer je strokovno znanje praktikov ključno za oblikovanje kakovosti celotnega sistema in podatkov, ki tečejo skozenj.

Ko se je Tax AI razširil na bolj zapletene napovedi, je delež ocenjenih napovedi, ki so dosegle 75 %, 90 % in popolno izpolnjenost, skozi davčno sezono še naprej naraščal.

Težava

Ko smo se lotili težjih delov priprave davkov (K-1, priloge za najem nepremičnin in davčni obrazci, kjer je bilo treba vrednosti uskladiti med več izvornimi datotekami), je postalo očitno, da je pravi izziv v tem, ali lahko izdelek zapletene produkcijske napake naredi vidne, razumljive in uporabne za ukrepanje.

V zgodnjih dneh izdelka je bila večina popravkov ročnih. Strokovnjaki so lahko popravljali napake sistema, vendar izdelek ni zajel celotnega konteksta: spremenjena vrednost pred vložitvijo je lahko odražala resnično napako pri ekstrakciji, težavo pri preslikavi, manjkajočo podporo izdelka ali pričakovani šum poteka dela. Za razrešitev teh primerov je bilo še vedno potrebno nadaljnje delo inženirske ekipe. Inženirji so lahko uporabljali agente za kodiranje, vendar sistem še ni bil zasnovan tako, da bi umetno inteligenco smiselno uporabljal znotraj zanke izboljševanja. Nismo imeli signala, s katerim bi prepoznali pravi izziv za premagovanje.

Naš pristop: tridelna zanka

To nas je pripeljalo do zasnove sistema okoli treh stebrov:

  1. Ostanite blizu strokovnjakom: Ljudje, ki opravljajo delo, morajo usmerjati, kaj se izdelek nauči. Njihova intuicija in razumevanje razkrivata, katere napake so pomembne, ter pomagata določiti, na katere dele poteka dela se je vredno osredotočiti naslednje.
  2. Zgradite izdelek tako, da produkcija ustvarja dokaze: Izdelek mora zajeti več kot le vhode in izhode; zajeti mora celotno pot od izvornega gradiva prek izluščenih polj in izvora podatkov do nadaljnje oddaje in strokovnega popravka.
  3. Ustvarite zanko izboljševanja, ki jo poganja Codex: Ko so produkcijske težave vidne in strukturirane, lahko postanejo ugotovitve, prilagojene evalvacije in omejene inženirske naloge. Codex lahko nato pomaga pri raziskavi, predlaga spremembe, jih preveri s ciljnimi in regresijskimi evalvacijami ter izdelek premika naprej hitreje kot povsem ročni iteracijski cikel. 

Spodnji primer najemnih nepremičnin prikazuje, kako ta zanka deluje v praksi, in vas vodi skozi to, kako popravek strokovnjaka postane strukturirana ugotovitev, nato cilj evalvacije in nazadnje omejena inženirska naloga za Codex.

Primer najemne nepremičnine

Prihodek od najemne nepremičnine se poroča v Schedule E individualne davčne napovedi. Z inženirskega vidika je nalogo njegove ekstrakcije preprosto opisati, vendar jo je težko dobro izvesti. Sistem mora prebrati neurejeno izvorno gradivo (ročno napisane opombe, e-pošto, preglednice in druge datoteke strank), izluščiti polja za najemne nepremičnine, ki jih lahko zanesljivo preslika v davčni pogon, in ohraniti dovolj dokazov, da lahko strokovnjak rezultat odobri ali popravi. Poenostavljen primer spodaj prikazuje, kako bi te izvorne datoteke in izluščeni izhodi lahko izgledali.

""

Izvorni paket za najemno nepremičnino se normalizira v citirana polja, preden se ta preslikajo v nadaljnje koncepte davčnega pogona.

1. Popravek strokovnjaka razkrije napako

Razlika med vrednostjo, ki jo je napovedal agent, in dejansko vrednostjo iz vložene davčne napovedi lahko odraža resnično napako pri ekstrakciji, lahko pa je tudi posledica preference strokovnjaka, vrednosti, prenesene iz napovedi prejšnjega leta v davčnem pogonu, ali vrednosti, uvedene oziroma spremenjene drugje v poteku oddaje. Strokovnjaki so nam pomagali razločiti te primere, da smo lahko ugotovili, katera dejanja so zahtevala popravek strokovnjaka ali blokirala oddajo.

Ker smo te popravke lahko podrobno videli, smo postopek pregleda preoblikovali iz končnega koraka po neuspehu v neprekinjen cikel učenja. Potek dela smo zasnovali tako, da zajame dejanja strokovnjakov kot strukturirane podatke. Zdaj vsak poseg napaja zanko izboljševanja izdelka tako, da natančno zabeleži, kaj je predlagal Tax AI, kaj je strokovnjak spremenil in kaj je bilo na koncu vključeno v vloženo napoved.

2. Sledi izdelka pretvorijo popravke v evalvacije

Pri zapletenem poteku dela, kot so najemne nepremičnine, mora sistem ohraniti, kaj se zgodi med izvornimi datotekami in vloženo davčno napovedjo. Na tej poti se dokumenti organizirajo, razdelijo in razvrstijo; polja za najemne nepremičnine se izluščijo s citati nazaj do izvornega gradiva; te vrednosti se preslikajo v davčni pogon; strokovnjaki pa jih lahko pred vložitvijo še vedno popravijo. Te sledi na ravni izdelka omogočajo raziskavo, kje je prišlo do napake. Da bi popravke strokovnjakov pretvoril v uporabne cilje evalvacije, jih sistem obdela v treh korakih:

  • Zajem razlike: Izhod Tax AI se primerja z vloženo napovedjo, da nastanejo pregledne vrstice na ravni polj, ki zajamejo pričakovano vrednost, napovedano vrednost in ali je razlika videti uporabna za ukrepanje.
  • Združevanje povezanih napak: Podobne pregledne vrstice se združijo, da se ponavljajoče se napake izdelka ločijo od pričakovanega šuma poteka dela. Na primer, ponavljajoči se popravki strokovnjakov lahko pokažejo, da Tax AI pogosto spregleda polja »fair rental days«, napačno obravnava »other expenses« ali zamenjuje več najemnih nepremičnin v istem izvornem paketu.
  • Pretvorba ponavljajočih se vzorcev v cilje evalvacije: Ko so ponavljajoče se ugotovitve pregledane in izmerjene, postanejo jasni cilji evalvacije, ki jih lahko Codex izboljša.
""

Vrstice pregleda najemnih nepremičnin ločijo ponavljajoče se napake izdelka od pričakovanega šuma, nato pa uporabne primere pretvorijo v cilje evalvacije, ki Codexu dajo jasen izziv.

3. Ugotovitev postane izziv za Codex

Tretji steber je ustvarjanje inženirske zanke, ki lahko ukrepa na podlagi teh novih evalvacij. Tu Codex postane osrednjega pomena.

Predpostavimo, da naš cevovod evalvacije označi, da Tax AI dosledno spregleda polje "fair rental days", medtem ko ga strokovnjaki zanesljivo izpolnijo. Ker je ta ugotovitev že zapakirana v ciljni nabor evalvacije z reprezentativnimi izvornimi paketi in pričakovanimi izhodi, lahko Codex razišče temeljni vzrok neposredno znotraj ogrodja izdelka.

Codex ne dela zgolj s podpovprečnim končnim izhodom. Skupaj pregleda sled, evalvacijo, repozitorij in veščine:

  • Raziskava cevovoda: Preglej izvorne pakete, ekstrakcijske sheme, vedenje preslikovalnika in poti kode, da ugotoviš, ali je težava nepodprto polje, spregledan vzorec ekstrakcije, težava pri izbiri vira, vrzel v preslikovalniku ali težava ocenjevalnika.
  • Izvedba ciljanih popravkov: Razširi ekstrakcijsko shemo, izboljšaj izbiro vira za dokumente o najemnih nepremičninah, posodobi preslikovalnik davčnega pogona ali izpopolni ocenjevalnik, če se pričakovani šum poteka dela šteje kot napaka.
  • Preveri in predlagaj: Znova zaženi ciljno evalvacijo, zaženi širše regresijske zbirke in prikaži kandidatno zahtevo za združitev sprememb za inženirski pregled.
  • Skleni zanko: Pretvori ponavljajoč se popravek strokovnjaka v merljivo inženirsko nalogo. Če so dokazi dvoumni ali jih ni mogoče varno avtomatizirati, se primer vrne produktni ekipi, namesto da bi ga na silo potisnili skozi zanko.
""

Celovita zanka samoizboljševanja: produkcijske sledi razkrijejo ponavljajoče se popravke na ravni polj, ki postanejo signali napak, ki jih lahko Codex pregleda skupaj s sledjo, evalvacijami, repozitorijem in veščinami. Uporabni vzorci postanejo omejene evalvacije in kandidati za spremembe izdelka; dvoumni primeri se vrnejo inženirjem v pregled. Vsaka uvedena izboljšava ustvari nove produkcijske dokaze za naslednji cikel.

Kako uporabiti Codex za gradnjo te zanke

Primer najemne nepremičnine ponazarja širši, ponovno uporaben vzorec: uporabo produkcijskih artefaktov in sledi za izboljšanje zmožnosti agenta. Ob pregledanih ugotovitvah iz produkcijskih podatkov, izvornih sledeh, pričakovanem izhodu davčnega pogona, ustreznih primerih kode in ukazih evalvacije kot vhodnem naboru lahko Codex v tednih in mesecih bistveno izboljša zmogljivost in natančnost. To nadgrajuje načela, opisana v našem delu o inženiringu ogrodja in Symphony, ki pojasnjujeta, kako naloge narediti razumljive za Codex, zagotoviti omejen kontekst in orodja ter ohraniti validacijo in človeški pregled kot del okolja. 

Ti dokazi ne postanejo samodejno naloga za Codex. Popravek strokovnjaka lahko odraža napako pri ekstrakciji, težavo pri preslikavi, nepodprto vedenje izdelka, davčno presojo ali pričakovani šum poteka dela. Šele ko so ponavljajoče se razlike pregledane in združene v uporabno ugotovitev, jih sistem pretvori v omejeno nalogo z jasnim pogojem uspeha.

To avtomatizacijo uporabljamo na omejeni plasti izdelka. Ta plast izvaja ekstrakcijo in preslika izvorne dokumente v davčne poteke dela. Inženirji ostajajo odgovorni za arhitekturo, odločitve o izdelku in izdajo. Strokovnjaki usmerjajo zanko izboljševanja prek dela, ki ga že opravljajo: popravljanja izluščenih vrednosti, pregleda napovedi in odobravanja končnih vložitev.

Za Codex rezultat ni nejasno opozorilo, temveč omejena inženirska naloga z dokazi, urejljivimi površinami izdelka in izrecnimi validacijskimi vrati. Kontekst za reprezentativno nalogo najemne nepremičnine lahko povzamemo takole:

Navadno besedilo

1
/candidates/FIND-RENTAL-0042/
2
3
├── repo/ [1]
4
│ └── branch: codex/fix-rental-0042
5
│ │
6
│ ├── AGENTS.md
7
│ │
8
│ ├── tasks/FIND-RENTAL-0042/
9
│ │ ├── task.yaml
10
│ │ ├── EXEC_PLAN.md
11
│ │ └── RESULTS.md
12
│ │
13
│ ├── app/tax-ai/rental-income/ [2]
14
│ │ ├── agent.ts
15
│ │ ├── schema.ts
16
│ │ ├── provenance.ts
17
│ │ └── mapper.ts
18
│ │
19
│ ├── evals/ [3]
20
│ │ ├── datasets/fair-rental-days.yaml
21
│ │ ├── suites/fair-rental-days.yaml
22
│ │ ├── suites/rental-income-regression.yaml
23
│ │ └── graders/rental-income.yaml
24
│ │
25
│ ├── skills/ [4]
26
│ │ ├── eval-runner/
27
│ │ └── tax-field-docs/
28
│ │
29
│ └── docs/ [4]
30
│ ├── architecture/
31
│ └── task-environments/
32
33
└── scoped-tools/ [5]
34
├── production-trace
35
├── source-artifacts
36
└── tax-engine-docs

Omejeno okolje nalog Codex ločuje zapisljivo delovno drevo [1] od produkcijskega konteksta samo za branje [5]. Delovno drevo vsebuje omejeno površino izdelka, ki jo lahko Codex pregleda ali spremeni [2], ciljne in regresijske evalvacije, ki določajo uspeh [3], ter ponovno uporabne veščine/dokumente, ki kodirajo, kako izvesti nalogo in upoštevati prejšnje odločitve [4]. Kontekst samo za branje zagotavlja produkcijsko sled, izvorne dokumente, napoved Tax AI, dokončano napoved in dokumentacijo polj davčnega pogona, tako da lahko Codex razišče napako, ne da bi spreminjal osnovne dokaze.

Širitev na nova področja

Ista zanka velja tudi zunaj najemnih nepremičnin. Najemne nepremičnine so za dosego 90-odstotne natančnosti in priklica zahtevale približno šest tednov ter precejšen inženirski nadzor, vendar je to delo ustvarilo ponovno uporabne abstrakcije, artefakte pregleda, konvencije evalvacije in izvedbene vzorce, ki so olajšali podporo podobno zapletenim prilogam, kot sta Schedule C in Schedule A.

Tax AI dokazuje pot do gradnje samoizboljševalnih agentov. Strokovnjaki z izvajanjem storitve ustvarjajo visokovredne signale povratnih informacij. Poteki dela izdelka te signale ohranijo kot strukturirane dokaze. Inženirski sistemi, podprti z evalvacijami, preverijo izboljšave, preden dosežejo produkcijo, zanka, ki jo poganja agent, pa ohranja sistem v neprekinjenem toku samoizboljševanja. 

Struktura Thrive Holdings nam omogoča, da to okolje ponovimo v določenih panogah. Holdings je hkrati lastnik in Operator, zato lahko naše združene inženirske ekipe neposredno sodelujejo s strokovnjaki in produkcijskimi podatki znotraj podjetij, kot je Crete, ne kot ponudnik, temveč kot partnerji. To pomeni, da so tehnologija, izdelek in storitev pod isto streho, kar nam pomaga hitreje napredovati in graditi izjemne izdelke.

Ena višja računovodkinja, ki je lani za pripravo davkov porabila 180 ur, je letos za to porabila le 15 ur. Del tega časa je namenila temu, da je poklicala prav vsako svojo stranko in z njo pregledala njeno napoved, kar je raven osebne storitve, ki pred letom dni ni bila mogoča. Preostali čas je uporabila za prevzem novih strank in širitev na nove storitvene ponudbe.

Naše ekipe zdaj skupaj uporabljajo isti tridelni načrt iz Tax AI kot osnutek za gradnjo potekov dela na drugih področjih v Thrive Holdings(odpre se v novem oknu); računovodskih potekih dela, kot sta knjigovodstvo in revizija, ter operativnih potekih dela, kot je avtomatizacija IT-podpore. V različnih področjih in panogah širša obljuba samoizboljševalnih agentov ostaja. Najboljše agente usmerjajo ljudje, da se sčasoma naučijo postati zmogljivejši, bolj zaupanja vredni in dragocenejši.

Če želite izvedeti več o ekipi OpenAI, ki je delala na tem projektu, stopite v stik.

Avtor

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo in John de Wasseige