27. mai 2026

Enesetäiustuvate maksuagentide loomine Codexiga

Tehnilise personali liikmetelt: Aravind Srinivasan ja Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo ja John de Wasseige (OpenAI)

Laadimine…

Kuidas Thrive Holdings ja OpenAI arendasid koos Crete’i raamatupidajatele Tax AI, ühendades praktikute asjatundlikkuse Codexi juhitud tsükliga

Pärismaailma süsteemid käituvad tootmises teisiti kui laboris ning lähevad katki viisidel, mida on enne juurutamist raske ette näha. Meeskonnad avastavad need tõrked sageli pärast käivitamist ning kulutavad siis nädalaid erandjuhtumite uurimisele, viipade kohandamisele ja tootmistagasiside tõlkimisele püsivateks tootearendusteks. Tagasisidetsükkel on käsitsi juhitav ja aeglane ning paraneb ainult siis, kui insener seda edasi viib. Kuid täna saab läbimõeldult kavandatud hindamistaristu, otsese ligipääsu praktikutele ja pärismaailma keskkondadele ning Codexi tipptasemel agentsete võimete abil ehitada agente, mis end ise täiustavad.

Selles postituses selgitame, kuidas kasutasime Codexit seda tüüpi agendi ehitamiseks. Viimase kuue kuu jooksul tegid OpenAI välitööle suunatud insenerid ja teadlased koos Thrive Holdingsi inseneridega koostööd, et ehitada Tax AI koos Crete⁠(avaneb uues aknas)’i enam kui 30 raamatupidamisfirmast koosneva võrgustikuga ja selle jaoks, aidates ette valmistada üha keerukamaid maksudeklaratsioone. Selle asemel et loota iga tõrke leidmisel ja parandamisel inseneridele, kasutavad Tax AI Codexit, et muuta tootmiskasutus struktureeritud signaalideks, mis toidavad autonoomset täiustumist.

Crete’i praktikud koostavad igal hooajal kümneid tuhandeid maksudeklaratsioone, mis nõuab miljonite alusdokumentide läbitöötamist. Keskmise kuni suure keerukusega deklaratsioonide puhul võib ainuüksi andmesisestus võtta ühe deklaratsiooni kohta kaheksa tundi ning hõlmab sageli korratuid andmeallikaid, eelmise aasta dokumente ning käsitsi ekstraktsiooni ja arvutamist. Nad osutasid maksude ettevalmistamisele kui olulisele pudelikaelale maksuhooaja kõige kiiremal perioodil.

Selle probleemi lahendamiseks töötles Tax AI sel maksuhooajal 7000 maksudeklaratsiooni Crete’i firmades, kes piloodis osalesid. Süsteem automatiseerib suure osa 1040 ja 1041 maksudeklaratsioonide ettevalmistamise ajamahukast protsessist, kuid tõhususe kasvust veelgi veenvam on see, et süsteem ise on mõõdetavalt parem kui versioon, mis juurutati esimest korda kolm kuud tagasi.

Mõõdetav enesetäiustumine

Tax AI-s laadivad praktikud üles lähtefailid koos kõigi kliendispetsiifiliste märkustega. Seejärel loob Tax AI maksuarvutusmootori esituse, mis on ülevaatuseks valmis. See säästab praktikutel umbes kolmandiku maksude ettevalmistamise ajast, koostab deklaratsioonide mustandid kuni 97% täpsusega ja suurendab läbilaset umbes 50%, luues neile rohkem ruumi klientidega aja veetmiseks.

Saame seda paranemist kvantifitseerida, mõistes, kui täpselt suudab Tax AI deklaratsiooni lõpule viia ilma, et see hiljem parandamist vajaks. Mõõdame täpsust, kontrollides, kui suur osa deklaratsioonidest jõuab 75%, 90% või 100% korrektse väljatäituvuseni. Käivitamisel jõudis 75% korrektse väljatäituvuseni vaid veerand deklaratsioonidest, kuid kuue nädala jooksul saavutas selle taseme 86%. Süsteem näitas veelgi kiiremat kasvu 90% ja 100% korrektse väljatäituvuse tasemetel. Need lävendid annavad meile praktilise vaate sellele, kui palju praktiku järeltegevust eri deklaratsioonid endiselt vajavad.

Alguses tegeles Tax AI lihtsama tööga, nagu W-2-d ja 1099-d. Hooaja edenedes liikus see keerukamate deklaratsioonide juurde, kus olid K-1-d, lisad ja raskemad servajuhtumid. Iga uus võimekus säästis deklaratsiooni kohta rohkem aega kui eelmine, sest ülesanded, mille see üle võttis, olid käsitsi tehes raskemad ja aeganõudvamad. Näeme jätkuvat edenemist ka täna.

Järgmisena näitame, kuidas meie meeskonnad kujundasid Tax AI ühiselt enesetäiustuvaks, toetudes kolmele kriitilisele sambale: 1) ekspertpraktikute tagasiside, 2) tootmisjäljed (struktureeritud ajalugu sisenditest lõppväljundini) ja 3) kohandatud hindamistel põhinev Codexi juhitud iteratsioonitsükkel, mis võimaldab pidevat ja kiiremat tootearendust. Loodame, et meie kogemus on kasulik teistele loojatele valdkondades, kus praktikute asjatundlikkus on võtmetähtsusega kogu süsteemi ja seda läbivate andmete kvaliteedi kujundamisel.

Kuna Tax AI laienes keerukamatele deklaratsioonidele, kasvas maksuhooaja jooksul jätkuvalt nende hinnatud deklaratsioonide osakaal, mis jõudsid 75%, 90% ja täieliku täituvuseni.

Probleem

Kui liikusime maksude ettevalmistamise raskematesse osadesse (K-1-d, üürikinnisvara lisad ja maksuvormid, kus väärtusi tuli mitme lähtefaili vahel kooskõlastada), sai ilmseks, et tegelik väljakutse oli see, kas toode suudab keerukad tootmistõrked nähtavaks, arusaadavaks ja rakendatavaks muuta.

Toote algusaegadel tehti enamik parandusi käsitsi. Praktikud said süsteemi vigu parandada, kuid toode ei talletanud täielikku konteksti: enne esitamist muudetud väärtus võis peegeldada tõelist ekstraktsiooniviga, vastendusprobleemi, puuduolevat tootetuge või eeldatavat töövoomüra. Nende juhtumite lahtiharutamine nõudis endiselt insenerimeeskonna järeltegevust. Insenerid võisid kasutada kodeerivaid agente, kuid süsteem ei olnud veel loodud AI-d täiustamistsüklis sisukalt kasutama. Meil puudus signaal, et tuvastada õige tipp, mille poole püüelda.

Meie lähenemine: kolmeosaline tsükkel

See viis meid süsteemi kujundamiseni kolme samba ümber:

Püsi praktikute lähedal: inimesed, kes tööd teevad, peavad suunama seda, mida toode õpib. Nende intuitsioon ja arusaam näitavad, millised vead on olulised, ning aitavad mõista, millistele töövoo osadele tasub järgmisena keskenduda.
Ehita toode nii, et tootmine looks tõendusmaterjali: toode peab talletama enamat kui sisendid ja väljundid; see peab talletama kogu tee algmaterjalist ekstraheeritud väljade ja päritoluni ning sealt allavoolu esituse ja eksperdiparanduseni.
Loo Codexi juhitud täiustamistsükkel: kui tootmisprobleemid on nähtavad ja struktureeritud, võivad neist saada leiud, kohandatud hindamised ja piiritletud inseneriülesanded. Seejärel saab Codex aidata uurida, muudatusi pakkuda, neid sihitud ja regressioonihindamistes valideerida ning viia toodet edasi kiiremini kui puhtalt käsitsi juhitud iteratsioonitsükkel.

Allolev üürikinnisvara näide näitab, kuidas see tsükkel praktikas toimib, juhatades teid läbi selle, kuidas praktiku parandus muutub struktureeritud leiuks, seejärel hindamise sihtmärgiks ja lõpuks Codexi jaoks piiritletud inseneriülesandeks.

Üürikinnisvara näide

Üürikinnisvara tulu kajastatakse eraisiku maksudeklaratsiooni Schedule E-l. Inseneri vaatenurgast on selle ekstraheerimise ülesannet lihtne kirjeldada, kuid raske hästi teha. Süsteem peab lugema korratut algmaterjali (käsitsi kirjutatud märkmed, e-kirjad, tabelid ja muud kliendifailid), ekstraheerima üürikinnisvara väljad, mida süsteem saab kindlalt maksuarvutusmootoriga vastendada, ning säilitama piisavalt tõendusmaterjali, et praktik saaks tulemuse heaks kiita või parandada. Allolev lihtsustatud näide näitab, millised need lähtefailid ja ekstraheeritud väljundid võiksid välja näha.

*Üürikinnisvara lähtepakett normaliseeritakse viidatud väljadeks, enne kui need vastendatakse järgnevate maksuarvutusmootori mõistetega.*

1. Praktiku parandus paljastab tõrke

Erinevus agendi prognoositud väärtuse ja esitatud maksudeklaratsiooni tegeliku väärtuse vahel võib viidata tõelisele ekstraktsiooniveale, kuid see võib olla ka praktiku eelistus, maksuarvutusmootoris eelmisest aastast üle kantud väärtus või väärtus, mis lisati või muudeti mujal deklaratsiooni töövoos. Praktikud aitasid meil neid juhtumeid eristada, et saaksime tuvastada, millised tegevused vajasid praktiku parandust või blokeerisid esitamise.

Kuna nägime neid parandusi detailselt, muutsime ülevaatusprotsessi lõplikust, tõrkejärgsest etapist pidevaks õppetsükliks. Kavandasime töövoo nii, et see talletaks ekspertide tegevused struktureeritud andmetena. Nüüd toidab iga sekkumine toote täiustamistsüklit, salvestades täpselt, mida Tax AI pakkus, mida praktik muutis ja mis lõpuks esitatud deklaratsiooni jõudis.

2. Tootmisjäljed muudavad parandused hindamisteks

Keeruka töövoo, nagu üürikinnisvara, puhul peab süsteem säilitama selle, mis juhtub lähtefailide ja esitatud deklaratsiooni vahel. Sellel teel dokumendid korrastatakse, jagatakse ja klassifitseeritakse; üürikinnisvara väljad ekstraheeritakse koos viidetega algmaterjalile; need väärtused vastendatakse maksuarvutusmootorisse; ning praktikud võivad neid enne esitamist siiski parandada. Need tootetaseme jäljed võimaldavad uurida, kus tõrge tekkis. Et muuta praktiku parandused kasulikeks hindamise sihtmärkideks, töötleb süsteem neid kolmes etapis:

Jäädvusta erinevus: Tax AI väljundit võrreldakse esitatud deklaratsiooniga, et luua väljataseme ülevaateread, mis talletavad oodatud väärtuse, prognoositud väärtuse ja selle, kas erinevus näib rakendatav.
Rühmita seotud tõrked: Sarnased ülevaateread rühmitatakse, et eraldada korduvad tootetõrked eeldatavast töövoomürast. Näiteks võivad korduvad praktiku parandused näidata, et Tax AI jätab sageli vahele „õiglase üürimise päevade” väljad, käsitleb valesti „muid kulusid” või ajab samas lähtepaketis mitu üürikinnisvara omavahel segi.
Muuda korduvad mustrid hindamise sihtmärkideks: kui korduvad leiud on üle vaadatud ja mõõdetud, saavad neist Codexi täiustamiseks selged hindamise sihtmärgid.

*Üürikinnisvara ülevaateread eraldavad korduvad tootetõrked eeldatavast mürast ning muudavad rakendatavad juhtumid hindamise sihtmärkideks, mis annavad Codexile tipu, mille poole püüelda.*

3. Leiust saab Codexi jaoks vallutatav tipp

Kolmas tugisammas on inseneritsükli loomine, mis suudab nende uute hindamiste põhjal tegutseda. Siin muutub Codex keskseks.

Oletame, et meie hindamisvoog märgib, et Tax AI jätab järjepidevalt vahele välja "õiglase üürimise päevad", samal ajal kui praktikud täidavad selle usaldusväärselt. Kuna see leid on juba pakitud sihitud hindamiskomplektiks koos esinduslike lähtepakettide ja oodatud väljunditega, saab Codex uurida algpõhjust otse toote karkassi sees.

Codex ei piirdu ainult keskpärase lõppväljundiga. See uurib koos jälge, hindamist, varamut ja oskusi:

Uurib töövoogu: kontrollib lähtepakette, ekstraktsiooniskeeme, vastendaja käitumist ja kooditeid, et teha kindlaks, kas probleem on toetamata väli, vahele jäänud ekstraktsioonimuster, lähtevaliku probleem, vastendaja puudujääk või hindaja viga.
Rakendab sihitud parandused: laiendab ekstraktsiooniskeemi, parandab üürikinnisvara dokumentide lähtevalikut, uuendab maksuarvutusmootori vastendajat või täpsusta hindajat, kui eeldatavat töövoomüra loetakse tõrkeks.
Valideerib ja esitab ettepaneku: käivitab sihitud hindamins uuesti, käivitab laiemad regressioonikomplektid ja toob inseneride ülevaatuseks esile võimaliku pull request.
Sulgeb tsükkel: muudab korduva praktiku paranduse mõõdetavaks inseneriülesandeks. Kui tõendusmaterjal on ebaselge või seda ei saa ohutult automatiseerida, suunatakse juhtum tagasi tootemeeskonnale, mitte ei suruta seda tsüklist läbi.

Täielik enesetäiustamise tsükkel: tootmisjäljed toovad esile korduvad väljataseme parandused, millest saavad tõrkesignaalid, mida Codex saab uurida koos jälje, hindamise, varamu ja oskustega. Tegevust võimaldavad mustrid muutuvad piiritletud evalideks ja võimalikeks tootemuudatusteks; ebaselged juhtumid suunatakse ülevaatuseks tagasi inseneridele. Iga juurutatud parendus loob järgmise tsükli jaoks uut tootmistõendusmaterjali.

Kuidas kasutada Codexit selle tsükli loomiseks

Üürikinnisvara näide iseloomustab laiemat taaskasutatavat mustrit: tootmisartefaktide ja jälgede kasutamist agendi võimekuse parandamiseks. Kui sisenditena on olemas tootmisandmetest üle vaadatud leiud, lähtejäljed, oodatud maksuarvutusmootori väljund, asjakohased koodinäited ja hindamiskäsklused, saab Codex nädalate ja kuude jooksul jõudlust ja täpsust märkimisväärselt parandada. See tugineb põhimõtetele, mida kirjeldasime oma töös harness engineering’u ja Symphony kohta; need selgitavad, kuidas teha ülesanded Codexile loetavaks, pakkuda piiritletud konteksti ja tööriistu ning hoida valideerimine ja inimülevaatus keskkonna osana.

See tõendusmaterjal ei muutu automaatselt Codexi ülesandeks. Praktiku parandus võib peegeldada ekstraktsiooniviga, vastendusprobleemi, toetamata tootefunktsionaalsust, maksualast hinnangut või eeldatavat töövoomüra. Alles pärast seda, kui korduvad erinevused on üle vaadatud ja rühmitatud rakendatavaks leiuks, muudab süsteem need piiritletud ülesandeks selge edutingimusega.

Rakendame seda automatiseerimist toote piiritletud kihile. See kiht teeb ekstraktsiooni ja vastendab lähtedokumendid maksutöövoogudesse. Insenerid vastutavad endiselt arhitektuuri, tooteotsuste ja juurutamise eest. Praktikud juhivad täiustamistsüklit töö kaudu, mida nad niigi teevad: ekstraheeritud väärtuste parandamine, deklaratsioonide ülevaatamine ja lõplike esituste kinnitamine.

Codexi jaoks ei ole tulemus ebamäärane hoiatus, vaid piiritletud inseneriülesanne koos tõendusmaterjali, muudetavate tootepindade ja selgesõnaliste valideerimisväravatega. Esindusliku üürikinnisvara ülesande konteksti võib kokku võtta järgmiselt:

Lihtne tekst

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

Piiritletud Codexi ülesandekeskkond eraldab kirjutatava tööpuu [1] kirjutuskaitstud tootmiskontekstist [5]. Tööpuu sisaldab piiritletud tootepinda, mida Codex saab uurida või muuta [2], sihitud ja regressioonihindamised, mis määratlevad edu [3], ning taaskasutatavad oskused/dokumendid, mis kodeerivad, kuidas ülesannet käivitada ja varasemaid otsuseid järgida [4]. Kirjutuskaitstud kontekst pakub tootmisjälge, lähtedokumente, Tax AI prognoosi, lõplikku deklaratsiooni ja maksuarvutusmootori väljadokumentatsiooni, et Codex saaks tõrget uurida ilma aluseks olevat tõendusmaterjali muutmata.

Laienemine uutesse valdkondadesse

Sama tsükkel kehtib ka väljaspool üürikinnisvara. Üürikinnisvara puhul kulus umbes kuus nädalat ja märkimisväärne insenerijärelevalve, et jõuda 90% täpsuse ja saagivuseni, kuid see töö lõi taaskasutatavad abstraktsioonid, ülevaatusartefaktid, hindamiskonventsioonid ja rakendusmustrid, mis lihtsustasid sarnaselt keerukate lisade, nagu Schedule C ja Schedule A, toetamist.

Tax AI tõestab teed enesetäiustuvate agentide ehitamiseni. Praktikud loovad teenust osutades suure väärtusega tagasisidesignaale. Tootetöövood säilitavad need signaalid struktureeritud tõendusmaterjalina. Hindamistega toetatud insenerisüsteemid valideerivad parendused enne tootmisse jõudmist ning agendipõhine tsükkel hoiab süsteemi pidevas enesetäiustamise voos.

Thrive Holdingsi struktuur võimaldab meil seda keskkonda konkreetsetes tööstusharudes korrata. Holdings on nii omanik kui ka Operator, seega saavad meie ühendatud insenerimeeskonnad töötada otse praktikute ja tootmisandmetega ettevõtete, nagu Crete, seestpoolt — mitte tarnijana, vaid partneritena. See tähendab, et tehnoloogia, toode ja teenus asuvad kõik ühe katuse all, aidates meil kiiremini liikuda ja luua erakordseid tooteid.

Üks vanemraamatupidaja, kes kulutas eelmisel aastal maksude ettevalmistamisele 180 tundi, kulutas sel aastal sellele vaid 15 tundi. Ta kasutas osa sellest ajast selleks, et helistada igale oma kliendile ja käia nendega deklaratsioonid läbi — selline kõrge kontaktiga teenindustase ei olnud aasta tagasi võimalik. Ülejäänud aja kasutas ta uute klientide võtmiseks ja uute teenusepakkumiste laiendamiseks.

Koos kasutavad meie meeskonnad nüüd sama Tax AI kolmeosalist ülesehitust kavandina töövoogude loomiseks teistes valdkondades üle Thrive Holdingsi⁠(avaneb uues aknas); raamatupidamise töövood nagu raamatupidamine ja audit ning operatiivsed töövood nagu IT kasutajatoe automatiseerimine. Valdkondade ja tööstusharude lõikes peab enesetäiustuvate agentide laiem lubadus paika. Parimaid agente juhivad inimesed, et nad õpiksid aja jooksul muutuma võimekamaks, usaldusväärsemaks ja väärtuslikumaks.

Et saada rohkem teada OpenAI meeskonna kohta, kes selle projekti kallal töötas, võtke ühendust.