27. maí 2026

Að byggja sjálfbætandi skattafulltrúa með Codex

Eftir Members of Technical Staff: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)

Hleður inn...

Hvernig Thrive Holdings og OpenAI þróuðu Tax AI í sameiningu fyrir endurskoðendur Crete með því að sameina sérfræðiþekkingu fagfólks og lykkju knúna af Codex

Kerfi í raunheimum hegða sér öðruvísi í rekstri en á rannsóknarstofu og bila á hátt sem erfitt er að sjá fyrir áður en þau eru tekin í notkun. Teymi uppgötva oft þessar bilanir eftir útgáfu og verja síðan vikum í að skoða jaðartilvik, laga kvaðningar og þýða endurgjöf úr rekstri yfir í varanlegar umbætur á vörunni. Endurgjafarlykkjan er handvirk og hæg og batnar aðeins þegar verkfræðingur ýtir henni áfram. En í dag, með vel hannaðri eval-innviði, beinum aðgangi að sérfræðingum og raunverulegu umhverfi, og fremstu fulltrúagetu Codex, geturðu byggt fulltrúa sem bæta sig sjálfir.

Í þessari færslu förum við yfir hvernig við notuðum Codex til að byggja þessa tegund fulltrúa. Undanfarna sex mánuði hafa verkfræðingar og rannsakendur frá OpenAI í vettvangsverkefnum unnið með verkfræðingum Thrive Holdings að því að byggja Tax AI með og fyrir net Crete⁠(opnast í nýjum glugga) af yfir 30 endurskoðunarfyrirtækjum til að hjálpa við undirbúning sífellt flóknari skattframtala. Í stað þess að treysta á verkfræðinga til að finna og laga hverja bilun notar Tax AI Codex til að breyta notkun í rekstri í skipulögð merki sem knýja sjálfstæðar umbætur.

Sérfræðingar hjá Crete undirbúa tugþúsundir skattframtala á hverju tímabili sem krefst vinnu með milljónir undirliggjandi skjala. Fyrir framtöl af meðal- til mikilli flækju getur gagnainnsláttur einn og sér tekið átta klukkustundir á hvert framtal og felur oft í sér óreiðukennda gagnagjafa, skjöl fyrra árs og handvirkan útdrátt og útreikninga. Þau bentu okkur á skattaundirbúning sem verulegan flöskuháls á annasamasta hluta skattatímabilsins.

Til að leysa þetta vandamál vann Tax AI úr 7.000 skattframtölum hjá Crete-fyrirtækjunum sem tóku þátt í tilraunaverkefninu á þessu skattatímabili. Kerfið sjálfvirknivæðir stóran hluta hins tímafreka ferlis við að undirbúa 1040- og 1041-skattframtöl, en enn meira sannfærandi en hagkvæmniaukningin er að kerfið sjálft er mælanlega betra en útgáfan sem fyrst var tekin í notkun fyrir þremur mánuðum.

Mælanleg sjálfbæting

Í Tax AI hlaða sérfræðingar upp upprunaskrám ásamt öllum athugasemdum sem eru sértækar fyrir viðskiptavin. Tax AI býr síðan til innsendingu í skattavél, tilbúna til yfirferðar. Það sparar sérfræðingum um þriðjung af tíma þeirra við skattaundirbúning, semur drög að framtölum með allt að 97% nákvæmni og eykur afköst um um 50%, sem skapar meira svigrúm fyrir þau til að verja tíma með viðskiptavinum.

Við getum magngreint þessa umbót með því að skilja hversu nákvæmlega Tax AI getur lokið framtali án þess að þurfa síðar leiðréttingu. Við mælum nákvæmni með því að athuga hvaða hlutfall framtala nær 75%, 90% eða 100% réttri útfyllingu reita. Við upphaf náði aðeins fjórðungur framtala 75% réttri útfyllingu reita, en innan sex vikna náðu 86% því marki. Kerfið sýndi enn hraðari vöxt við 90% og 100% rétta útfyllingu reita. Þessir þröskuldar gefa okkur hagnýta sýn á hversu mikla eftirfylgni sérfræðinga mismunandi framtöl krefjast enn.

Snemma á tímabilinu sinnti Tax AI einfaldari vinnu, eins og W-2 og 1099. Eftir því sem leið á tímabilið færðist það yfir í flóknari framtöl með K-1, fylgiskjölum og erfiðari jaðartilvikum. Hver ný geta sparaði meiri tíma á hvert framtal en sú síðasta vegna þess að verkefnin sem hún tók að sér voru erfiðari og tímafrekari að vinna handvirkt. Við höldum áfram að sjá stöðugar framfarir í dag.

Næst förum við yfir hvernig teymi okkar hönnuðu Tax AI saman til að það gæti bætt sig sjálft með því að styðjast við þrjár lykilstoðir: 1) endurgjöf sérfræðinga, 2) rekstrarspor (skipulögð saga frá inntaki til lokaúttaks) og 3) ítrunarlykkju knúna af Codex byggða á sérsniðnum evals til að gera samfellda og hraðari vöruþróun mögulega. Við vonum að reynsla okkar nýtist öðrum smiðum á sviðum þar sem sérfræðiþekking fagfólks skiptir lykilmáli við að móta gæði heildarkerfisins og gagnanna sem fara í gegnum það.

Eftir því sem Tax AI náði til flóknari framtala hélt hlutfall skoraðra framtala sem náðu 75%, 90% og fullri útfyllingu áfram að hækka yfir skattatímabilið.

Vandamálið

Þegar við færðum okkur inn í erfiðari hluta skattaundirbúnings (K-1, fylgiskjöl fyrir leiguhúsnæði og skattaeyðublöð þar sem samræma þurfti gildi yfir margar upprunaskrár) varð ljóst að raunverulega áskorunin var hvort varan gæti gert flóknar bilanir í rekstri sýnilegar, skiljanlegar og nýtanlegar.

Á fyrstu dögum vörunnar var mest af leiðréttingunum handvirkt. Sérfræðingar gátu leiðrétt villur kerfisins, en varan náði ekki utan um allt samhengi: breytt gildi fyrir innsendingu gæti endurspeglað raunverulegan útdráttarmissi, vörpunarvanda, skort á stuðningi í vörunni eða væntanlegan verkflæðishávaða. Að greiða úr þessum tilvikum krafðist enn eftirfylgni frá verkfræðiteyminu. Verkfræðingar gátu notað kóðunarfulltrúa, en kerfið var ekki enn hannað til að nota gervigreind á merkingarbæran hátt innan umbótalykkju. Við höfðum ekki merkið sem þurfti til að finna réttu brekkuna til að klífa.

Nálgun okkar: þríþætt lykkja

Það leiddi okkur að því að hanna kerfið í kringum þrjár stoðir:

Vertu nálægt sérfræðingum: Fólkið sem vinnur verkið þarf að stýra því sem varan lærir. Innsæi þeirra og skilningur leiða í ljós hvaða villur skipta máli og hjálpa til við að upplýsa hvaða hluta verkflæðisins sé þess virði að einbeita sér að næst.
Byggðu vöruna þannig að rekstur skapi gögn: Varan þarf að fanga meira en bara inntak og úttak; hún þarf að fanga alla leiðina frá upprunaefni, yfir í útdregna reiti og uppruna þeirra, yfir í niðurstreymis innsendingu og leiðréttingu sérfræðings.
Búðu til umbótalykkju knúna af Codex: Þegar vandamál í rekstri eru sýnileg og skipulögð geta þau orðið að niðurstöðum, sérsniðnum evals og afmörkuðum verkfræðiverkefnum. Codex getur þá hjálpað til við að rannsaka, leggja til breytingar, staðfesta þær gagnvart markvissum evals og aðhvarfs-evals og færa vöruna áfram hraðar en hreinlega handvirk ítrunarlykkja.

Dæmið um leigueignir hér að neðan sýnir hvernig þessi lykkja virkar í reynd og leiðir þig í gegnum hvernig leiðrétting sérfræðings verður að skipulagðri niðurstöðu, síðan matsmarkmiði og að lokum afmörkuðu verkfræðiverkefni fyrir Codex.

Dæmi um leigueign

Tekjur af leigueign eru skráðar á Schedule E í skattframtali einstaklings. Frá sjónarhóli verkfræði er verkefnið að draga þær út einfalt að lýsa en erfitt að framkvæma vel. Kerfið þarf að lesa óreiðukennt upprunaefni (handskrifaðar athugasemdir, tölvupósta, töflureikna og aðrar skrár viðskiptavina), draga út reiti leigueigna sem kerfið getur með öryggi varpað yfir í skattavélina og varðveita næg gögn til að sérfræðingur geti samþykkt eða leiðrétt niðurstöðuna. Einfaldaða dæmið hér að neðan sýnir hvernig þessar upprunaskrár og útdregnu niðurstöður gætu litið út.

*Upprunapakki fyrir leigueign er staðlaður í tilvitnuð reiti áður en þeim er varpað yfir á hugtök í undirliggjandi skattavél.*

1. Leiðrétting sérfræðings leiðir bilun í ljós

Mismunur á gildi sem fulltrúinn spáði fyrir um og raunverulegu gildi úr innsendu skattframtali gæti endurspeglað raunverulegan útdráttarmissi, en hann gæti líka stafað af vali sérfræðings, gildi sem var fært áfram úr framtali fyrra árs í skattavélinni, eða gildi sem var sett inn eða breytt annars staðar í framtalsferlinu. Sérfræðingar hjálpuðu okkur að greina þessi tilvik svo við gætum fundið hvaða aðgerðir kröfðust leiðréttingar sérfræðings eða stöðvuðu innsendingu.

Þar sem við gátum séð þessar leiðréttingar í smáatriðum breyttum við yfirferðarferlinu úr lokaþrepi eftir bilun í samfellda lærdómslotu. Við hönnuðum verkflæðið þannig að það næði utan um aðgerðir sérfræðinga sem skipulögð gögn. Nú fæðir hvert inngrip umbótalykkju vörunnar með því að skrá nákvæmlega hvað Tax AI lagði til, hverju sérfræðingurinn breytti og hvað fór að lokum inn í innsent framtal.

2. Vöruspor breyta leiðréttingum í evals

Fyrir flókið verkflæði eins og leigueignir þarf kerfið að varðveita það sem gerist milli upprunaskjalanna og innsendu framtalsins. Á þeirri leið eru skjöl skipulögð, skipt upp og flokkuð; reitir fyrir leigueignir eru dregnir út með tilvísunum aftur í upprunaefnið; þeim gildum er varpað inn í skattavélina; og sérfræðingar geta enn leiðrétt þau áður en sent er inn. Þessi spor á vörustigi gera mögulegt að rannsaka hvar bilun átti sér stað. Til að breyta leiðréttingum sérfræðinga í gagnleg matsmarkmið vinnur kerfið úr þeim í þremur skrefum:

Fanga mismuninn: Úttak Tax AI er borið saman við innsent framtal til að búa til yfirferðarraðir á reitastigi sem fanga vænt gildi, spáð gildi og hvort mismunurinn virðist nýtanlegur.
Hópa tengdar bilanir: Svipaðar yfirferðarraðir eru flokkaðar saman til að aðgreina endurteknar vörubilanir frá væntanlegum verkflæðishávaða. Til dæmis gætu endurteknar leiðréttingar sérfræðinga sýnt að Tax AI missir oft af reitum fyrir „fair rental days“, fer rangt með „other expenses“ eða ruglar saman mörgum leigueignum innan sama upprunapakka.
Breyta endurteknum mynstrum í matsmarkmið: Þegar endurteknar niðurstöður hafa verið yfirfarnar og mældar verða þær að skýrum matsmarkmiðum fyrir Codex til að bæta.

*Yfirferðarraðir fyrir leigueignir aðgreina endurteknar vörubilanir frá væntanlegum hávaða, og breyta síðan nýtanlegum tilvikum í matsmarkmið sem gefa Codex brekku til að klífa.*

3. Niðurstaðan verður brekka fyrir Codex að klífa

Þriðja stoðin er að búa til verkfræðilykkju sem getur brugðist við þessum nýju evals. Þar verður Codex lykilatriði.

Segjum að eval-ferill okkar flaggi því að Tax AI missi stöðugt af reitnum „fair rental days“, á meðan sérfræðingar fylla hann áreiðanlega út. Þar sem þessi niðurstaða hefur þegar verið sett fram sem markvisst eval-safn, með dæmigerðum upprunapökkum og væntu úttaki, getur Codex rannsakað rót vandans beint innan vörugrindarinnar.

Codex vinnur ekki eingöngu með laklegt lokaúttak. Það skoðar sporið, eval, repo og skills saman:

Rannsaka ferilinn: Skoða upprunapakka, útdráttarskemu, hegðun varpara og kóðaslóðir til að ákvarða hvort vandinn sé óstuddur reitur, mynstur í útdrætti sem fór fram hjá, vandamál við val á uppruna, glufa í vörpun eða vandamál í grader.
Innleiða markvissar lagfæringar: Stækka útdráttarskemað, bæta val á uppruna fyrir skjöl um leigueignir, uppfæra varparann fyrir skattavélina eða fínstilla grader ef væntanlegur verkflæðishávaði er talinn sem bilun.
Staðfesta og leggja til: Keyra markvissa evalið aftur, keyra víðtækari aðhvarfsprófanir og birta tillögu að draga beiðni fyrir verkfræðilega yfirferð.
Loka lykkjunni: Breyta endurtekinni leiðréttingu sérfræðings í mælanlegt verkfræðiverkefni. Ef gögnin eru óljós eða ekki örugg til sjálfvirknivæðingar fer málið aftur til vöruteymisins í stað þess að vera þvingað í gegnum lykkjuna.

Sjálfbætingarlykkjan frá enda til enda: rekstrarspor draga fram endurteknar leiðréttingar á reitastigi, sem verða að bilunarmerkjum sem Codex getur skoðað ásamt sporinu, evals, repo og skills. Nýtanleg mynstur verða að afmörkuðum evals og mögulegum vörubreytingum; óljós tilvik fara aftur til verkfræðinga til yfirferðar. Hver útsend umbót skapar ný gögn úr rekstri fyrir næstu lotu.

Hvernig á að nota Codex til að byggja þessa lykkju

Dæmið um leigueign er táknrænt fyrir víðara endurnýtanlegt mynstur: að nota gripi og spor úr rekstri til að bæta getu fulltrúa. Með yfirfarnar niðurstöður úr rekstrargögnum, upprunaspor, væntu úttaki skattavélar, viðeigandi kóðadæmum og eval-skipunum sem inntakssafni getur Codex bætt frammistöðu og nákvæmni verulega á vikum og mánuðum. Þetta byggir á meginreglunum sem lýst er í vinnu okkar um harness engineering og Symphony, þar sem farið er yfir hvernig gera má verkefni læsileg fyrir Codex, veita afmarkað samhengi og verkfæri og halda staðfestingu og mannlegri yfirferð sem hluta af umhverfinu.

Þessi gögn verða ekki sjálfkrafa að Codex-verkefni. Leiðrétting sérfræðings getur endurspeglað útdráttarmissi, vörpunarvandamál, óstudda hegðun vörunnar, skattalegt mat eða væntanlegan verkflæðishávaða. Aðeins eftir að endurtekin frávik hafa verið yfirfarin og flokkuð í nýtanlega niðurstöðu breytir kerfið þeim í afmarkað verkefni með skýru árangursskilyrði.

Við beitum þessari sjálfvirknivæðingu á afmarkað lag vörunnar. Þetta lag framkvæmir útdrátt og varpar upprunaskjölum inn í skattaverkflæði. Verkfræðingar bera áfram ábyrgð á arkitektúr, vöruákvörðunum og útgáfu. Sérfræðingar stýra umbótalykkjunni í gegnum vinnuna sem þeir vinna nú þegar: að leiðrétta útdregin gildi, fara yfir framtöl og samþykkja endanlegar innsendingar.

Fyrir Codex er niðurstaðan ekki óljós viðvörun heldur afmarkað verkfræðiverkefni með gögnum, breytanlegum yfirborðum vörunnar og skýrum staðfestingarhliðum. Samhengið fyrir dæmigert verkefni um leigueign má draga saman svona:

Ósniðinn texti

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

Afmarkað verkefnaumhverfi fyrir Codex aðgreinir skrifanlegt worktree [1] frá skrifvörðu rekstrarsamhengi [5]. Worktree inniheldur afmarkað yfirborð vörunnar sem Codex getur skoðað eða breytt [2], markviss og aðhvarfs-evals sem skilgreina árangur [3], og endurnýtanleg skills/skjöl sem kóða hvernig á að keyra verkefnið og virða fyrri ákvarðanir [4]. Skrifvarða samhengið veitir rekstrarsporið, upprunaskjöl, spá Tax AI, endanlegt framtal og skjölun reita í skattavél, svo Codex geti rannsakað bilunina án þess að breyta undirliggjandi gögnum.

Útvíkkun í ný svið

Sama lykkja á við utan leigueigna. Leigueignir tóku um sex vikur og umtalsvert verkfræðieftirlit til að ná 90% nákvæmni og heimtun, en sú vinna skapaði endurnýtanlegar abstraksjónir, yfirferðargripi, eval-venjur og innleiðingarmynstur sem gerðu auðveldara að styðja álíka flókin fylgiskjöl eins og Schedule C og Schedule A.

Tax AI sýnir leið að því að byggja sjálfbætandi fulltrúa. Sérfræðingar mynda verðmæt endurgjafamerki með því að veita þjónustuna. Vöruverkflæði varðveita þessi merki sem skipulögð gögn. Verkfræðikerfi studd af evals staðfesta umbætur áður en þær ná til reksturs, og lykkja knúin af fulltrúa heldur kerfinu í samfelldu sjálfbætingarflæði.

Skipulag Thrive Holdings gerir okkur kleift að endurtaka þetta umhverfi í tilteknum atvinnugreinum. Holdings er bæði eigandi og Stjórnandi, þannig að sameinuð verkfræðiteymi okkar geta unnið beint með sérfræðingum og rekstrargögnum innan fyrirtækja eins og Crete, ekki sem söluaðili heldur sem samstarfsaðilar. Þetta þýðir að tæknin, varan og þjónustan eru öll undir sama þaki til að hjálpa okkur að hreyfa okkur hraðar og byggja framúrskarandi vörur.

Einn reyndur endurskoðandi sem eyddi 180 klukkustundum í skattaundirbúning í fyrra eyddi aðeins 15 klukkustundum í það í ár. Hún notaði hluta þess tíma meðal annars í að hringja í hvern einasta viðskiptavin sinn og fara með honum yfir framtalið, þjónustustig með mikilli persónulegri nálgun sem var ekki mögulegt fyrir ári síðan. Afganginn af þeim tíma notaði hún til að taka að sér nýja viðskiptavini og víkka út þjónustuframboð.

Saman nota teymi okkar nú sömu þrískiptu hönnunina úr Tax AI sem teikningu fyrir að byggja verkflæði á öðrum sviðum innan Thrive Holdings⁠(opnast í nýjum glugga); bókhaldsverkflæði eins og bókhald og endurskoðun, og rekstrarverkflæði eins og sjálfvirknivæðingu IT-help desk. Þvert á svið og atvinnugreinar stendur víðari fyrirheit sjálfbætandi fulltrúa. Bestu fulltrúarnir eru stýrðir af fólki til að læra að verða hæfari, traustari og verðmætari með tímanum.

Til að fræðast meira um OpenAI teymið sem vann að þessu verkefni, hafðu samband.

Höfundur

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo, John de Wasseige

Haltu áfram að lesa

Skoða allt

Faraldsfræði core dumpa: 18 ára villa löguð

Verkfræði30. jún. 2026

Að byggja öruggan og árangursríkan sandkassa til að gera Codex kleift að virka á Windows

Verkfræði13. maí 2026

Hvaðan árarnir komu

Verkfræði5. maí 2026