Preskočiť na hlavný obsah
OpenAI

27. mája 2026

Technika

Budovanie sebazlepšujúcich sa daňových agentov s Codex

Od členov technického tímu: Aravind Srinivasan a Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo a John de Wasseige (OpenAI)

Načítava sa…

Ako Thrive Holdings a OpenAI spoločne vyvinuli Tax AI pre účtovníkov Crete spojením odborných znalostí praktikov so slučkou riadenou Codexom

Systémy z reálneho sveta sa v produkcii správajú inak než v laboratóriu a zlyhávajú spôsobmi, ktoré sa pred nasadením ťažko predvídajú. Tímy tieto chyby často objavia až po spustení a potom trávia týždne skúmaním okrajových prípadov, úpravou príkazov a prekladaním produkčnej spätnej väzby do trvalých zlepšení produktu. Cyklus spätnej väzby je manuálna a pomalá a zlepšuje sa len vtedy, keď ju posunie vývojár. Dnes však s premyslene navrhnutou infraštruktúrou vyhodnotenia, priamym prístupom k odborníkom a prostrediam reálneho sveta a špičkovými agentickými schopnosťami Codexu môžete budovať agentov, ktorí sa sami zlepšujú.

V tomto článku rozoberieme, ako sme pomocou Codexu vybudovali tento typ agenta. Počas posledných šiestich mesiacov spolupracovali vývojári a výskumníci OpenAI nasadení priamo v teréne spolu s vývojármi spoločnosti Thrive Holdings na budovaní Tax AI popri sieti viac ako 30 účtovníckych firiem spoločnosti Crete(otvorí sa v novom okne) a pre ňu, aby pomohli pripravovať čoraz zložitejšie daňové priznania. Namiesto toho, aby sa Tax AI spoliehala na vývojárov pri hľadaní a oprave každej chyby, používa Codex na premenu produkčného používania na štruktúrované signály, ktoré podporujú autonómne zlepšovanie.

Odborníci v Crete každú sezónu pripravia desaťtisíce daňových priznaní, čo si vyžaduje prácu s miliónmi podkladových dokumentov. Pri podaniach so strednou až vysokou zložitosťou môže samotné zadávanie údajov trvať osem hodín na jedno priznanie a často zahŕňa neprehľadné zdroje dát, dokumenty z predchádzajúceho roka a manuálnu extrakciu a výpočet. Upozornili nás, že daňová príprava je významným úzkym miestom počas najrušnejšej časti daňovej sezóny.

Na vyriešenie tohto problému Tax AI počas tejto daňovej sezóny spracovala 7 000 daňových priznaní vo firmách Crete, ktoré sa zúčastnili pilotu. Systém automatizuje veľkú časť časovo náročného procesu prípravy daňových priznaní 1040 a 1041, no ešte presvedčivejšie než nárast efektivity je to, že samotný systém je merateľne lepší než verzia, ktorá bola prvýkrát nasadená pred tromi mesiacmi.

Merateľné sebazlepšovanie

V Tax AI odborníci nahrávajú zdrojové súbory spolu s akýmikoľvek poznámkami špecifickými pre klienta. Tax AI potom vytvorí podanie do daňového modulu pripravené na kontrolu. Ušetrí odborníkom asi tretinu času pri daňovej príprave, pripravuje návrhy priznaní s presnosťou až 97 % a zvyšuje rýchlosť asi o 50 %, čím im vytvára viac priestoru na čas s klientmi. 

Toto zlepšenie vieme kvantifikovať tým, že pochopíme, ako presne dokáže Tax AI dokončiť priznanie bez potreby neskoršej opravy. Presnosť meriame kontrolou, aký podiel priznaní dosiahne 75 %, 90 % alebo 100 % správneho vyplnenia polí. Pri spustení dosahovala len štvrtina priznaní 75 % správneho vyplnenia polí, no do šiestich týždňov túto hranicu dosiahlo 86 %. Systém vykázal ešte rýchlejší rast pri úrovniach 90 % a 100 % správneho vyplnenia polí. Tieto prahy nám dávajú praktický pohľad na to, koľko následnej práce od odborníka si rôzne priznania ešte vyžadujú. 

Na začiatku Tax AI zvládala jednoduchšiu prácu, ako W-2 a 1099. Ako sezóna pokračovala, presunula sa k zložitejším priznaniam s K-1, prílohami a náročnejšími okrajovými prípadmi. Každá nová schopnosť ušetrila na jedno priznanie viac času než predchádzajúca, pretože úlohy, ktoré prebrala, boli náročnejšie a pri manuálnom spracovaní časovo náročnejšie. Nepretržitý pokrok vidíme aj dnes.

Ďalej si ukážeme, ako naše tímy spoločne navrhli Tax AI tak, aby sa sama zlepšovala, opierajúc sa o tri kľúčové piliere: 1) spätnú väzbu odborníkov, 2) produkčné stopy (štruktúrovanú históriu od vstupov po finálny výstup) a 3) iteračný cyklus riadený Codexom, ktorý je založený na prispôsobených vyhodnoteniach a umožňuje nepretržitý a rýchlejší vývoj produktu. Dúfame, že naše skúsenosti budú užitočné aj pre ďalších tvorcov v oblastiach, kde je odbornosť praktikov kľúčová pri formovaní kvality nadradeného systému a dát, ktoré ním prechádzajú.

Keď sa Tax AI rozšírila na zložitejšie podania, podiel hodnotených priznaní, ktoré dosiahli 75 %, 90 % a úplné vyplnenie, počas daňovej sezóny ďalej rástol.

Problém

Keď sme sa pustili do náročnejších častí daňovej prípravy (K-1, prílohy k prenajímaným nehnuteľnostiam a daňové formuláre, kde bolo treba zosúladiť hodnoty naprieč viacerými zdrojovými súbormi), ukázalo sa, že skutočnou výzvou je, či produkt dokáže zložité produkčné zlyhania zviditeľniť, spraviť ich zrozumiteľnými a premeniť na konkrétne kroky.

V začiatkoch produktu bola väčšina opráv manuálna. Odborníci síce mohli opravovať chyby systému, no produkt nezachytával celý kontext: zmenená hodnota pred podaním mohla odrážať skutočné chybu extrakcie, problém mapovania, chýbajúcu podporu produktu alebo očakávaný šum pracovného postupu. Roztriedenie týchto prípadov si stále vyžadovalo následnú prácu vývojárskeho tímu. Vývojári mohli používať kódovacích agentov, ale systém ešte nebol navrhnutý tak, aby AI zmysluplne využíval v rámci cyklu zlepšovania. Nemali sme signál na identifikáciu správneho problému, ktorý treba riešiť.

Náš prístup: trojdielny cyklus

To nás viedlo k návrhu systému postaveného na troch pilieroch:

  1. Zostaňte blízko odborníkom: Ľudia, ktorí prácu vykonávajú, musia usmerňovať, čo sa produkt učí. Ich intuícia a porozumenie odhaľujú, na ktorých chybách záleží, a pomáhajú určiť, na ktoré časti pracovného postupu sa oplatí zamerať ďalej.
  2. Budujte produkt tak, aby produkcia vytvárala dôkazy: Produkt musí zachytávať viac než len vstupy a výstupy; musí zachytiť celú cestu od zdrojového materiálu cez extrahované polia a ich pôvod až po nadväzujúce podanie a odbornú opravu.
  3. Vytvorte cyklus zlepšovania riadený Codexom: Keď sú produkčné problémy viditeľné a štruktúrované, môžu sa zmeniť na zistenia, prispôsobené vyhodnotenia a vymedzené vývojárske úlohy. Codex potom môže pomôcť s vyšetrovaním, navrhovaním zmien, ich overovaním oproti cieleným a regresným vyhodnotením a posúvať produkt vpred rýchlejšie než čisto manuálny iteračný cyklus. 

Nižšie uvedený príklad prenajímanej nehnuteľnosti ukazuje, ako tento cyklus funguje v praxi: prevedie vás tým, ako sa oprava od odborníka stane štruktúrovaným zistením, potom cieľom vyhodnotenia a napokon vývojárskou úlohou vymedzenou pre Codex.

Príklad prenajímanej nehnuteľnosti

Príjem z prenajímanej nehnuteľnosti sa uvádza v Schedule E individuálneho daňového priznania. Z vývojárskeho pohľadu je úloha jeho extrakcie jednoduchá na opis, ale ťažká na kvalitné vykonanie. Systém musí čítať neprehľadný zdrojový materiál (ručne písané poznámky, e-maily, tabuľky a ďalšie klientské súbory), extrahovať polia prenajímanej nehnuteľnosti, ktoré vie s istotou namapovať do daňového modulu, a zachovať dostatok dôkazov, aby odborník mohol výsledok schváliť alebo opraviť. Zjednodušený príklad nižšie ukazuje, ako môžu tieto zdrojové súbory a extrahované výstupy vyzerať.

„“

Zdrojový balík k prenajímanej nehnuteľnosti sa normalizuje do citovaných polí ešte pred ich mapovaním na nadväzujúce koncepty daňového modulu.

1. Oprava odborníkom odhalí chybu

Rozdiel medzi hodnotou predpovedanou agentom a skutočnou hodnotou z podaného daňového priznania môže odrážať skutočné zlyhanie extrakcie, ale môže ísť aj o preferenciu odborníka, hodnotu prenesenú z priznania za predchádzajúci rok v daňovom module alebo hodnotu zavedenú či zmenenú inde v procese podania. Odborníci nám pomohli tieto prípady rozlíšiť, aby sme vedeli určiť, ktoré kroky vyžadovali ich opravu alebo blokovali odoslanie.

Keďže sme tieto opravy videli podrobne, premenili sme proces kontroly z koncového kroku po zlyhaní na nepretržitý cyklus učenia. Navrhli sme pracovný postup tak, aby zachytával kroky expertov ako štruktúrované dáta. Teraz každá intervencia podporuje cyklus zlepšovania produktu tým, že presne zaznamenáva, čo Tax AI navrhla, čo odborník upravil a čo sa napokon dostalo do podaného priznania.

2. Produktové stopy premieňajú opravy na vyhodnotenia

Pri zložitom pracovnom postupe, ako sú prenajímané nehnuteľnosti, musí systém zachovať, čo sa deje medzi zdrojovými súbormi a podaným priznaním. Počas tejto cesty sa dokumenty organizujú, rozdeľujú a klasifikujú. Polia prenajímanej nehnuteľnosti sa extrahujú s citáciami späť na zdrojový materiál a tieto hodnoty sa mapujú do daňového modulu, pričom odborníci ich ešte môžu pred podaním opraviť. Tieto stopy na úrovni produktu umožňujú skúmať, kde nastala chyba. Aby sa opravy od odborníkov zmenili na užitočné ciele hodnotenia, systém ich spracúva v troch krokoch:

  • Zachyťte rozdiel: Výstup Tax AI sa porovná s podaným priznaním, aby vznikli kontrolné riadky na úrovni polí, ktoré zachytávajú očakávanú hodnotu, predpovedanú hodnotu a to, či sa rozdiel javí ako využiteľný.
  • Zoskupte súvisiace zlyhania: Podobné kontrolné riadky sa zoskupujú, aby sa oddelili opakujúce sa zlyhania produktu od očakávaného šumu pracovného postupu. Napríklad opakované opravy od odborníkov môžu ukázať, že Tax AI často prehliada polia „dni spravodlivého prenájmu“, nesprávne spracúva „ostatné výdavky“ alebo si mýli viacero prenajímaných nehnuteľností v rámci toho istého zdrojového balíka.
  • Premeňte opakované vzory na ciele hodnotenia: Po kontrole a zmeraní sa opakované zistenia stanú jasnými cieľmi hodnotenia, ktoré môže Codex zlepšiť.
„“

Riadky kontroly prenajímanej nehnuteľnosti oddeľujú opakujúce sa zlyhania produktu od očakávaného šumu a potom premieňajú využiteľné prípady na ciele hodnotenia, ktoré dávajú Codexu problém, ktorý treba riešiť

3. Zistenie sa stane pre Codex problémom, ktorý treba riešiť

Tretím pilierom je vytvorenie vývojovej slučky schopnej konať na základe týchto nových vyhodnotení. Práve tu sa Codex stáva kľúčovým.

Predstavme si, že náš kanál vyhodnotenia označí, že Tax AI konzistentne prehliada pole "dni spravodlivého prenájmu", zatiaľ čo odborníci ho spoľahlivo dopĺňajú. Keďže toto zistenie už bolo zabalené do cielenej množiny vyhodnotenia s reprezentatívnymi zdrojovými balíkmi a očakávanými výstupmi, Codex môže skúmať hlavnú príčinu priamo v rámci produktovej štruktúry.

Codex nepracuje len s neuspokojivým finálnym výstupom. Spoločne skúma stopu, vyhodnotenie, repozitár a schopnosti:

  • Preskúmajte pipeline: Preskúmajte zdrojové balíky, extrakčné schémy, správanie mapovača a cesty v kóde, aby ste určili, či je problém v nepodporovanom poli, prehliadnutom extrakčnom vzore, probléme s výberom zdroja, medzere v mapovači alebo v hodnotení.
  • Implementujte cielené opravy: Rozšírte extrakčnú schému, zlepšite výber zdroja pre dokumenty k prenajímanej nehnuteľnosti, aktualizujte mapovač daňového modulu alebo spresnite hodnotenie, ak sa očakávaný šum pracovného postupu počíta ako chyba.
  • Overte a navrhnite: Znova spustite cielené vyhodnotenie, spustite širšie regresné sady a predložte kandidátnu žiadosť o zlúčenie na kontrolu vývojármi.
  • Uzavrite slučku: Premeňte opakujúcu sa opravu od odborníka na merateľnú vývojársku úlohu. Ak sú dôkazy nejednoznačné alebo sa nedajú bezpečne automatizovať, prípad sa vráti produktovému tímu namiesto toho, aby bol nasilu pretlačený cez slučku.
„“

Kompletná slučka sebazlepšovania: produkčné stopy odhaľujú opakované opravy na úrovni polí, ktoré sa menia na signály zlyhania, ktoré môže Codex skúmať spolu so stopou, vyhodnoteniami, repozitárom a schopnosťami. Využiteľné vzory sa menia na ohraničené vyhodnotenia a návrhy zmien produktu; nejednoznačné prípady sa vracajú vývojárom na kontrolu. Každé nasadené zlepšenie vytvára nové produkčné dôkazy pre ďalší cyklus.

Ako použiť Codex na vybudovanie tejto slučky

Príklad prenajímanej nehnuteľnosti je typický pre širší opakovane použiteľný vzor: využitie produkčných artefaktov a stôp na zlepšenie schopností agenta. Ak ako vstupy dostane skontrolované zistenia z produkčných dát, zdrojové stopy, očakávaný výstup daňového modulu, relevantné príklady kódu a príkazy vyhodnotenia, Codex môže v priebehu týždňov a mesiacov podstatne zlepšiť výkon aj presnosť. To nadväzuje na princípy opísané v našej práci o vývoja harnessov a Symphony, ktoré ukazujú, ako spraviť úlohy pre Codex čitateľnými, poskytnúť vymedzený kontext a nástroje a ponechať validáciu aj ľudskú kontrolu ako súčasť prostredia. 

Tieto dôkazy sa automaticky nestanú úlohou pre Codex. Oprava od odborníka môže odrážať zlyhanie extrakcie, problém mapovania, nepodporované správanie produktu, daňový úsudok alebo očakávaný šum pracovného postupu. Až keď sa opakované rozdiely skontrolujú a zoskupia do využiteľného zistenia, systém ich premení na ohraničenú úlohu s jasnou podmienkou úspechu.

Túto automatizáciu uplatňujeme na ohraničenú vrstvu produktu. Táto vrstva vykonáva extrakciu a mapuje zdrojové dokumenty do daňových pracovných postupov. Za architektúru, produktové rozhodnutia a nasadenie naďalej zodpovedajú vývojári. Odborníci riadia slučku zlepšovania prostredníctvom práce, ktorú už robia: opravujú extrahované hodnoty, kontrolujú priznania a schvaľujú finálne podania.

Pre Codex výsledkom nie je neurčité upozornenie, ale vymedzená vývojárska úloha s dôkazmi, upraviteľnými povrchmi produktu a explicitnými overovacími bránami. Kontext reprezentatívnej úlohy pre prenajímanú nehnuteľnosť možno zhrnúť takto:

Obyčajný text

1
/candidates/FIND-RENTAL-0042/
2
3
├── repo/ [1]
4
│ └── branch: codex/fix-rental-0042
5
│ │
6
│ ├── AGENTS.md
7
│ │
8
│ ├── tasks/FIND-RENTAL-0042/
9
│ │ ├── task.yaml
10
│ │ ├── EXEC_PLAN.md
11
│ │ └── RESULTS.md
12
│ │
13
│ ├── app/tax-ai/rental-income/ [2]
14
│ │ ├── agent.ts
15
│ │ ├── schema.ts
16
│ │ ├── provenance.ts
17
│ │ └── mapper.ts
18
│ │
19
│ ├── evals/ [3]
20
│ │ ├── datasets/fair-rental-days.yaml
21
│ │ ├── suites/fair-rental-days.yaml
22
│ │ ├── suites/rental-income-regression.yaml
23
│ │ └── graders/rental-income.yaml
24
│ │
25
│ ├── skills/ [4]
26
│ │ ├── eval-runner/
27
│ │ └── tax-field-docs/
28
│ │
29
│ └── docs/ [4]
30
│ ├── architecture/
31
│ └── task-environments/
32
33
└── scoped-tools/ [5]
34
├── production-trace
35
├── source-artifacts
36
└── tax-engine-docs

Ohraničené prostredie úloh pre Codex oddeľuje zapisovateľný pracovný strom [1] od produkčného kontextu len na čítanie [5]. Worktree obsahuje vymedzený povrch produktu, ktorý môže Codex skúmať alebo upravovať [2], cielené a regresné vyhodnotenia, ktoré definujú úspech [3], a opakovane použiteľné schopnosti/dokumenty, ktoré kódujú, ako úlohu spustiť a rešpektovať predchádzajúce rozhodnutia [4]. Kontext len na čítanie poskytuje produkčnú stopu, zdrojové dokumenty, predikciu Tax AI, finalizované priznanie a dokumentáciu polí daňového modulu, aby Codex mohol skúmať zlyhanie bez zmeny podkladových dôkazov.

Rozširovanie do nových oblastí

Tá istá slučka platí aj mimo prenajímaných nehnuteľností. Prenajímané nehnuteľnosti si vyžiadali asi šesť týždňov a výrazný dohľad vývojárov, aby dosiahli 90 % presnosť a úplnosť, no táto práca vytvorila opakovane použiteľné abstrakcie, kontrolné artefakty, vyhodnotenie konvencie a implementačné vzory, ktoré uľahčili podporu podobne zložitých príloh, ako sú Schedule C a Schedule A.

Tax AI ukazuje cestu k budovaniu agentov, ktorí sa sami zlepšujú. Odborníci pri poskytovaní služby vytvárajú vysoko hodnotné signály spätnej väzby. Produktové pracovné toky zachovávajú tieto signály ako štruktúrované dôkazy. Vývojárske systémy podložené vyhodnoteniami overujú zlepšenia skôr, než sa dostanú do produkcie, a slučka poháňaná agentom udržiava systém v nepretržitom toku sebazlepšovania. 

Štruktúra Thrive Holdings nám umožňuje replikovať toto prostredie v konkrétnych odvetviach. Holdings je zároveň vlastník aj operátor, takže naše spojené vývojárske tímy môžu pracovať priamo s odborníkmi a produkčnými dátami zvnútra firiem, ako je Crete, nie ako dodávateľ, ale ako partneri. To znamená, že technológia, produkt aj služba sú pod jednou strechou, čo nám pomáha postupovať rýchlejšie a budovať výnimočné produkty.

Jedna seniorná účtovníčka, ktorá minulý rok strávila daňovou prípravou 180 hodín, jej tento rok venovala len 15 hodín. Časť tohto času venovala telefonátu každému svojmu klientovi a osobnému prevedeniu jeho priznaním, teda úrovni veľmi osobnej služby, ktorá pred rokom nebola možná. Zvyšok tohto času využila na prijatie nových klientov a rozšírenie ponuky služieb.

Naše tímy teraz spoločne používajú ten istý trojdielny návrh z Tax AI ako plán na budovanie pracovného postupu v ďalších oblastiach naprieč Thrive Holdings(otvorí sa v novom okne); účtovných pracovných postupov, ako sú vedenie účtovníctva a audit, aj prevádzkových pracovných postupov, ako je automatizácia IT helpdesku. Naprieč oblasťami a odvetviami platí širší prísľub agentov, ktorí sa sami zlepšujú. Najlepších agentov usmerňujú ľudia tak, aby sa časom učili byť schopnejšími, dôveryhodnejšími a hodnotnejšími.

Ak sa chcete dozvedieť viac o tíme OpenAI, ktorý na tomto projekte pracoval, ozvite sa nám.

Autor

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo a John de Wasseige