Pāriet uz galveno saturu
OpenAI

2026. gada 27. maijs

Inženierija

Pašuzlabojošu nodokļu aģentu veidošana ar Codex

Autori — tehniskā personāla locekļi: Aravind Srinivasan un Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo un John de Wasseige (OpenAI)

Notiek ielāde…

Kā Thrive Holdings un OpenAI kopīgi izstrādāja Tax AI Crete grāmatvežiem, apvienojot praktizētāju zināšanas ar Codex vadītu ciklu

Reālās pasaules sistēmas produkcijā darbojas citādi nekā laboratorijā un radot veidus, kurus pirms izvietošanas ir grūti paredzēt. Komandas bieži atklāj šīs kļūmes pēc palaišanas un pēc tam pavada vairākas nedēļas, pārbaudot robežgadījumus, pielāgojot uzvednes un pārvēršot produkcijas atgriezenisko saiti noturīgos produkta uzlabojumos. Atgriezeniskās saites cikls ir manuāls un lēns, un uzlabojas tikai tad, kad to virza inženieris. Taču šodien ar pārdomāti izstrādātu novērtējuma infrastruktūru, tiešu piekļuvi praktizētājiem un reālās pasaules vidēm, kā arī Codex jaunākās paaudzes aģentu spējām jūs varat veidot pašuzlabojošus aģentus.

Šajā rakstā mēs izskaidrosim, kā izmantojām Codex, lai izveidotu šāda veida aģentu. Pēdējo sešu mēnešu laikā OpenAI uz vietas izvietotie inženieri un pētnieki kopā ar Thrive Holdings inženieriem sadarbojās, lai kopā ar Crete(atveras jaunā logā) 30+ grāmatvedības firmu tīklu un tā vajadzībām izveidotu Tax AI, kas palīdz sagatavot arvien sarežģītākas nodokļu deklarācijas. Tā vietā, lai paļautos uz inženieriem katras kļūmes atrašanai un labošanai, Tax AI izmanto Codex, lai produkcijas lietojumu pārvērstu strukturētos signālos, kas veicina autonomu uzlabošanos.

Crete praktizētāji katru sezonu sagatavo desmitiem tūkstošu nodokļu deklarāciju, kas prasa darbu ar miljoniem pamatā esošo dokumentu. Datu ievade par vidējas līdz lielas sarežģītības iesniegumiem var aizņemt astoņas stundas par deklarāciju, bieži ietverot nekārtīgus datu avotus, iepriekšējā gada dokumentus un manuālu izguvi un aprēķinus. Viņi norādīja uz nodokļu sagatavošanu kā būtisku pudeles kaklu noslogotākajā nodokļu sezonas posmā.

Lai atrisinātu šo problēmu, Tax AI šajā nodokļu sezonā apstrādāja 7000 nodokļu deklarāciju Crete firmās, kas piedalījās pilotprojektā. Sistēma automatizē lielu daļu laikietilpīgā 1040 un 1041 nodokļu deklarāciju sagatavošanas procesa, taču vēl pārliecinošāk par efektivitātes ieguvumiem ir tas, ka pati sistēma ir izmērāmi labāka nekā versija, kas pirmoreiz tika izvietota pirms trim mēnešiem.

Izmērāms pašuzlabojums

Tax AI praktizētāji augšupielādē avota failus kopā ar jebkādām klientam specifiskām piezīmēm. Pēc tam Tax AI izveido iesniegumu nodokļu dzinējam, kas ir gatavs pārskatīšanai. Tas ietaupa praktizētājiem apmēram trešdaļu laika nodokļu sagatavošanā, sagatavo deklarāciju projektus ar līdz pat 97% precizitāti un palielina caurlaidspēju par aptuveni 50%, radot vairāk iespēju pavadīt laiku ar klientiem. 

Mēs varam kvantificēt šo uzlabojumu, saprotot, cik precīzi Tax AI var pabeigt deklarāciju bez vēlāk nepieciešamiem labojumiem. Mēs mēram precizitāti, pārbaudot, kāda daļa deklarāciju sasniedz 75%, 90% vai 100% pareizu lauku aizpildi. Palaišanas brīdī tikai ceturtā daļa deklarāciju sasniedza 75% pareizu lauku aizpildi, bet sešu nedēļu laikā šo atzīmi sasniedza 86%. Sistēma uzrādīja vēl straujāku izaugsmi 90% un 100% pareizas lauku aizpildes līmeņos. Šie sliekšņi sniedz mums praktisku priekšstatu par to, cik daudz praktizētāja turpmākas iesaistes dažādām deklarācijām vēl ir vajadzīgs. 

Sākumā Tax AI veica vienkāršākus darbus, piemēram, W-2 un 1099. Sezonai turpinoties, tas pārgāja uz sarežģītākām deklarācijām ar K-1, pielikumiem un grūtākiem robežgadījumiem. Katra jaunā spēja ietaupīja vairāk laika uz deklarāciju nekā iepriekšējā, jo uzdevumi, ko tā pārņēma, bija grūtāki un manuāli laikietilpīgāki. Mēs turpinām redzēt nepārtrauktu progresu arī šodien.

Tālāk mēs iziesim cauri tam, kā mūsu komandas kopīgi izstrādāja Tax AI, lai tas pats sevi uzlabotu, balstoties uz trim kritiski svarīgiem balstiem: 1) ekspertu praktizētāju atgriezenisko saiti, 2) produkcijas izsekošanas datiem (strukturētu vēsturi no ievadēm līdz gala izvadei) un 3) Codex vadītu iterācijas ciklu, kas balstīts uz pielāgotiem novērtejumiem, lai nodrošinātu nepārtrauktu un ātrāku produkta izstrādi. Mēs ceram, ka mūsu pieredze būs noderīga citiem veidotājiem jomās, kur praktizētāju zināšanas ir būtiskas, lai veidotu kopējās sistēmas un tajā plūstošo datu kvalitāti.

Tax AI paplašinoties ar sarežģītākām deklarācijām, novērtēto deklarāciju īpatsvars, kas sasniedza 75%, 90% un pilnu aizpildi, turpināja pieaugt visas nodokļu sezonas laikā.

Problēma

Kad mēs sākām darbu ar grūtākām nodokļu sagatavošanas daļām (K-1, nomas nekustamā īpašuma pielikumiem un nodokļu veidlapām, kur vērtības bija jāsaskaņo starp vairākiem avota failiem), kļuva skaidrs, ka īstais izaicinājums ir tas, vai produkts spēj padarīt sarežģītas produkcijas kļūmes redzamas, saprotamas un praktiski izmantojamas.

Produkta sākumposmā lielākā daļa labojumu bija manuāli. Praktizētāji varēja labot sistēmas kļūdas, taču produkts neuztvēra pilno kontekstu: mainīta vērtība pirms iesniegšanas varēja atspoguļot īstu izguves kļūdu, kartēšanas problēmu, trūkstošu produkta atbalstu vai sagaidāmu darbplūsmas troksni. Šo gadījumu sakārtošanai joprojām bija vajadzīga inženierijas komandas turpmāka iesaiste. Inženieri varēja izmantot kodēšanas aģentus, taču sistēma vēl nebija izstrādāta tā, lai jēgpilni izmantotu MI uzlabošanas ciklā. Mums nebija signāla, lai noteiktu pareizo mērķi, ko sasniegt.

Mūsu pieeja: trīsdaļīgs cikls

Tā rezultātā mēs izstrādājām sistēmu balstoties uz trīs pīlāriem:

  1. Būt tuvu praktizētājiem: Cilvēkiem, kas dara šo darbu, ir jāvada tas, ko produkts iemācās. Viņu intuīcija un izpratne atklāj, kuras kļūdas ir svarīgas, un palīdz noteikt, kurām darbplūsmas daļām ir vērts pievērsties nākamajām.
  2. Izstrādāt produktu tā, lai produkcija radītu pierādījumus: Produktam ir jāuztver vairāk nekā tikai ievades un izvades; tam ir jāuztver pilns ceļš no avota materiāla līdz izgūtajiem laukiem un izcelsmei, līdz pakārtotai iesniegšanai un eksperta labojumam.
  3. Izveidot Codex vadītu uzlabošanas ciklu: Kad produkcijas problēmas ir redzamas un strukturētas, tās var kļūt par konstatējumiem, pielāgotiem novērtējumiem un ierobežotiem inženierijas uzdevumiem. Pēc tam Codex var palīdzēt izmeklēt, ierosināt izmaiņas, validēt tās pret mērķētiem un regresijas novērtējumiem un virzīt produktu uz priekšu ātrāk nekā tikai manuāls iterācijas cikls. 

Tālāk redzamais nomas īpašuma piemērs parāda, kā šis cikls darbojas praksē, izvedot jūs cauri tam, kā praktizētāja labojums kļūst par strukturētu konstatējumu, pēc tam par eval mērķi un visbeidzot par Codex ierobežotu inženierijas uzdevumu.

Nomas īpašuma piemērs

Nomas īpašuma ienākumi tiek uzrādīti individuālās nodokļu deklarācijas Schedule E. No inženierijas skatpunkta to izgūšanas uzdevumu ir viegli aprakstīt, bet grūti labi izpildīt. Sistēmai ir jālasa nekārtīgs avota materiāls (ar roku rakstītas piezīmes, e-pasti, izklājlapas un citi klienta faili), jāizgūst nomas īpašuma lauki, kurus sistēma var droši kartēt uz nodokļu dzinēju, un jāsaglabā pietiekami daudz pierādījumu, lai praktizētājs varētu apstiprināt vai labot rezultātu. Tālāk redzamais vienkāršotais piemērs parāda, kā šie avota faili un izgūtās izvades varētu izskatīties.

„“

Nomas īpašuma avota pakotne tiek normalizēta citētos laukos, pirms tie tiek kartēti uz pakārtotajiem nodokļu dzinēja jēdzieniem.

1. Praktizētāja labojums atklāj kļūmi

Atšķirība starp aģenta prognozēto vērtību un faktisko vērtību no iesniegtās nodokļu deklarācijas var atspoguļot īstu izguves kļūdu, taču tā var būt arī praktizētāja izvēle, vērtība, kas nodokļu dzinējā pārnesta no iepriekšējā gada deklarācijas, vai vērtība, kas ieviesta vai mainīta citur deklarācijas iesniegšanas darbplūsmā. Praktizētāji palīdzēja mums atšķirt šos gadījumus, lai mēs varētu noteikt, kurām darbībām bija vajadzīgs praktizētāja labojums vai kuras bloķēja iesniegšanu.

Tā kā mēs varējām detalizēti redzēt šos labojumus, mēs pārveidojām pārskatīšanas procesu no noslēdzoša posma pēc kļūmes par nepārtrauktu mācīšanās ciklu. Mēs izstrādājām darbplūsmu tā, lai tā uztvertu ekspertu darbības kā strukturētus datus. Tagad katra iejaukšanās uzlabo produkta uzlabošanas ciklu, precīzi reģistrējot, ko Tax AI ierosinājis, ko praktizētājs mainījis un kas galu galā tika pievienots iesniegtajā deklarācijā.

2. Produkta izsekošanas dati pārvērš labojumus novertējumos

Sarežģītai darbplūsmai, piemēram, nomas īpašumiem, sistēmai ir jāsaglabā tas, kas notiek starp avota failiem un iesniegto deklarāciju. Šajā ceļā dokumenti tiek organizēti, sadalīti un klasificēti; nomas īpašumu lauki tiek izgūti ar citātiem atpakaļ uz avota materiālu; šīs vērtības tiek kartētas nodokļu dzinējā; un praktizētāji tās vēl var labot pirms iesniegšanas. Šie produkta līmeņa izsekošanas dati ļauj izmeklēt, kur radās kļūme. Lai praktizētāju labojumus pārvērstu noderīgos novērtēšanas mērķos, sistēma tos apstrādā trīs soļos:

  • Atšķirības noteikšana: Tax AI izvade tiek salīdzināta ar iesniegto deklarāciju, lai izveidotu lauku līmeņa pārskatīšanas rindas, kas fiksē sagaidāmo vērtību, prognozēto vērtību un to, vai atšķirība šķiet praktiski izmantojama.
  • Saistītu kļūmju grupēšana: Līdzīgas pārskatīšanas rindas tiek grupētas, lai atdalītu atkārtotas produkta kļūmes no sagaidāmajiem darbplūsmas traucējumiem. Piemēram, atkārtoti praktizētāju labojumi var parādīt, ka Tax AI bieži izlaiž “godīgas nomas dienu” laukus, nepareizi apstrādā “citus izdevumus” vai sajauc vairākus nomas īpašumus vienā un tajā pašā avota pakotnē.
  • Atkārtotu modeļu pārvēršana par novērtēšanas mērķiem: Kad tie tiek pārskatīti un izmērīti, atkārtotie konstatējumi kļūst par skaidriem novērtēšanas mērķiem Codex uzlabošanai.
„“

Nomas īpašuma pārskatīšanas rindas atdala atkārtotas produkta kļūmes no sagaidāmiem traucējumiem un pēc tam pārvērš praktiski izmantojamos gadījumus par novērtēšanas mērķiem, kas dod Codex mērķi, ko sasniegt.

3. Konstatējums kļūst par mērķi, ko Codex sasniegt

Trešais pīlārs ir inženierijas cikla izveide, kas spēj rīkoties, balstoties uz šiem jaunajiem novērtējumiem. Šeit Codex kļūst par centrālo elementu.

Pieņemsim, ka mūsu novērtējumu konveijers atzīmē, ka Tax AI konsekventi izlaiž lauku “godīgas nomas dienas”, kamēr praktizētāji to uzticami aizpilda. Tā kā šis konstatējums jau ir iekļauts mērķētā novērtējumā kopā ar reprezentatīvām avota pakotnēm un sagaidāmajām izvadēm, Codex var tieši izmeklēt pamatcēloni produkta karkasā.

Codex nestrādā tikai ar nepietiekami labu gala izvadi. Tas kopā pārbauda izsekošanas datus, novērtējumu, repozitoriju un prasmes:

  • Konveijera pārbaude: Pārbauda avota pakotnes, izguves shēmas, kartētāja darbību un koda ceļus, lai noteiktu, vai problēma ir neatbalstīts lauks, izlaists izguves modelis, avota atlases problēma, kartētāja trūkums vai vērtētāja problēma.
  • Mērķētu labojumu ieviešana: Paplašina izguves shēmu, uzlabo avota atlasi nomas īpašumu dokumentiem, atjaunina nodokļu dzinēja kartētāju vai precizē vērtētāju, ja sagaidāmais darbplūsmas traucējums tiek skaitīts kā kļūme.
  • Validēšana un ierosināšana: Atkārtoti palaist mērķēto novērtējumu, palaist plašākas regresijas kopas un parādīt kandidāta atgādāšanas pieprasījumu inženierijas pārskatīšanai.
  • Cikla aizvēršana: Pārvērst atkārtotu praktizētāja labojumu izmērāmā inženierijas uzdevumā. Ja pierādījumi ir neskaidri vai nav droši automatizējami, gadījums tiek novirzīts atpakaļ produkta komandai, nevis piespiedu kārtā virzīts cauri ciklam.
„“

Pašpilnveidošanās cikls no sākuma līdz beigām: ražošanas izsekošanas dati atklāj atkārtotas lauka līmeņa korekcijas, kas kļūst par kļūmes signāliem, ko Codex var pārbaudīt līdzās izsekošanai, novērtējumiem, repozitorijam un prasmēm. Rīcībai nepieciešamās shēmas kļūst par ierobežotiem novērtējumiem un potenciālo produktu izmaiņām; neskaidri gadījumi tiek nosūtīti atpakaļ pie inženieriem pārskatīšanai. Katrs nosūtītais uzlabojums rada jaunus ražošanas pierādījumus nākamajam ciklam.

Kā izmantot Codex šī cikla izveidei

Nomas īpašuma piemērs raksturo plašāku atkārtoti izmantojamu modeli: produkcijas artefaktu un trasējumu izmantošanu aģenta spēju uzlabošanai. Ja kā ievades kopa ir pieejami pārskatīti konstatējumi no produkcijas datiem, avota izsekošanas dati, sagaidāmā nodokļu dzinēja izvade, atbilstoši koda piemēri un novērtējuma komandas, Codex var būtiski uzlabot veiktspēju un precizitāti nedēļu un mēnešu laikā. Tas balstās uz principiem, kas aprakstīti mūsu darbā par ietvara inženieriju un Symphony, kuros izskaidrots, kā padarīt uzdevumus Codex saprotamus, nodrošināt ierobežotu kontekstu un rīkus, kā arī saglabāt validāciju un cilvēku pārskatīšanu kā daļu no vides. 

Šie pierādījumi automātiski nekļūst par Codex uzdevumu. Praktizētāja labojums var atspoguļot izguves kļūdu, kartēšanas problēmu, neatbalstītu produkta uzvedību, nodokļu spriedumu vai sagaidāmu darbplūsmas traucējumu. Tikai pēc tam, kad atkārtotas atšķirības ir pārskatītas un sagrupētas praktiski izmantojamā konstatējumā, sistēma tās pārvērš ierobežotā uzdevumā ar skaidru izdošanās nosacījumu.

Mēs piemērojam šo automatizāciju ierobežotam produkta slānim. Šis slānis veic izguvi un kartē avota dokumentus nodokļu darbplūsmās. Inženieri joprojām ir atbildīgi par arhitektūru, produkta lēmumiem un piegādi. Praktizētāji vada uzlabošanas ciklu ar darbu, ko viņi jau dara: labojot izgūtās vērtības, pārskatot deklarācijas un apstiprinot galīgos iesniegumus.

Codex rezultāts nav neskaidrs brīdinājums, bet gan ierobežots inženierijas uzdevums ar pierādījumiem, rediģējamām produkta virsmām un skaidriem validācijas vārtiem. Reprezentatīva nomas īpašuma uzdevuma kontekstu var apkopot šādi:

Vienkāršs teksts

1
/candidates/FIND-RENTAL-0042/
2
3
├── repo/ [1]
4
│ └── branch: codex/fix-rental-0042
5
│ │
6
│ ├── AGENTS.md
7
│ │
8
│ ├── tasks/FIND-RENTAL-0042/
9
│ │ ├── task.yaml
10
│ │ ├── EXEC_PLAN.md
11
│ │ └── RESULTS.md
12
│ │
13
│ ├── app/tax-ai/rental-income/ [2]
14
│ │ ├── agent.ts
15
│ │ ├── schema.ts
16
│ │ ├── provenance.ts
17
│ │ └── mapper.ts
18
│ │
19
│ ├── evals/ [3]
20
│ │ ├── datasets/fair-rental-days.yaml
21
│ │ ├── suites/fair-rental-days.yaml
22
│ │ ├── suites/rental-income-regression.yaml
23
│ │ └── graders/rental-income.yaml
24
│ │
25
│ ├── skills/ [4]
26
│ │ ├── eval-runner/
27
│ │ └── tax-field-docs/
28
│ │
29
│ └── docs/ [4]
30
│ ├── architecture/
31
│ └── task-environments/
32
33
└── scoped-tools/ [5]
34
├── production-trace
35
├── source-artifacts
36
└── tax-engine-docs

Ierobežota Codex uzdevuma vide atdala rakstāmo darba vidi [1] no tikai lasāma produkcijas konteksta [5]. Darba vide satur ierobežoto produkta virsmu, ko Codex var pārbaudīt vai mainīt [2], mērķētos un regresijas novērtējumus, kas nosaka izdošanos [3], un atkārtoti izmantojamas prasmes/dokumentus, kas kodē, kā izpildīt uzdevumu un ievērot iepriekšējos lēmumus [4]. Tikai lasāmais konteksts nodrošina produkcijas izsekošanas datus, avota dokumentus, Tax AI prognozi, pabeigto deklarāciju un nodokļu dzinēja lauku dokumentāciju, lai Codex varētu izmeklēt kļūmi, nemainot pamatā esošos pierādījumus.

Paplašināšanās uz jaunām jomām

Tas pats cikls attiecas arī ārpus nomas īpašumiem. Nomas īpašumiem bija vajadzīgas apmēram sešas nedēļas un ievērojama inženierijas uzraudzība, lai sasniegtu 90% precizitāti un pilnīgumu, taču šis darbs radīja atkārtoti izmantojamas abstrakcijas, pārskatīšanas artefaktus, novērtējuma konvencijas un ieviešanas modeļus, kas atviegloja atbalstu līdzīgi sarežģītiem grafikiem, piemēram, Schedule C un Schedule A.

Tax AI pierāda ceļu uz pašuzlabojošu aģentu veidošanu. Praktizētāji rada augstvērtīgus atgriezeniskās saites signālus, sniedzot pakalpojumu. Produkta darbplūsmas saglabā šos signālus kā strukturētus pierādījumus. Ar novērtējumiem pamatotas inženierijas sistēmas validē uzlabojumus, pirms tie nonāk produkcijā, un aģenta darbināts cikls uztur sistēmu nepārtrauktā pašuzlabošanās plūsmā. 

Thrive Holdings struktūra ļauj mums atkārtot šo vidi konkrētās nozarēs. Holdings ir gan īpašnieks, gan operators, tāpēc mūsu apvienotās inženierijas komandas var strādāt tieši ar praktizētājiem un produkcijas datiem uzņēmumos, piemēram, Crete, nevis kā piegādātājs, bet kā partneri. Tas nozīmē, ka tehnoloģija, produkts un pakalpojums atrodas līdzās, lai palīdzētu mums virzīties ātrāk un veidot izcilus produktus.

Viena vecākā grāmatvede, kura pagājušajā gadā nodokļa sagatavošanai veltīja 180 stundas, šogad tam veltīja tikai 15 stundas. Daļu no šī laika viņa veltīja tam, lai piezvanītu katram savam klientam un izskaidrotu tiem viņu deklarācijas — tāda līmeņa personisks serviss pirms gada nebija iespējams. Atlikušo laiku tā izmantoja, lai uzņemtu jaunus klientus un paplašinātu pakalpojumu piedāvājumu.

Kopā mūsu komandas tagad izmanto to pašu trīsdaļīgo Tax AI dizainu kā paraugu darbplūsmu veidošanai citās jomās visā Thrive Holdings(atveras jaunā logā); grāmatvedības darbplūsmās, piemēram, grāmatvedībā un auditā, un operacionālajās darbplūsmās, piemēram, IT palīdzības dienesta automatizācijā. Dažādās jomās un nozarēs pašuzlabojošu aģentu plašākais solījums saglabājas. Labākos aģentus vada cilvēki, lai tie iemācītos kļūt spējīgāki, uzticamāki un vērtīgāki.

Lai uzzinātu vairāk par OpenAI komandu, kas strādāja pie šī projekta, sazinieties ar .

Autors

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo un John de Wasseige