27 Mei 2026

Kujenga mawakala wa kodi wanaojiboresha kwa Codex

Na Wajumbe wa Wafanyakazi wa Kiufundi: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)

Inapakia…

Jinsi Thrive Holdings na OpenAI walivyounda pamoja Tax AI kwa wahasibu wa Crete kwa kuunganisha utaalamu wa wataalamu na mzunguko unaoendeshwa na Codex

Mifumo ya ulimwengu halisi hutenda tofauti katika uzalishaji kuliko inavyotenda maabara, na huvunjika kwa njia ambazo ni vigumu kutabiri kabla ya kutumwa. Timu mara nyingi hugundua hitilafu hizo baada ya uzinduzi, kisha hutumia wiki kuchunguza hali za pembezoni, kurekebisha dokeza, na kutafsiri mrejesho wa uzalishaji kuwa maboresho ya kudumu ya bidhaa. Mzunguko wa mrejesho ni wa mikono na wa polepole, na huboreka tu mhandisi anapousukuma mbele. Lakini leo, kwa miundombinu ya eval iliyobuniwa kwa makini, ufikiaji wa moja kwa moja kwa wataalamu na mazingira ya ulimwengu halisi, na uwezo wa kisasa wa kiwakala wa Codex, unaweza kujenga mawakala wanaojiboresha.

Katika chapisho hili, tutaeleza jinsi tulivyotumia Codex kujenga aina hii ya wakala. Katika miezi sita iliyopita, wahandisi na watafiti wa OpenAI waliotumwa moja kwa moja pamoja na wahandisi wa Thrive Holdings walishirikiana kujenga Tax AI pamoja na kwa ajili ya mtandao wa kampuni zaidi ya 30 za uhasibu wa Crete⁠(fungua katika dirisha jipya) ili kusaidia kuandaa marejesho ya kodi yanayozidi kuwa changamano. Badala ya kutegemea wahandisi kutafuta na kurekebisha kila hitilafu, Tax AI hutumia Codex kubadilisha matumizi ya uzalishaji kuwa ishara zilizopangwa zinazochochea uboreshaji wa kujitegemea.

Wataalamu wa Crete huandaa makumi ya maelfu ya marejesho ya kodi kila msimu, jambo linalohitaji kupitia mamilioni ya hati za msingi. Kwa uwasilishaji wa ugumu wa kati hadi mkubwa, kuingiza data pekee kunaweza kuchukua saa nane kwa kila marejesho, mara nyingi kukihusisha vyanzo vya data visivyo nadhifu, hati za mwaka uliopita, na uchimbaji na ukokotoaji wa mikono. Walituonyesha kwamba uandaaji wa kodi ulikuwa kikwazo kikubwa wakati wa kipindi chenye shughuli nyingi zaidi cha msimu wa kodi.

Ili kutatua tatizo hili, Tax AI ilichakata marejesho 7,000 ya kodi katika kampuni za Crete zilizoshiriki kwenye majaribio msimu huu wa kodi. Mfumo huotomatisha sehemu kubwa ya mchakato unaotumia muda mwingi wa kuandaa marejesho ya kodi ya 1040 na 1041, lakini kinachovutia zaidi kuliko ongezeko la ufanisi ni kwamba mfumo wenyewe ni bora kwa kipimo kuliko toleo lililotumwa kwanza miezi mitatu iliyopita.

Kujiboresha kunakopimika

Katika Tax AI, wataalamu hupakia faili za chanzo pamoja na maelezo yoyote mahususi ya mteja. Kisha Tax AI huunda uwasilishaji wa injini ya kodi, tayari kwa ukaguzi. Inawaokoa wataalamu takriban theluthi moja ya muda wao wa kuandaa kodi, huandaa rasimu za marejesho kwa usahihi wa hadi 97%, na huongeza utendaji kwa takriban 50%, na kuunda nafasi zaidi ya kutumia muda na wateja.

Tunaweza kupima uboreshaji huu kwa kuelewa jinsi Tax AI inavyoweza kukamilisha marejesho kwa usahihi bila kuhitaji marekebisho baadaye. Tunapima usahihi kwa kuangalia ni sehemu gani ya marejesho inayofikia 75%, 90%, au 100% ya ukamilishaji sahihi wa sehemu. Wakati wa uzinduzi, robo moja tu ya marejesho ilikuwa kwenye 75% ya ukamilishaji sahihi wa sehemu, lakini ndani ya wiki sita, 86% yalifikia kiwango hicho. Mfumo ulionyesha ukuaji wa haraka zaidi hata katika viwango vya 90% na 100% vya ukamilishaji sahihi wa sehemu. Vizingiti hivi hutupa mtazamo wa vitendo wa kiasi cha ufuatiliaji wa mtaalamu ambacho marejesho tofauti bado yanahitaji.

Mwanzoni, Tax AI ilishughulikia kazi rahisi zaidi, kama W-2 na 1099. Kadri msimu ulivyoendelea, iliingia kwenye marejesho changamano zaidi yenye K-1, ratiba, na hali ngumu zaidi za pembezoni. Kila uwezo mpya uliokoa muda zaidi kwa kila marejesho kuliko uliotangulia kwa sababu kazi ilizochukua zilikuwa ngumu zaidi na zilitumia muda zaidi kufanywa kwa mikono. Tunaendelea kuona maendeleo endelevu hata leo.

Kisha, tutaeleza jinsi timu zetu zilivyounda pamoja Tax AI ili ijiboreshe kwa kutegemea nguzo tatu muhimu: 1) mrejesho wa wataalamu wabobezi, 2) nyayo za uzalishaji (historia iliyopangwa kutoka ingizo hadi matokeo ya mwisho), na 3) mzunguko wa marudio unaoendeshwa na Codex unaotegemea eval zilizobinafsishwa ili kuwezesha maendeleo endelevu na ya haraka zaidi ya bidhaa. Tunatumaini uzoefu wetu utakuwa wa manufaa kwa wajenzi wengine katika nyanja ambako utaalamu wa wataalamu ni muhimu katika kuunda ubora wa mfumo mpana na data inayopita ndani yake.

Tax AI ilipopanuka hadi uwasilishaji changamano zaidi, sehemu ya marejesho yaliyopimwa yaliyofikia 75%, 90%, na ukamilishaji kamili iliendelea kuongezeka katika msimu wa kodi.

Tatizo

Tulipoingia katika sehemu ngumu zaidi za uandaaji wa kodi (K-1, ratiba za mali ya upangishaji, na fomu za kodi ambako thamani zilihitaji kulinganishwa katika faili nyingi za chanzo), ilidhihirika kwamba changamoto halisi ilikuwa kama bidhaa ingeweza kufanya hitilafu changamano za uzalishaji zionekane, zieleweke, na zifanyiwe kazi.

Katika siku za mwanzo za bidhaa, marekebisho mengi yalikuwa ya mikono. Wataalamu waliweza kurekebisha makosa ya mfumo, lakini bidhaa haikunasa muktadha kamili: thamani iliyobadilishwa kabla ya uwasilishaji inaweza kuonyesha kosa la kweli la uchimbaji, tatizo la uunganishaji, ukosefu wa usaidizi wa bidhaa, au kelele inayotarajiwa ya mtiririko wa kazi. Kutenganisha hali hizo bado kulihitaji ufuatiliaji kutoka kwa timu ya uhandisi. Wahandisi wangeweza kutumia mawakala wa uandishi wa kanuni, lakini mfumo haukuwa bado umeundwa kutumia AI kwa maana ndani ya mzunguko wa uboreshaji. Hatukuwa na ishara ya kutambua kilele sahihi cha kupanda.

Mbinu yetu: mzunguko wa sehemu tatu

Hilo lilituongoza kubuni mfumo kuzunguka nguzo tatu:

Kaa karibu na wataalamu: Watu wanaofanya kazi wanahitaji kuongoza kile bidhaa inajifunza. Hisia zao za ndani na uelewa wao hufichua makosa gani ni muhimu na husaidia kuelekeza ni sehemu zipi za mtiririko wa kazi zinafaa kupewa kipaumbele baadaye.
Jenga bidhaa ili uzalishaji uunde ushahidi: Bidhaa lazima inase zaidi ya ingizo na matokeo tu; inahitaji kunasa njia nzima kutoka nyenzo za chanzo, hadi sehemu zilizochimbwa na asili yake, hadi uwasilishaji wa hatua zinazofuata na marekebisho ya mtaalamu.
Unda mzunguko wa uboreshaji unaoendeshwa na Codex: Mara tu masuala ya uzalishaji yanapoonekana na kupangwa, yanaweza kuwa matokeo, eval zilizobinafsishwa, na kazi za uhandisi zenye mipaka. Kisha Codex inaweza kusaidia kuchunguza, kupendekeza mabadiliko, kuyathibitisha dhidi ya eval zilizolengwa na za urejeshaji, na kusogeza bidhaa mbele kwa kasi zaidi kuliko mzunguko wa marudio wa mikono pekee.

Mfano wa mali ya upangishaji hapa chini unaonyesha jinsi mzunguko huo unavyofanya kazi kwa vitendo, ukikuonyesha jinsi marekebisho ya mtaalamu yanavyokuwa ugunduzi uliopangwa, kisha lengo la eval, na hatimaye kazi ya uhandisi yenye mipaka ya Codex.

Mfano wa mali ya upangishaji

Mapato ya mali ya upangishaji huripotiwa kwenye Schedule E ya marejesho ya kodi ya mtu binafsi. Kwa mtazamo wa uhandisi, kazi ya kuyachimba ni rahisi kueleza lakini ngumu kufanya vizuri. Mfumo lazima usome nyenzo za chanzo zisizo nadhifu (maelezo yaliyoandikwa kwa mkono, barua pepe, lahajedwali, na faili nyingine za mteja), uchimbe sehemu za mali ya upangishaji ambazo mfumo unaweza kuunganisha kwa uhakika kwenye injini ya kodi, na uhifadhi ushahidi wa kutosha ili mtaalamu aweze kuidhinisha au kurekebisha matokeo. Mfano uliorahisishwa hapa chini unaonyesha jinsi faili hizo za chanzo na matokeo yaliyochimbwa yanaweza kuonekana.

*Kifurushi cha chanzo cha mali ya upangishaji husawazishwa kuwa sehemu zenye marejeo kabla ya kuunganishwa na dhana za injini ya kodi za hatua zinazofuata.*

1. Marekebisho ya mtaalamu yanafichua hitilafu

Tofauti kati ya thamani iliyotabiriwa na wakala na thamani halisi kutoka kwenye marejesho ya kodi yaliyowasilishwa inaweza kuonyesha kosa la kweli la uchimbaji, lakini pia inaweza kuwa upendeleo wa mtaalamu, thamani iliyobebwa kutoka marejesho ya mwaka uliopita katika injini ya kodi, au thamani iliyoletwa au kubadilishwa mahali pengine katika mtiririko wa kazi wa uwasilishaji. Wataalamu walitusaidia kutofautisha hali hizo ili tuweze kubaini ni hatua zipi zilihitaji marekebisho ya mtaalamu au zilizuia uwasilishaji.

Kwa sababu tuliweza kuona marekebisho haya kwa undani, tulibadilisha mchakato wa ukaguzi kutoka hatua ya mwisho baada ya hitilafu kuwa mzunguko endelevu wa kujifunza. Tulibuni mtiririko wa kazi ili kunasa hatua za wataalamu kama data iliyopangwa. Sasa, kila uingiliaji hulisha mzunguko wa uboreshaji wa bidhaa kwa kurekodi hasa kile Tax AI ilipendekeza, kile mtaalamu alichobadilisha, na kile kilichoingia hatimaye kwenye marejesho yaliyowasilishwa.

2. Nyayo za bidhaa hubadilisha marekebisho kuwa eval

Kwa mtiririko changamano wa kazi kama mali za upangishaji, mfumo lazima uhifadhi kinachotokea kati ya faili za chanzo na marejesho yaliyowasilishwa. Katika njia hiyo, hati hupangwa, hugawanywa, na kuainishwa; sehemu za mali ya upangishaji huchimbwa zikiwa na marejeo ya kurudi kwenye nyenzo za chanzo; thamani hizo huunganishwa kwenye injini ya kodi; na wataalamu bado wanaweza kuzirekebisha kabla ya kuwasilisha. Nyayo hizo za kiwango cha bidhaa hufanya iwezekane kuchunguza mahali hitilafu ilipotokea. Ili kubadilisha marekebisho ya wataalamu kuwa malengo muhimu ya tathmini, mfumo huyachakata katika hatua tatu:

Nasa tofauti: Matokeo ya Tax AI hulinganishwa na marejesho yaliyowasilishwa ili kutoa mistari ya ukaguzi ya kiwango cha sehemu inayokamata thamani inayotarajiwa, thamani iliyotabiriwa, na kama tofauti inaonekana kufanyiwa kazi.
Panga hitilafu zinazohusiana: Mistari ya ukaguzi inayofanana hupangwa pamoja ili kutenganisha hitilafu za bidhaa zinazojirudia na kelele inayotarajiwa ya mtiririko wa kazi. Kwa mfano, marekebisho ya mara kwa mara ya wataalamu yanaweza kuonyesha kwamba Tax AI mara nyingi hukosa sehemu za “siku za upangishaji wa haki,” hushughulikia vibaya “gharama nyingine,” au huchanganya mali nyingi za upangishaji ndani ya kifurushi kilekile cha chanzo.
Badilisha mifumo inayojirudia kuwa malengo ya eval: Baada ya kukaguliwa na kupimwa, matokeo yanayojirudia huwa malengo wazi ya eval kwa Codex kuboresha.

Mistari ya ukaguzi wa mali ya upangishaji hutenganisha hitilafu za bidhaa zinazojirudia na kelele inayotarajiwa, kisha hubadilisha hali zinazoweza kufanyiwa kazi kuwa malengo ya tathmini yanayompa Codex kilele cha kupanda.

3. Ugunduzi unakuwa kilele cha kupanda kwa Codex

Nguzo ya tatu ni kuunda mzunguko wa uhandisi unaoweza kuchukua hatua juu ya eval hizi mpya. Hapa ndipo Codex inakuwa ya msingi.

Tuseme mchakato wetu wa eval unaashiria kwamba Tax AI hukosa kwa uthabiti sehemu ya "siku za upangishaji wa haki", huku wataalamu wakiijaza kwa uhakika. Kwa sababu ugunduzi huu tayari umefungashwa katika seti ya eval iliyolengwa, yenye vifurushi vya chanzo vinavyowakilisha hali halisi na matokeo yanayotarajiwa, Codex inaweza kuchunguza chanzo kikuu cha tatizo moja kwa moja ndani ya muundo wa bidhaa.

Codex haifanyi kazi tu na matokeo ya mwisho yaliyo chini ya kiwango. Inachunguza nyayo, eval, uhifadhi, na ujuzi pamoja:

Chunguza mchakato: Kagua vifurushi vya chanzo, vielelezo vya uchimbaji, tabia ya kigeuzi, na njia za kanuni ili kubaini kama suala ni sehemu isiyoungwa mkono, mfumo wa uchimbaji uliokosekana, tatizo la uteuzi wa chanzo, pengo la kigeuzi, au suala la kipimaji.
Tekeleza marekebisho yaliyolengwa: Panua kielezo cha uchimbaji, boresha uteuzi wa chanzo kwa hati za mali ya upangishaji, sasisha kigeuzi cha injini ya kodi, au boresha kipimaji ikiwa kelele inayotarajiwa ya mtiririko wa kazi inahesabiwa kama hitilafu.
Thibitisha na pendekeza: Endesha tena eval iliyolengwa, endesha seti pana za majaribio ya urejeshaji, na onyesha ombi la mabadiliko ya kanuni la mgombea kwa ukaguzi wa uhandisi.
Funga mzunguko: Badilisha marekebisho ya mara kwa mara ya mtaalamu kuwa kazi ya uhandisi inayopimika. Ikiwa ushahidi haueleweki au hauwezi kujiendesha kwa usalama, hali hiyo hurudishwa kwa timu ya bidhaa badala ya kulazimishwa kupitia mzunguko.

Mzunguko wa kujiboresha wa mwisho hadi mwisho: nyayo za uzalishaji huonyesha marekebisho ya mara kwa mara ya kiwango cha sehemu, ambayo hugeuka kuwa ishara za hitilafu ambazo Codex inaweza kuchunguza pamoja na nyayo, eval, uhifadhi, na ujuzi. Mifumo inayoweza kufanyiwa kazi huwa eval zenye mipaka na mabadiliko ya bidhaa yanayopendekezwa; hali zisizo wazi hurudishwa kwa wahandisi zikaguliwe. Kila uboreshaji unaotolewa huunda ushahidi mpya wa uzalishaji kwa mzunguko unaofuata.

Jinsi ya kutumia Codex kujenga mzunguko huu

Mfano wa mali ya upangishaji ni ishara ya muundo mpana unaoweza kutumika tena: kutumia mabaki ya uzalishaji na nyayo kuboresha uwezo wa wakala. Kwa kupewa matokeo yaliyokaguliwa kutoka data ya uzalishaji, nyayo za chanzo, matokeo yanayotarajiwa ya injini ya kodi, mifano husika ya kanuni, na amri za eval kama seti ya ingizo, Codex inaweza kuboresha kwa kiasi kikubwa utendaji na usahihi kwa muda wa wiki na miezi. Hii inajengwa juu ya kanuni zilizoelezwa katika kazi yetu kuhusu uhandisi wa harness na Symphony, ambazo zinaeleza jinsi ya kufanya kazi zieleweke kwa Codex, kutoa muktadha na zana zilizo na mipaka, na kuweka uthibitishaji na ukaguzi wa binadamu kama sehemu ya mazingira.

Ushahidi huo haugeuki kuwa kazi ya Codex kiotomatiki. Marekebisho ya mtaalamu yanaweza kuonyesha kosa la uchimbaji, suala la uunganishaji, tabia ya bidhaa isiyoungwa mkono, uamuzi wa kodi, au kelele inayotarajiwa ya mtiririko wa kazi. Ni baada tu ya tofauti zinazojirudia kukaguliwa na kupangwa katika ugunduzi unaoweza kufanyiwa kazi ndipo mfumo huzibadilisha kuwa kazi yenye mipaka na sharti wazi la mafanikio.

Tunatumia uotomatiki huu kwa safu yenye mipaka ya bidhaa. Safu hii hufanya uchimbaji na kuunganisha hati za chanzo kwenye mitiririko ya kazi ya kodi. Wahandisi bado wanawajibika kwa usanifu, maamuzi ya bidhaa, na utoaji. Wataalamu huongoza mzunguko wa uboreshaji kupitia kazi wanayofanya tayari: kurekebisha thamani zilizochimbwa, kukagua marejesho, na kuidhinisha uwasilishaji wa mwisho.

Kwa Codex, matokeo si tahadhari isiyoeleweka bali kazi ya uhandisi iliyo na mipaka, yenye ushahidi, nyuso za bidhaa zinazoweza kuhaririwa, na milango wazi ya uthibitishaji. Muktadha wa kazi wakilishi ya mali ya upangishaji unaweza kufupishwa kama ifuatavyo:

Maandishi ya Kawaida

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

Mazingira ya kazi ya Codex yenye mipaka hutenganisha worktree inayoweza kuandikwa [1] na muktadha wa uzalishaji wa kusoma tu [5]. Worktree ina uso wa bidhaa ulio na mipaka ambao Codex inaweza kukagua au kurekebisha [2], eval zilizolengwa na za urejeshaji zinazofafanua mafanikio [3], na ujuzi/hati zinazoweza kutumika tena zinazoeleza jinsi ya kuendesha kazi na kuheshimu maamuzi ya awali [4]. Muktadha wa kusoma tu hutoa nyayo za uzalishaji, hati za chanzo, utabiri wa Tax AI, marejesho yaliyokamilishwa, na nyaraka za sehemu za injini ya kodi, ili Codex iweze kuchunguza hitilafu bila kubadilisha ushahidi wa msingi.

Kupanuka hadi nyanja mpya

Mzunguko huohuo unatumika zaidi ya mali za upangishaji. Mali za upangishaji zilichukua takriban wiki sita na uangalizi mkubwa wa uhandisi kufikia usahihi na urejeshaji wa 90%, lakini kazi hiyo ilizalisha dhana za jumla zinazoweza kutumika tena, mabaki ya ukaguzi, kanuni za eval, na mifumo ya utekelezaji iliyofanya iwe rahisi kusaidia ratiba changamano zinazofanana kama Schedule C na Schedule A.

Tax AI inaonyesha njia ya kujenga mawakala wanaojiboresha. Wataalamu huzalisha ishara za mrejesho zenye thamani kubwa kwa kutoa huduma. Mtiririko wa kazi wa bidhaa huhifadhi ishara hizo kama ushahidi uliopangwa. Mifumo ya uhandisi inayoungwa mkono na eval huthibitisha maboresho kabla hayajafika uzalishaji, na mzunguko unaoendeshwa na wakala huweka mfumo katika mtiririko endelevu wa kujiboresha.

Muundo wa Thrive Holdings unatupa uwezo wa kuiga mazingira haya katika sekta mahususi. Holdings ni mmiliki na pia Operator, hivyo timu zetu za pamoja za uhandisi zinaweza kufanya kazi moja kwa moja na wataalamu na data ya uzalishaji kutoka ndani ya biashara kama Crete, si kama muuzaji bali kama washirika. Hii ina maana kwamba teknolojia, bidhaa, na huduma vyote viko chini ya paa moja ili kutusaidia kusonga haraka na kujenga bidhaa bora sana.

Mhasibu mmoja mwandamizi ambaye alitumia saa 180 kuandaa kodi mwaka jana alitumia saa 15 tu mwaka huu. Aliweka sehemu ya muda huo katika kuwapigia simu kila mmoja wa wateja wake na kuwaongoza kupitia marejesho yao, kiwango cha huduma ya karibu sana ambacho hakikuwezekana mwaka mmoja uliopita. Muda uliobaki aliutumia kuchukua wateja wapya na kupanua huduma mpya.

Kwa pamoja, timu zetu sasa zinatumia muundo huohuo wa sehemu tatu kutoka Tax AI kama ramani ya kujenga mitiririko ya kazi katika nyanja nyingine kote Thrive Holdings⁠(fungua katika dirisha jipya); mitiririko ya kazi ya uhasibu kama utunzaji wa vitabu na ukaguzi, na mitiririko ya kazi ya uendeshaji kama uotomatiki wa dawati la usaidizi la IT. Katika nyanja na sekta mbalimbali, ahadi pana ya mawakala wanaojiboresha inabaki. Mawakala bora huongozwa na watu kujifunza kuwa na uwezo zaidi, kuaminika zaidi, na kuwa na thamani zaidi kadri muda unavyopita.

Ili kujifunza zaidi kuhusu timu ya OpenAI iliyofanya kazi kwenye mradi huu, wasiliana nasi.

Mwandishi

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo na John de Wasseige

Endelea kusoma

Tazama zote

Epidemiolojia ya core dump: kurekebisha hitilafu ya miaka 18

Uhandisi30 Jun 2026

Kujenga sandbox salama na yenye ufanisi ili kuwezesha Codex kwenye Windows

Uhandisi13 Mei 2026

Supercomputer networking to accelerate large scale AI training

Uhandisi5 Mei 2026