Kalo te përmbajtja kryesore
OpenAI

27 maj 2026

Inxhinieria

Ndërtimi i agjentëve tatimorë vetëpërmirësues me Codex

Nga anëtarët e personelit teknik: Aravind Srinivasan dhe Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo dhe John de Wasseige (OpenAI)

Duke ngarkuar…

Si Thrive Holdings dhe OpenAI zhvilluan së bashku Tax AI për kontabilistët e Crete duke ndërthurur ekspertizën e praktikuesve me një cikël të drejtuar nga Codex

Sistemet e botës reale kanë një sjellje të ndryshme në prodhim krahasuar me sjelljen e tyre në laborator, duke shfaqur dështime në mënyra që janë të vështira për t’u parashikuar para zbatimit. Ekipet shpesh i zbulojnë këto dështime pas prezantimit dhe më pas kalojnë javë të tëra duke inspektuar rastet e rralla, duke rregulluar kërkesat dhe duke i përkthyer reagimet e prodhimit në përmirësime të qëndrueshme të produktit. Cikli i reagimit është manual dhe i ngadaltë dhe përmirësohet vetëm kur një inxhinier e shtyn atë përpara. Por sot, me infrastrukturën e vlerësimit të projektuar me kujdes, qasjen e drejtpërdrejtë për praktikuesit dhe mjediset e botës reale, si dhe aftësitë agjentike të përparuara të Codex, mund të ndërtosh agjentë që vetëpërmirësohen.

Në këtë postim, ne do të zbulojmë si e përdorëm Codex për të ndërtuar këtë lloj agjenti. Gjatë gjashtë muajve të fundit, inxhinierë dhe studiues të OpenAI në terren, së bashku me inxhinierët e Thrive Holdings, bashkëpunuan për të ndërtuar Tax AI dhe për të ndihmuar në përgatitjen e deklarimeve tatimore gjithnjë e më komplekse për rrjetin e Crete(hapet në një dritare të re) me mbi 30 kompani kontabiliteti. Në vend që të mbështetet tek inxhinierët për të gjetur dhe rregulluar çdo dështim bazë, Tax AI përdor Codex për ta shndërruar përdorimin në prodhim në sinjale të strukturuara që mbështesin një përmirësim autonom.

Praktikuesit e Crete përgatisin dhjetëra mijëra deklarime tatimore çdo sezon, gjë që kërkon të punosh me miliona dokumente bazë. Për deklarimet me kompleksitet mesatar deri në të lartë, vetëm futja e të dhënave mund të kërkojë tetë orë për çdo deklarim, shpesh duke përfshirë burime të çrregullta të të dhënave, dokumente të vitit të mëparshëm dhe nxjerrje dhe llogaritje manuale. Ata na treguan se përgatitja e deklarimeve tatimore ishte një pengesë të rëndësishme gjatë periudhës më të ngarkuar të sezonit të deklarimeve tatimore.

Për të zgjidhur këtë problem, Tax AI përpunoi 7000 deklarata tatimore në kompanitë e Crete që morën pjesë në këtë sezon pilot të deklarimeve tatimore. Sistemi automatizon një pjesë të madhe të procesit të zgjatur të përgatitjes së deklaratave tatimore 1040 dhe 1041, por edhe më bindëse se rritja e efikasitetit është se vetë sistemi është mjaft më i mirë se versioni që u vendos për herë të parë tre muaj më parë.

Vetëpërmirësimi i matshëm

Në Tax AI, praktikuesit ngarkojnë skedarë burimorë bashkë me shënime specifike për klientin. Tax AI më pas krijon një dorëzim për motorin tatimor, gati për rishikim. Ai u kursen praktikuesve rreth një të tretën e kohës për përgatitjen e deklaratave tatimore, harton deklarata me deri në 97% saktësi dhe rrit kapacitetin e përpunimit me rreth 50%, duke krijuar më shumë hapësira për ta që ta kalojnë kohën duke punuar me klientët. 

Ne mund ta vlerësojmë në aspektin sasior këtë përmirësim duke kuptuar se me sa saktësi Tax AI mund ta plotësojë një deklaratë pa pasur nevojë për korrigjime të mëvonshme. Ne e masim saktësinë duke kontrolluar se çfarë pjese e deklaratave arrijnë 75%, 90% ose 100% plotësim të saktë të fushave. Në momentin e prezantimit, vetëm një e katërta e deklaratave ishin me 75% plotësim të saktë të fushave, por brenda gjashtë javësh, këtë nivel e arritën 86% e tyre. Sistemi tregoi një rritje edhe më të shpejtë në nivelet 90% dhe 100% të plotësimit të saktë të fushave. Këto pragje na japin një pamje praktike se sa punë pasuese nga praktikuesit kërkohet akoma për deklarata të ndryshme. 

Në fillim, Tax AI menaxhonte punë më të thjeshta, si deklaratat W-2 dhe 1099. Më vazhdimin e sezonit të deklarimeve tatimore, ai kaloi në deklarata më komplekse me formularë K-1, kalendarë dhe raste të rralla më të vështira. Çdo aftësi e re kursente më shumë kohë për çdo deklaratë krahasuar me më parë, pasi detyrat që merrte përsipër ishin më të vështira dhe kërkonin më shumë kohë për t’u kryer manualisht. Ne vazhdojmë të shikojmë progres të vazhdueshëm edhe sot.

Më pas, ne do të shpjegojmë si ekipet tona e projektuan së bashku Tax AI në aspektin inxhinierik që të vetëpërmirësohet duke u mbështetur në tre shtylla kritike: 1) reagimet e praktikuesve ekspertë, 2) gjurmët e prodhimit (një historik i strukturuar nga të dhënat hyrëse deri te rezultati përfundimtar), si dhe 3) një cikël i përsëritur i drejtuar nga Codex bazuar në vlerësime të personalizuara për të bërë të mundur zhvillimin e vazhdueshëm dhe më të shpejtë të produktit. Shpresojmë që përvoja jonë të jetë e dobishme për krijues të tjerë në fusha ku ekspertiza e praktikuesve është çelësi për t'i dhënë formën cilësisë së sistemit të përgjithshëm dhe të të dhënave që përdoren në të.

Kur veprimi i Tax AI u zgjerua për të përfshirë deklarime më komplekse, pjesa e deklaratave të vlerësuara që arritën 75%, 90% plotësim dhe plotësim të plotë vazhdoi të rritej gjatë sezonit të deklarimeve tatimore.

Problemi

Kur kaluam në pjesë më të vështira të përgatitjes së deklaratave tatimore (formularë K-1, kalendari i pasurive të paluajtshme me qira dhe formularët tatimorë ku vlerat duhej të rakordoheshin mes disa skedarëve burimorë), u bë e qartë se sfida reale ishte nëse produkti mund t’i bënte të dukshme, të kuptueshme dhe të zbatueshme dështimet komplekse të prodhimit.

Në ditët e para të punës me produktin, shumica e korrigjimeve ishin manuale. Praktikuesit mund të korrigjonin gabimet e sistemit, por produkti nuk e kuptonte kontekstin e plotë: një vlerë e ndryshuar para deklarimit mund të pasqyronte një dështim të vërtetë në procesin e nxjerrjes, një problem lidhjeje, mungesën e mbështetjes për produktin ose pengesa të pritshme në rrjedhën e punës. Zgjidhja e këtyre rasteve kërkonte akoma veprime pasuese nga ekipi i inxhinierëve. Inxhinierët mund të përdornin agjentë kodimi, por sistemi nuk ishte projektuar ende për ta përdorur IA-në në mënyrë domethënëse brenda një cikli përmirësimi. Ne nuk kishim sinjalin për të identifikuar sfidën e duhur që duhej kapërcyer.

Qasja jonë: një cikël me tri pjesë

Kjo na bëri ta projektonim sistemin bazuar në tre shtylla:

  1. Qëndro pranë praktikuesve: Njerëzit që bëjnë punën janë ata që duhet të drejtojnë procesin e të të mësuarit të produktit. Intuita dhe njohuritë e tyre zbulojnë se cilat gabime kanë rëndësi dhe ndihmojnë për të përcaktuar se në cilat pjesë të rrjedhës së punës ia vlen të përqendrohemi më pas.
  2. Ndërtoje produktin në mënyrë të tillë që prodhimi të krijojë prova: Produkti duhet të regjistrojë më shumë se vetëm të dhënat hyrëse dhe dalëse; ai duhet të regjistrojë rrugën e plotë nga materiali burimor, te fushat e nxjerra dhe prejardhja e tyre, e deri te dorëzimi pasues dhe korrigjimi nga ekspertët.
  3. Krijo një cikël përmirësimi të drejtuar nga Codex: Pasi problemet e prodhimit bëhen të dukshme dhe të strukturuara, ato mund të shndërrohen në përfundime, vlerësime të personalizuara dhe detyra inxhinierike të përcaktuara. Më pas Codex mund të ndihmojë për hetimin, propozimin e ndryshimeve, vërtetimin e tyre sipas vlerësimeve të synuara dhe të regresionit, dhe ta shtyjë produktin përpara më shpejt sesa një cikël i përsëritur thjesht manual. 

Shembulli i pronave me qira më poshtë tregon si funksionon ai cikël në praktikë, duke shpjeguar se si një korrigjim nga praktikuesi bëhet një përfundim i strukturuar, më pas një objektiv vlerësimi dhe në fund një detyrë inxhinierike e përcaktuar për Codex.

Shembulli i pronave me qira

Të ardhurat nga pronat me qira raportohen në Kalendarin E të një deklarate tatimore individuale. Nga këndvështrimi inxhinierik, detyra e nxjerrjes së tyre është e thjeshtë për t’u përshkruar, por e vështirë për t’u bërë si duhet. Sistemi duhet të lexojë materiale burimore të çrregullta (shënime të shkruara me dorë, email-e, fletëllogaritëse dhe skedarë të tjerë të klientëve), të nxjerrë fushat e pronave me qira që sistemi mund t’i lidhë në mënyrë të sigurt te motori tatimor dhe të ruajë prova të mjaftueshme që një praktikues të mund ta miratojë ose korrigjojë rezultatin. Shembulli i thjeshtuar më poshtë tregon se si mund të duken skedarët burimorë dhe rezultatet e nxjerra.

""

Një paketë burimore për pronat me qira normalizohet në fushat e cituara përpara se ato të lidhen me konceptet vijuese të motorit tatimor.

1. Një korrigjim nga praktikuesi zbulon një dështim

Një ndryshim midis vlerës së parashikuar nga agjenti dhe vlerës aktuale nga deklarata tatimore e dorëzuar mund të pasqyrojë një dështim të vërtetë në procesin e nxjerrjes, por mund të jetë edhe një preferencë e praktikuesit, një vlerë e bartur nga deklarata e vitit të kaluar në motorin tatimor, ose një vlerë e futur apo e ndryshuar diku tjetër në rrjedhën e punës të deklarimit. Praktikuesit na ndihmuan t’i dallonim këto raste që të mund të identifikonim se cilat veprime kërkonin një korrigjim nga praktikuesi ose se cilat bllokonin dorëzimin.

Duke qenë se mund t’i shikonim këto korrigjime në detaje, ne e shndërruam procesin e rishikimit nga një hap përfundimtar pas dështimit në një cikël të vazhdueshëm të të mësuarit. Ne e projektuam rrjedhën e punës për t'i regjistruar veprimet e ekspertëve si të dhëna të strukturuara. Tani, çdo ndërhyrje ushqen ciklin e përmirësimit të produktit duke regjistruar me saktësi çfarë ka propozuar Tax AI, çfarë është modifikuar nga praktikuesi dhe çfarë është futur si përfundim në deklaratën e dorëzuar.

2. Gjurmët e produktit i shndërrojnë korrigjimet në vlerësime

Për një rrjedhë komplekse pune si p.sh. për pronat me qira, sistemi duhet të ruajë ato që ndodhin midis skedarëve burimorë dhe deklaratës së dorëzuar. Gjatë kësaj rruge, dokumentet organizohen, ndahen dhe klasifikohen; fushat e pronave me qira nxirren me citimet përsëri te materialet burimore; ato vlera lidhen në motorin tatimor; dhe praktikuesit mund t’i korrigjojnë përsëri para deklarimit. Këto gjurmë në nivel produkti bëjnë të mundur që të hetohet se ku ka ndodhur dështimi. Për t’i shndërruar korrigjimet e praktikuesve në objektiva të dobishëm vlerësimi, sistemi i përpunon ato në tre hapa:

  • Regjistro ndryshimin: Të dhënat dalëse të Tax AI krahasohen me deklaratën e dorëzuar për të prodhuar rreshta rishikimi në nivel fushe që regjistrojnë vlerën e pritshme, vlerën e parashikuar dhe nëse diferenca duket e zbatueshme.
  • Grupo dështimet përkatëse: Rreshtat e ngjashëm të rishikimit grupohen për t'i ndarë dështimet e përsëritura të produktit nga pengesat e pritshme të rrjedhës së punës. Për shembull, korrigjimet e përsëritura nga praktikuesit mund të tregojnë se Tax AI shpesh nuk i regjistron fushat e ditëve të qirasë me çmim tregu, i trajton në mënyrë të gabuar "shpenzimet e tjera" ose ngatërron disa prona me qira brenda së njëjtës paketë burimore.
  • Shndërroji modelet e përsëritura në objektiva vlerësimi: Pasi rishikohen dhe maten, përfundimet e përsëritura bëhen objektiva të qartë vlerësimi për përmirësimin e Codex.
""

Rreshtat për rishikimin e pronave me qira i ndajnë dështimet e përsëritura të produktit nga pengesat e pritshme dhe më pas i shndërrojnë rastet e zbatueshme në objektiva vlerësimi që i japin Codex një sfidë për ta kapërcyer.

3. Rezultati bëhet një sfidë për Codex

Shtylla e tretë është krijimi i një cikli inxhinierik të aftë të veprojë bazuar në këto vlerësime të reja. Këtu Codex zë një rol kryesor.

Supozojmë që kanali ynë i vlerësimeve sinjalizon se Tax AI nuk e regjistron në mënyrë të vazhdueshme fushën e ditëve të qirasë me çmim tregu, ndërkohë që praktikuesit e plotësojnë në mënyrë të besueshme. Duke qenë se ky rezultat është paketuar tashmë në një grup të synuar vlerësimi, me paketa burimore përfaqësuese dhe të dhëna dalëse të pritshme, Codex mund të hetojë drejtpërdrejt shkakun rrënjësor brenda strukturës së produktit.

Codex nuk punon vetëm me një rezultat përfundimtar nën nivelin e pritshëm. Ai inspekton po ashtu gjurmët, vlerësimet, depozimet dhe aftësitë:

  • Kontrollo kanalin: Inspekto paketat burimore, skemat e nxjerrjes, sjelljen e përcaktuesit të lidhjeve dhe rrugët e kodimit për të përcaktuar nëse problemi është një fushë e pambështetur, një model i humbur i nxjerrjes, një problem i zgjedhjes së burimit, një boshllëk i përcaktuesit të lidhjeve apo një problem i vlerësuesit.
  • Zbato rregullime të qëllimshme: Zgjero skemën e nxjerrjes, përmirëso zgjedhjen e burimeve për dokumentet e pronave me qira, përditëso përcaktuesin e lidhjeve të motorit tatimor ose përmirëso vlerësuesin nëse pengesat e pritshme të rrjedhës së punës llogariten si dështime.
  • Vërteto dhe propozo: Ekzekuto përsëri vlerësimin e synuar, ekzekuto paketa më të gjera regresioni dhe paraqit një kërkesë të mundshme për përfshirjen e ndryshimeve për t'u rishikuar në aspektin inxhinierik.
  • Mbyll ciklin: Shndërroje një korrigjim të përsëritur nga praktikuesi në një detyrë të matshme inxhinierike. Nëse provat janë të paqarta ose nuk mund të automatizohen në mënyrë të sigurt, rasti i rikthehet ekipit të produktit në vend që të detyrohet të kalojë nëpër ciklin në fjalë.
""

Cikli i plotë i vetëpërmirësimit: gjurmët e prodhimit paraqesin korrigjime të përsëritura në nivel fushe, të cilat bëhen sinjale dështimi që Codex mund t’i rishikojë bashkë me gjurmët, vlerësimet, depozitimet dhe aftësitë. Modelet e zbatueshme bëhen vlerësime të kufizuara dhe ndryshime të mundshme të produktit; rastet e paqarta u rikthehen inxhinierëve për rishikim. Çdo përmirësim i dërguar krijon prova të reja të prodhimit për ciklin pasues.

Si të përdoret Codex për të ndërtuar këtë cikël

Shembulli i pronave me qira është përfaqësues i një modeli më të gjerë që mund të ripërdoret: përdorimi i artefakteve dhe gjurmëve të prodhimit për të përmirësuar aftësitë e një agjenti. Duke pasur si të dhëna hyrëse rezultatet e rishikuara nga të dhënat e prodhimit, gjurmët e burimeve, rezultatin e pritshëm të motorit tatimor, shembuj përkatës kodimi dhe komanda vlerësimi, Codex mund të përmirësojë ndjeshëm performancën dhe saktësinë në disa javë dhe muaj. Kjo bazohet në parimet e përshkruara në punimin tonë mbi inxhinierinë e strukturës mbajtëse dhe Symphony, të cilat shpjegojnë se si t’i bësh detyrat të lexueshme për Codex, të ofrosh kontekstin dhe mjete të përcaktuara, si dhe të realizosh vërtetimin dhe rishikimin nga njerëzit për këtë mjedis. 

Këto prova nuk bëhen automatikisht një detyrë për Codex. Një korrigjim nga praktikuesi mund të pasqyrojë një dështim në nxjerrje, një problem të lidhjeve, sjellje të pambështetura të produktit, një gjykim në lidhje me tatimet ose pengesa të pritshme të rrjedhës së punës. Vetëm pasi ndryshimet e përsëritura të jenë rishikuar dhe grupuar në një rezultat të zbatueshëm, sistemi i shndërron ato në një detyrë të përcaktuar me një kusht të qartë për suksesin.

Ne e zbatojmë këtë automatizim në një shtresë të kufizuar të produktit. Kjo shtresë kryen nxjerrjen dhe lidh dokumentet burimore në rrjedha pune tatimore. Inxhinierët janë përsëri përgjegjës për arkitekturën, vendimet për produktin dhe dërgimin e tij. Praktikuesit drejtojnë ciklin e përmirësimit përmes punës që bëjnë tashmë: korrigjimin e vlerave të nxjerra, rishikimin e deklaratave dhe miratimin e deklarimeve përfundimtare.

Për Codex, rezultati nuk është një sinjalizim i paqartë, por një detyrë inxhinierike e përcaktuar me prova, sipërfaqe të modifikueshme produkti dhe porta të qarta vërtetimi. Konteksti për një detyrë përfaqësuese për pronat me qira mund të përmblidhet si më poshtë:

Tekst i thjeshtë

1
/candidates/FIND-RENTAL-0042/
2
3
├── repo/ [1]
4
│ └── branch: codex/fix-rental-0042
5
│ │
6
│ ├── AGENTS.md
7
│ │
8
│ ├── tasks/FIND-RENTAL-0042/
9
│ │ ├── task.yaml
10
│ │ ├── EXEC_PLAN.md
11
│ │ └── RESULTS.md
12
│ │
13
│ ├── app/tax-ai/rental-income/ [2]
14
│ │ ├── agent.ts
15
│ │ ├── schema.ts
16
│ │ ├── provenance.ts
17
│ │ └── mapper.ts
18
│ │
19
│ ├── evals/ [3]
20
│ │ ├── datasets/fair-rental-days.yaml
21
│ │ ├── suites/fair-rental-days.yaml
22
│ │ ├── suites/rental-income-regression.yaml
23
│ │ └── graders/rental-income.yaml
24
│ │
25
│ ├── skills/ [4]
26
│ │ ├── eval-runner/
27
│ │ └── tax-field-docs/
28
│ │
29
│ └── docs/ [4]
30
│ ├── architecture/
31
│ └── task-environments/
32
33
└── scoped-tools/ [5]
34
├── production-trace
35
├── source-artifacts
36
└── tax-engine-docs

Një mjedis i përcaktuar detyrash i Codex e ndan pemën e shkruajtshme të punëve [1] nga konteksti i prodhimit vetëm për lexim [5]. Pema e punëve përfshin sipërfaqen e përcaktuar të produktit që mund të inspektohet ose modifikohet nga Codex [2], vlerësimet e synuara dhe të regresionit që përcaktojnë suksesin [3], si dhe aftësitë/dokumentet e ripërdorshme që kodifikojnë mënyrën e ekzekutimit të detyrave dhe të respektimit të vendimeve të mëparshme [4]. Konteksti vetëm për lexim siguron gjurmën e prodhimit, dokumentet burimore, parashikimin e Tax AI, deklaratën përfundimtare dhe dokumentacionin e fushave të motorit tatimor, në mënyrë që Codex të mund të hetojë dështimin pa i ndryshuar provat bazë.

Zgjerimi në fusha të reja

I njëjti cikël zbatohet përtej pronave me qira. Për pronat me qira u deshën rreth gjashtë javë dhe mbikëqyrje e konsiderueshme inxhinierike për të arritur 90% saktësi dhe identifikim, por kjo punë siguroi abstraksione të ripërdorshme, artefakte për rishikimin, konvencione për vlerësimin dhe modele zbatimi që e bënë më të lehtë mbështetjen e programeve po aq komplekse si Kalendari C dhe Kalendari A.

Tax AI vërteton rrugën për ndërtimin e agjentëve me vetëpërmirësim. Praktikuesit gjenerojnë sinjale reagimi me vlerë të lartë duke ofruar shërbimin. Rrjedhat e punës së produktit i ruajnë këto sinjale si prova të strukturuara. Sistemet inxhinierike të mbështetura nga vlerësimet vërtetojnë përmirësimet para se ato të arrijnë në prodhim, dhe një cikël i mundësuar nga agjentët e mban sistemin në një rrjedhë të vazhdueshme vetëpërmirësimi. 

Struktura e Thrive Holdings na lejon ta përsërisim këtë mjedis në industri të caktuara. Holdings është si pronar, ashtu edhe operator, kështu që ekipet tona të kombinuara inxhinierike mund të punojnë drejtpërdrejt me praktikuesit dhe të dhënat e prodhimit nga brenda bizneseve si Crete, jo si shitës, por si partnerë. Kjo do të thotë se teknologjia, produkti dhe shërbimi janë të gjitha në një vend të vetëm për të na ndihmuar të lëvizim më shpejt dhe të ndërtojmë produkte të jashtëzakonshme.

Një kontabiliste e lartë që vitin e kaluar iu deshën 180 orë për përgatitjen e deklarimeve tatimore, këtë vit iu deshën vetëm 15 orë. Ajo e përdori një pjesë të asaj kohe për të telefonuar secilin nga klientët e saj dhe për t’u shpjeguar deklaratat e tyre, një nivel shërbimi të personalizuar që nuk ishte i mundur një vit më parë. Pjesën tjetër të asaj kohe ajo e përdori për të gjetur klientë të rinj dhe për t’u zgjeruar me oferta të reja shërbimesh.

Së bashku, ekipet tona tani po përdorin të njëjtin dizajn me tri pjesë nga Tax AI si një plan për ndërtimin e rrjedhave të punës në fusha të tjera në Thrive Holdings(hapet në një dritare të re); rrjedha kontabiliteti si mbajtja e kontabilitetit dhe auditimi, si dhe rrjedha operative si automatizimi i asistencës teknike për teknologjinë e informacionit. Në fusha dhe industri të ndryshme, gjen zbatim premtimi për agjentë vetëpërmirësues në një kuadër më të gjerë. Agjentët më të mirë drejtohen nga njerëzit për të mësuar të bëhen më të aftë, më të besuar dhe më të vlefshëm me kalimin e kohës.

Për të mësuar më shumë rreth ekipit të OpenAI që ka punuar në këtë projekt, na kontakto.

Autor

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo dhe John de Wasseige