Mbangun agen pajak sing ningkatake awake dhewe nganggo Codex
Dening Anggota Staf Teknis: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)
Kepiye Thrive Holdings lan OpenAI bebarengan ngembangake Tax AI kanggo akuntan Crete kanthi nggabungake keahlian praktisi karo siklus sing didorong Codex
Sistem ing donya nyata tumindak beda ing produksi tinimbang ing laboratorium, lan rusak kanthi cara sing angel diantisipasi sadurunge diterapake. Tim kerep nemokake kegagalan kasebut sawise peluncuran, banjur ngentekake minggu kanggo mriksa kasus pinggiran, nyetel prompt, lan nerjemahake umpan balik produksi dadi perbaikan produk sing tahan lama. Siklus umpan balik iki manual lan alon, lan mung saya apik nalika insinyur ngembangake. Nanging saiki, kanthi infrastruktur eval sing dirancang kanthi apik, akses langsung menyang praktisi lan lingkungan donya nyata, lan kapabilitas agen tercanggih saka Codex, sampeyan bisa mbangun agen sing ningkatake awake dhewe.
Ing tulisan iki, kita bakal njlentrehake kepiye kita nggunakake Codex kanggo mbangun jinis agen iki. Sajrone nem wulan kepungkur, insinyur lan peneliti OpenAI sing diterjunkan langsung bebarengan karo insinyur Thrive Holdings kerja bareng mbangun Tax AI bebarengan lan kanggo jaringan 30+ firma akuntansi Crete(mbukak ing jendhela anyar) kanggo mbantu nyiapake pengembalian pajak sing saya kompleks. Tinimbang gumantung marang insinyur kanggo nemokake lan ndandani saben kegagalan, Tax AI nggunakake Codex kanggo ngowahi panggunaan produksi dadi sinyal terstruktur sing nyurung perbaikan otonom.
Praktisi Crete nyiapake puluhan ewu pengembalian pajak saben musim, sing mbutuhake nggarap jutaan dokumen dhasar. Kanggo pengajuan kanthi kompleksitas menengah nganti gedhe, entri data wae bisa mbutuhake wolung jam saben pengembalian, asring nglibatake sumber data sing semrawut, dokumen taun sadurunge, lan ekstraksi lan kalkulasi manual. Dheweke nuduhake marang kita yen persiapan pajak dadi bottleneck penting sajrone periode paling sibuk ing musim pajak.
Kanggo ngrampungake masalah iki, Tax AI ngolah 7.000 pengembalian pajak ing firma Crete sing melu pilot ing musim pajak iki. Sistem iki ngotomatisasi akeh proses nyiapake pengembalian pajak 1040 lan 1041 sing mbutuhake wektu akeh, nanging sing luwih narik tinimbang kenaikan efisiensi yaiku sistem iki dhewe bisa diukur luwih apik tinimbang versi sing pisanan diterapake telung wulan kepungkur.
Ing Tax AI, praktisi ngunggah file sumber bebarengan karo cathetan khusus klien apa wae. Tax AI banjur nggawe pengajuan mesin pajak, siap kanggo ditinjau. Iki ngirit kira-kira sapratelone wektu praktisi kanggo persiapan pajak, nyusun draf pengembalian kanthi akurasi nganti 97%, lan nambah kapasitas pangolahan kira-kira 50%, menehi ruang luwih akeh kanggo ngentekake wektu karo klien.
Kita bisa ngukur perbaikan iki kanthi mangerteni sepira akurate Tax AI bisa ngrampungake pengembalian tanpa mbutuhake koreksi mengko. Kita ngukur akurasi kanthi mriksa pira bagean pengembalian sing tekan 75%, 90%, utawa 100% kelengkapan kolom sing bener. Nalika diluncurake, mung seperempat pengembalian sing tekan 75% kelengkapan kolom sing bener, nanging sajrone enem minggu, 86% wis tekan tandha kasebut. Sistem nuduhake pertumbuhan sing luwih cepet maneh ing level 90% lan 100% kelengkapan kolom sing bener. Ambang iki menehi kita pandangan praktis babagan sepira akeh tindak lanjut praktisi sing isih dibutuhake dening pengembalian sing beda-beda.
Ing awal, Tax AI nangani pakaryan sing luwih sederhana, kaya W-2 lan 1099. Nalika musim terus mlaku, sistem iki pindhah menyang pengembalian sing luwih kompleks kanthi K-1, schedule, lan kasus pinggiran sing luwih angel. Saben kapabilitas anyar ngirit wektu luwih akeh saben pengembalian tinimbang sadurunge amarga tugas sing dijupuk luwih angel lan luwih mbutuhake wektu yen ditindakake kanthi manual. Nganti saiki kita isih terus ndeleng kemajuan.
Sabanjure, kita bakal nerangake kepiye tim kita bebarengan ngrekayasa Tax AI supaya bisa ningkatake awake dhewe kanthi ngandelake telung pilar kritis: 1) umpan balik praktisi ahli, 2) jejak produksi (riwayat terstruktur saka input nganti output final), lan 3) siklus iterasi sing didorong Codex adhedhasar eval sing disesuaikan kanggo ngaktifake pangembangan produk sing terus-terusan lan luwih cepet. Kita ngarep-arep pengalaman kita migunani kanggo pembangun liyane ing domain sing keahlian praktisi dadi kunci kanggo mbentuk kualitas sistem sakabèhé lan data sing mlaku ing njero.
Nalika Tax AI ngembang menyang pelaporan sing luwih kompleks, porsi pengembalian sing dinilai tekan 75%, 90%, lan rampung kebak terus munggah sajrone musim pajak.
Nalika kita mlebu menyang bagean persiapan pajak sing luwih angel (K-1, jadwal real estate sewaan, lan formulir pajak sing nilaine kudu direkonsiliasi ing pirang-pirang file sumber), dadi cetha yen tantangan sejatine yaiku apa produk bisa nggawe kegagalan produksi sing kompleks dadi katon, bisa dimangerteni, lan bisa ditindaklanjuti.
Ing dina-dina awal produk, umume koreksi isih manual. Praktisi bisa mbenerake kesalahan sistem, nanging produk durung nyekel konteks lengkap: nilai sing diowahi sadurunge pengajuan bisa nggambarake ekstraksi sing luput, masalah pemetaan, kurangé dukungan produk, utawa noise alur kerja sing dikarepake. Ngurutake kasus-kasus kasebut isih mbutuhake tindak lanjut saka tim rekayasa. Insinyur bisa nggunakake agen coding, nanging sistem durung dirancang kanggo nggunakake AI kanthi migunani ing njero siklus perbaikan. Kita durung duwe sinyal kanggo ngenali tanjakan sing pas kanggo didaki.
Iki nuntun kita ngrancang sistem adhedhasar telung pilar:
- Tetep cedhak karo praktisi: Wong sing nindakake pakaryan kudu ngarahake apa sing disinaoni produk. Intuisi lan pangerten dheweke mbukak kesalahan endi sing penting lan mbantu nemtokake bagean alur kerja endi sing pantes dadi fokus sabanjure.
- Bangun produk supaya produksi nggawe bukti: Produk kudu nyekel luwih saka mung input lan output; produk kudu nyekel jalur lengkap saka materi sumber, menyang kolom sing diekstrak lan asal-usule, menyang pengajuan hilir lan koreksi ahli.
- Gawe siklus perbaikan sing didorong Codex: Sawise masalah produksi katon lan terstruktur, masalah kasebut bisa dadi temuan, eval sing disesuaikan, lan tugas rekayasa sing diwatesi. Codex banjur bisa mbantu nyelidiki, ngusulake owah-owahan, ngesahake marang eval target lan regresi, lan nggawa produk maju luwih cepet tinimbang siklus iterasi sing murni manual.
Conto properti sewaan ing ngisor iki nuduhake cara kerja siklus kasebut ing praktik, nuntun sampeyan saka koreksi praktisi dadi temuan terstruktur, banjur target eval, lan pungkasane tugas rekayasa sing diwatesi kanggo Codex.
Penghasilan properti sewaan dilaporake ing Schedule E saka pengembalian pajak individu. Saka sudut pandang rekayasa, tugas ngekstrak iki gampang diterangake nanging angel ditindakake kanthi apik. Sistem kudu maca materi sumber sing semrawut (cathetan tulisan tangan, email, spreadsheet, lan file klien liyane), ngekstrak kolom properti sewaan sing bisa dipetakake sistem kanthi yakin menyang mesin pajak, lan njaga bukti sing cukup supaya praktisi bisa nyetujoni utawa mbenerake asil kasebut. Conto sing disederhanakake ing ngisor iki nuduhake kaya apa file sumber lan output ekstraksi kasebut.
Paket sumber properti sewaan dinormalisasi dadi kolom sing disitasi sadurunge dipetakake menyang konsep mesin pajak hilir.
Benten antarane nilai sing diprediksi agen lan nilai nyata saka pengembalian pajak sing diajukake bisa nuduhake kegagalan ekstraksi sing nyata, nanging uga bisa dadi preferensi praktisi, nilai sing digawa saka pengembalian taun sadurunge ing mesin pajak, utawa nilai sing dilebokake utawa diowahi ing panggon liya ing alur kerja pelaporan. Praktisi mbantu kita mbedakake kasus-kasus kasebut supaya kita bisa ngenali tumindak endi sing mbutuhake koreksi praktisi utawa ngalangi pangajuan.
Amarga kita bisa ndeleng koreksi iki kanthi rinci, kita ngowahi proses review saka langkah pungkasan sawise gagal dadi siklus sinau sing terus-terusan. Kita ngrancang alur kerja supaya bisa nyekel tumindak ahli minangka data terstruktur. Saiki, saben intervensi menehi umpan menyang siklus perbaikan produk kanthi nyathet persis apa sing diusulake Tax AI, apa sing diowahi praktisi, lan apa sing pungkasane mlebu ing pengembalian sing diajukake.
Kanggo alur kerja kompleks kaya properti sewaan, sistem kudu njaga apa sing kedadeyan ing antarane file sumber lan pengembalian sing diajukake. Ing sadawane jalur kasebut, dokumen diatur, dipisah, lan diklasifikasikake; kolom properti sewaan diekstrak kanthi sitasi bali menyang materi sumber; nilai kasebut dipetakake menyang mesin pajak; lan praktisi isih bisa mbenerake sadurunge ngajokake. Jejak tingkat produk kasebut ndadekake bisa nyelidiki ing endi kegagalan kedadeyan. Kanggo ngowahi koreksi praktisi dadi target evaluasi sing migunani, sistem ngolah ing telung langkah:
- Tangkep bedane: Output Tax AI dibandhingake karo pengembalian sing diajukake kanggo ngasilake baris review tingkat kolom sing nyekel nilai sing diarepake, nilai prediksi, lan apa bedane katon bisa ditindaklanjuti.
- Klompokake kegagalan sing gegandhengan: Baris review sing padha diklompokake kanggo misahake kegagalan produk sing bola-bali saka noise alur kerja sing dikarepake. Contone, koreksi praktisi sing bola-bali bisa nuduhake yen Tax AI kerep luput kolom “fair rental days”, salah nangani “other expenses”, utawa bingung antarane pirang-pirang properti sewaan ing paket sumber sing padha.
- Owahi pola sing bola-bali dadi target eval: Sawise ditinjau lan diukur, temuan sing bola-bali dadi target eval sing cetha kanggo dandan Codex.
Baris review properti sewaan misahake kegagalan produk sing bola-bali saka noise sing dikarepake, banjur ngowahi kasus sing bisa ditindaklanjuti dadi target evaluasi sing menehi Codex tanjakan kanggo didaki.
Pilar katelu yaiku nggawe siklus rekayasa sing bisa tumindak adhedhasar eval anyar iki. Ing kene Codex dadi pusat.
Upamane pipeline eval kita nandhani yen Tax AI kanthi konsisten luput kolom "fair rental days", dene praktisi kanthi andal ngiseni kolom kasebut. Amarga temuan iki wis dikemas dadi set eval sing ditargetake, kanthi paket sumber sing representatif lan output sing diarepake, Codex bisa nyelidiki akar masalah langsung ing scaffold produk.
Codex ora mung makarya nganggo output pungkasan sing kurang apik. Codex mriksa trace, eval, repo, lan skills bebarengan:
- Selidiki pipeline: Priksa paket sumber, skema ekstraksi, prilaku mapper, lan jalur kode kanggo nemtokake apa masalah kasebut kolom sing durung didhukung, pola ekstraksi sing kelewat, masalah pilihan sumber, celah mapper, utawa masalah grader.
- Terapake perbaikan sing ditargetake: Tambah skema ekstraksi, apikake pilihan sumber kanggo dokumen properti sewaan, nganyari mapper mesin pajak, utawa nyaring grader yen noise alur kerja sing dikarepake diitung minangka kegagalan.
- Validasi lan usulake: Jalanake maneh eval sing ditargetake, jalanake suite regresi sing luwih jembar, lan tampilake calon panyuwunan tarik kanggo review rekayasa.
- Tutup siklus: Owahi koreksi praktisi sing bola-bali dadi tugas rekayasa sing bisa diukur. Yen buktine ambigu utawa ora aman kanggo diotomatisasi, kasus kasebut dialihake maneh menyang tim produk tinimbang dipaksa liwat siklus iki.
Siklus perbaikan mandiri end-to-end: jejak produksi nampilake koreksi tingkat kolom sing bola-bali, sing banjur dadi sinyal kegagalan sing bisa dipriksa Codex bebarengan karo trace, eval, repo, lan skills. Pola sing bisa ditindaklanjuti dadi eval sing diwatesi lan calon owah-owahan produk; kasus sing ambigu dialihake maneh menyang insinyur kanggo ditinjau. Saben perbaikan sing dirilis nggawe bukti produksi anyar kanggo siklus sabanjure.
Conto properti sewaan iki nggambarake pola sing luwih jembar lan bisa digunakake maneh: nggunakake artefak lan jejak produksi kanggo ningkatake kapabilitas agen. Kanthi temuan sing wis ditinjau saka data produksi, jejak sumber, output mesin pajak sing diarepake, conto kode sing relevan, lan printah eval minangka sakumpulan input, Codex bisa ningkatake kinerja lan akurasi kanthi nyata sajrone minggu lan wulan. Iki nerusake prinsip sing diterangake ing karya kita babagan harness engineering lan Symphony, sing nerangake cara nggawe tugas bisa diwaca Codex, nyedhiyakake konteks lan piranti sing diwatesi, lan njaga validasi lan review manungsa tetep dadi bagean saka lingkungan.
Bukti kasebut ora otomatis dadi tugas Codex. Koreksi praktisi bisa nggambarake ekstraksi sing luput, masalah pemetaan, prilaku produk sing durung didhukung, pertimbangan pajak, utawa noise alur kerja sing dikarepake. Mung sawise bedane sing bola-bali ditinjau lan dikelompokake dadi temuan sing bisa ditindaklanjuti, sistem ngowahi dadi tugas sing diwatesi kanthi kondisi sukses sing cetha.
Kita ngetrapake otomatisasi iki ing lapisan produk sing diwatesi. Lapisan iki nindakake ekstraksi lan memetakan dokumen sumber menyang alur kerja pajak. Insinyur tetep tanggung jawab kanggo arsitektur, keputusan produk, lan rilis. Praktisi ngarahake siklus perbaikan liwat pakaryan sing wis ditindakake: mbenerake nilai sing diekstrak, mriksa pengembalian, lan nyetujoni pengajuan final.
Kanggo Codex, asilé dudu tandha sing samar nanging tugas rekayasa sing diwatesi kanthi bukti, permukaan produk sing bisa diowahi, lan gerbang validasi sing eksplisit. Konteks kanggo tugas properti sewaan sing representatif bisa diringkes kaya ing ngisor iki:
Siklus sing padha uga ditrapake ngluwihi properti sewaan. Properti sewaan mbutuhake kira-kira enem minggu lan pengawasan rekayasa sing gedhe kanggo tekan presisi lan recall 90%, nanging pakaryan kasebut ngasilake abstraksi sing bisa digunakake maneh, artefak review, konvensi eval, lan pola implementasi sing ndadekake luwih gampang ndhukung jadwal sing kompleks kanthi tingkat sing padha kayata Schedule C lan Schedule A.
Tax AI mbuktekake dalan kanggo mbangun agen sing bisa ningkatake awake dhewe. Praktisi ngasilake sinyal umpan balik sing regane dhuwur kanthi ngirim layanan kasebut. Alur kerja produk njaga sinyal kasebut minangka bukti terstruktur. Sistem rekayasa sing didhukung eval ngesahake perbaikan sadurunge tekan produksi, lan siklus sing didhukung agen njaga sistem tetep ana ing aliran perbaikan mandiri sing terus-terusan.
Struktur Thrive Holdings ngidini kita niru lingkungan iki ing industri tartamtu. Holdings iku pemilik lan uga operator, mula tim rekayasa gabungan kita bisa makarya langsung karo praktisi lan data produksi saka njero bisnis kaya Crete, dudu minangka vendor nanging minangka mitra. Iki tegese teknologi, produk, lan layanan kabeh ana ing sangisore siji payon kanggo mbantu kita obah luwih cepet lan mbangun produk sing istimewa.
Salah siji akuntan senior sing taun kepungkur ngentekake 180 jam kanggo nyiapake pajak, taun iki mung ngentekake 15 jam. Dheweke nggunakake sebagian wektu kasebut kanggo nelpon saben kliene lan nuntun dheweke liwat pengembalian pajake, tingkat layanan sing banget personal sing ora bisa ditindakake setaun kepungkur. Sisa wektu kasebut digunakake kanggo nampa klien anyar lan ngembang menyang penawaran layanan anyar.
Bebarengan, tim kita saiki nggunakake rancangan telung bagean sing padha saka Tax AI minangka cithak biru kanggo mbangun alur kerja ing domain liyane ing Thrive Holdings(mbukak ing jendhela anyar); alur kerja akuntansi kayata pembukuan lan audit, lan alur kerja operasional kayata otomatisasi help desk IT. Ing macem-macem domain lan industri, janji sing luwih jembar saka agen sing bisa ningkatake awake dhewe tetep ana. Agen paling apik diarahkan dening manungsa supaya sinau dadi luwih mumpuni, luwih dipercaya, lan luwih migunani saka wektu ke wektu.
Kanggo sinau luwih akeh babagan tim OpenAI sing nggarap proyek iki, hubungi kami.


