27 Mei 2026

Membangun agen pajak yang meningkatkan diri dengan Codex

Oleh Anggota Staf Teknis: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)

Memuat…

Bagaimana Thrive Holdings dan OpenAI bersama-sama mengembangkan Tax AI untuk akuntan Crete dengan memadukan keahlian praktisi dengan loop berbasis Codex

Sistem dunia nyata berperilaku berbeda di produksi dibandingkan di laboratorium, dan gagal dengan cara yang sulit diantisipasi sebelum deployment. Tim sering menemukan kegagalan tersebut setelah peluncuran, lalu menghabiskan waktu berminggu-minggu untuk memeriksa edge case, menyesuaikan prompt, dan menerjemahkan umpan balik produksi menjadi peningkatan produk yang tahan lama. Loop umpan balik bersifat manual dan lambat, dan hanya membaik ketika seorang engineer memajukannya. Namun kini, dengan infrastruktur eval yang dirancang dengan matang, akses langsung ke praktisi dan lingkungan dunia nyata, serta kapabilitas agen frontier dari Codex, Anda dapat membangun agen yang meningkatkan diri.

Dalam artikel ini, kami akan menguraikan bagaimana kami menggunakan Codex untuk membangun jenis agen ini. Selama enam bulan terakhir, engineer dan peneliti forward deployed dari OpenAI bersama engineer Thrive Holdings berkolaborasi membangun Tax AI bersama dan untuk jaringan 30+ firma akuntansi milik Crete⁠(terbuka di jendela baru) guna membantu menyiapkan pengembalian pajak yang semakin kompleks. Alih-alih mengandalkan engineer untuk menemukan dan memperbaiki setiap kegagalan, Tax AI menggunakan Codex untuk mengubah penggunaan produksi menjadi sinyal terstruktur yang mendorong peningkatan otonom.

Praktisi Crete menyiapkan puluhan ribu pengembalian pajak setiap musim, yang mengharuskan mereka menangani jutaan dokumen dasar. Untuk pengajuan dengan kompleksitas menengah hingga tinggi, entri data saja dapat memakan waktu delapan jam per pengembalian, sering kali melibatkan sumber data yang berantakan, dokumen tahun sebelumnya, serta ekstraksi dan perhitungan manual. Mereka menunjukkan kepada kami bahwa persiapan pajak merupakan hambatan besar selama periode tersibuk musim pajak.

Untuk menyelesaikan masalah ini, Tax AI memproses 7.000 pengembalian pajak di seluruh firma Crete yang berpartisipasi dalam pilot musim pajak ini. Sistem ini mengotomatiskan sebagian besar proses persiapan pengembalian pajak 1040 dan 1041 yang memakan waktu, tetapi yang bahkan lebih menarik daripada peningkatan efisiensi adalah bahwa sistem itu sendiri secara terukur lebih baik daripada versi yang pertama kali dideploy tiga bulan lalu.

Peningkatan mandiri yang terukur

Dalam Tax AI, praktisi mengunggah file sumber bersama catatan khusus klien apa pun. Tax AI kemudian membuat submission ke mesin pajak, siap untuk ditinjau. Sistem ini menghemat sekitar sepertiga waktu persiapan pajak praktisi, menyusun draft pengembalian dengan akurasi hingga 97%, dan meningkatkan throughput sekitar 50%, sehingga memberi lebih banyak ruang bagi mereka untuk meluangkan waktu bersama klien.

Kami dapat mengukur peningkatan ini dengan memahami seberapa akurat Tax AI dapat menyelesaikan pengembalian tanpa memerlukan koreksi di kemudian hari. Kami mengukur akurasi dengan memeriksa berapa porsi pengembalian yang mencapai 75%, 90%, atau 100% penyelesaian bidang yang benar. Saat peluncuran, hanya seperempat pengembalian yang mencapai 75% penyelesaian bidang yang benar, tetapi dalam enam minggu, 86% mencapai angka itu. Sistem menunjukkan pertumbuhan yang bahkan lebih cepat pada tingkat 90% dan 100% penyelesaian bidang yang benar. Ambang ini memberi kami pandangan praktis tentang seberapa banyak tindak lanjut praktisi yang masih dibutuhkan oleh berbagai pengembalian.

Pada awalnya, Tax AI menangani pekerjaan yang lebih sederhana, seperti W-2 dan 1099. Seiring musim berjalan, sistem ini beralih ke pengembalian yang lebih kompleks dengan K-1, schedule, dan edge case yang lebih sulit. Setiap kapabilitas baru menghemat lebih banyak waktu per pengembalian daripada sebelumnya karena tugas yang diambil alih lebih sulit dan lebih memakan waktu jika dilakukan secara manual. Kami terus melihat kemajuan yang berkelanjutan hingga hari ini.

Selanjutnya, kami akan menjelaskan bagaimana tim kami bersama-sama merekayasa Tax AI agar dapat meningkatkan diri dengan bertumpu pada tiga pilar penting: 1) umpan balik praktisi ahli, 2) trace produksi (riwayat terstruktur dari input hingga output akhir), dan 3) loop iterasi berbasis Codex berdasarkan eval yang disesuaikan untuk memungkinkan pengembangan produk yang berkelanjutan dan lebih cepat. Kami berharap pengalaman kami berguna bagi builder lain di domain tempat keahlian praktisi menjadi kunci untuk membentuk kualitas sistem secara keseluruhan dan data yang mengalir melaluinya.

Saat Tax AI meluas ke pengajuan yang lebih kompleks, porsi pengembalian yang dinilai mencapai 75%, 90%, dan penyelesaian penuh terus meningkat sepanjang musim pajak.

Masalahnya

Saat kami mendorong ke bagian persiapan pajak yang lebih sulit (K-1, schedule real estat sewaan, dan formulir pajak tempat nilai harus direkonsiliasi di beberapa file sumber), menjadi jelas bahwa tantangan sebenarnya adalah apakah produk dapat membuat kegagalan produksi yang kompleks terlihat, dapat dipahami, dan dapat ditindaklanjuti.

Pada masa awal produk, sebagian besar koreksi dilakukan secara manual. Praktisi dapat mengoreksi kesalahan sistem, tetapi produk tidak menangkap konteks penuh: nilai yang diubah sebelum pengajuan mungkin mencerminkan kegagalan ekstraksi yang nyata, masalah pemetaan, dukungan produk yang belum ada, atau noise alur kerja yang diharapkan. Memilah kasus-kasus tersebut masih memerlukan tindak lanjut dari tim engineering. Engineer dapat menggunakan agen coding, tetapi sistem belum dirancang untuk menggunakan AI secara bermakna di dalam loop peningkatan. Kami belum memiliki sinyal untuk mengidentifikasi tantangan yang tepat untuk ditaklukkan.

Pendekatan kami: loop tiga bagian

Hal itu mendorong kami merancang sistem di sekitar tiga pilar:

Tetap dekat dengan praktisi: Orang-orang yang melakukan pekerjaan perlu mengarahkan apa yang dipelajari produk. Intuisi dan pemahaman mereka mengungkap kesalahan mana yang penting dan membantu menentukan bagian alur kerja mana yang layak difokuskan berikutnya.
Bangun produk agar produksi menghasilkan bukti: Produk harus menangkap lebih dari sekadar input dan output; produk perlu menangkap jalur lengkap dari materi sumber, ke bidang yang diekstrak dan asal-usulnya, ke submission downstream dan koreksi ahli.
Buat loop peningkatan berbasis Codex: Setelah masalah produksi terlihat dan terstruktur, masalah tersebut dapat menjadi temuan, eval yang disesuaikan, dan tugas engineering yang terlingkup. Codex kemudian dapat membantu menyelidiki, mengusulkan perubahan, memvalidasinya terhadap eval terarah dan regresi, serta mendorong produk maju lebih cepat daripada siklus iterasi yang sepenuhnya manual.

Contoh properti sewaan di bawah ini menunjukkan bagaimana loop itu bekerja dalam praktik, memandu Anda melalui bagaimana koreksi praktisi menjadi temuan terstruktur, lalu target eval, dan akhirnya tugas engineering yang terlingkup untuk Codex.

Contoh properti sewaan

Pendapatan properti sewaan dilaporkan pada Schedule E dari pengembalian pajak individu. Dari perspektif engineering, tugas mengekstraknya mudah dijelaskan tetapi sulit dilakukan dengan baik. Sistem harus membaca materi sumber yang berantakan (catatan tulisan tangan, email, spreadsheet, dan file klien lainnya), mengekstrak bidang properti sewaan yang dapat dipetakan sistem dengan yakin ke mesin pajak, dan mempertahankan bukti yang cukup agar praktisi dapat menyetujui atau mengoreksi hasilnya. Contoh yang disederhanakan di bawah ini menunjukkan seperti apa file sumber dan output hasil ekstraksi tersebut.

*Paket sumber properti sewaan dinormalisasi menjadi bidang yang disitasi sebelum dipetakan ke konsep mesin pajak downstream.*

1. Koreksi praktisi mengungkap kegagalan

Perbedaan antara nilai yang diprediksi agen dan nilai aktual dari surat pemberitahuan pajak yang diajukan mungkin mencerminkan kegagalan ekstraksi yang nyata, tetapi bisa juga merupakan preferensi praktisi, nilai yang dibawa dari pengembalian tahun sebelumnya di mesin pajak, atau nilai yang dimasukkan atau diubah di bagian lain alur kerja pengajuan. Praktisi membantu kami membedakan kasus-kasus tersebut sehingga kami dapat mengidentifikasi tindakan mana yang memerlukan koreksi praktisi atau menghalangi pengajuan.

Karena kami dapat melihat koreksi ini secara rinci, kami mengubah proses peninjauan dari langkah akhir pascakegagalan menjadi siklus pembelajaran berkelanjutan. Kami merancang alur kerja untuk menangkap tindakan ahli sebagai data terstruktur. Kini, setiap intervensi memasok loop peningkatan produk dengan mencatat secara tepat apa yang diusulkan Tax AI, apa yang diubah praktisi, dan apa yang akhirnya masuk ke pengembalian yang diajukan.

2. Trace produk mengubah koreksi menjadi eval

Untuk alur kerja kompleks seperti properti sewaan, sistem harus mempertahankan apa yang terjadi antara file sumber dan pengembalian yang diajukan. Sepanjang jalur itu, dokumen diatur, dipisah, dan diklasifikasikan; bidang properti sewaan diekstrak dengan sitasi kembali ke materi sumber; nilai-nilai tersebut dipetakan ke mesin pajak; dan praktisi masih dapat mengoreksinya sebelum pengajuan. Trace tingkat produk tersebut memungkinkan penyelidikan lokasi terjadinya kegagalan. Untuk mengubah koreksi praktisi menjadi target evaluasi yang berguna, sistem memprosesnya dalam tiga langkah:

Tangkap perbedaannya: Output Tax AI dibandingkan dengan pengembalian yang diajukan untuk menghasilkan baris tinjauan tingkat bidang yang menangkap nilai yang diharapkan, nilai prediksi, dan apakah perbedaannya tampak dapat ditindaklanjuti.
Kelompokkan kegagalan terkait: Baris tinjauan serupa dikelompokkan untuk memisahkan kegagalan produk yang berulang dari noise alur kerja yang diharapkan. Misalnya, koreksi praktisi yang berulang mungkin menunjukkan bahwa Tax AI sering melewatkan bidang “hari sewa wajar”, salah menangani “pengeluaran lain”, atau mencampuradukkan beberapa properti sewaan dalam paket sumber yang sama.
Ubah pola berulang menjadi target eval: Setelah ditinjau dan diukur, temuan berulang menjadi target eval yang jelas untuk ditingkatkan oleh Codex.

Baris tinjauan properti sewaan memisahkan kegagalan produk yang berulang dari noise yang diharapkan, lalu mengubah kasus yang dapat ditindaklanjuti menjadi target evaluasi yang memberi Codex tantangan untuk ditaklukkan.

3. Temuan itu menjadi tantangan bagi Codex

Pilar ketiga adalah menciptakan loop engineering yang mampu bertindak atas eval baru ini. Di sinilah Codex menjadi pusat.

Misalkan pipeline eval kami menandai bahwa Tax AI secara konsisten melewatkan bidang "hari sewa wajar", sementara praktisi dengan andal mengisinya. Karena temuan ini sudah dikemas menjadi set eval yang terarah, dengan paket sumber yang representatif dan output yang diharapkan, Codex dapat menyelidiki akar masalah secara langsung di dalam scaffold produk.

Codex tidak bekerja hanya dengan output akhir yang kurang baik. Codex memeriksa trace, eval, repo, dan skill secara bersamaan:

Selidiki pipeline: Periksa paket sumber, skema ekstraksi, perilaku mapper, dan jalur kode untuk menentukan apakah masalahnya adalah bidang yang belum didukung, pola ekstraksi yang terlewat, masalah pemilihan sumber, celah mapper, atau masalah grader.
Terapkan perbaikan terarah: Perluas skema ekstraksi, tingkatkan pemilihan sumber untuk dokumen properti sewaan, perbarui mapper mesin pajak, atau sempurnakan grader jika noise alur kerja yang diharapkan dihitung sebagai kegagalan.
Validasi dan usulkan: Jalankan ulang eval terarah, jalankan suite regresi yang lebih luas, dan tampilkan kandidat pull request untuk tinjauan engineering.
Tutup loop: Ubah koreksi praktisi yang berulang menjadi tugas engineering yang terukur. Jika buktinya ambigu atau tidak aman untuk diotomatisasi, kasus tersebut dikembalikan ke tim produk alih-alih dipaksakan melalui loop.

Loop peningkatan mandiri end-to-end: jejak produksi menampilkan koreksi tingkat bidang yang berulang, yang menjadi sinyal kegagalan yang dapat diperiksa Codex bersama trace, eval, repo, dan skill. Pola yang dapat ditindaklanjuti menjadi eval terbatas dan kandidat perubahan produk; kasus ambigu dikembalikan ke engineer untuk ditinjau. Setiap peningkatan yang dirilis menciptakan bukti produksi baru untuk siklus berikutnya.

Cara menggunakan Codex untuk membangun loop ini

Contoh properti sewaan melambangkan pola yang lebih luas dan dapat digunakan ulang: menggunakan artefak dan trace produksi untuk meningkatkan kapabilitas agen. Dengan temuan yang telah ditinjau dari data produksi, trace sumber, output mesin pajak yang diharapkan, contoh kode yang relevan, dan perintah eval sebagai satu set input, Codex dapat secara nyata meningkatkan performa dan akurasi selama hitungan minggu dan bulan. Ini dibangun di atas prinsip-prinsip yang dijelaskan dalam karya kami tentang harness engineering dan Symphony, yang menjelaskan cara membuat tugas dapat dipahami oleh Codex, menyediakan konteks dan tool yang terlingkup, serta menjaga validasi dan tinjauan manusia tetap menjadi bagian dari lingkungan.

Bukti tersebut tidak otomatis menjadi tugas Codex. Koreksi praktisi dapat mencerminkan kegagalan ekstraksi, masalah pemetaan, perilaku produk yang belum didukung, pertimbangan pajak, atau noise alur kerja yang diharapkan. Hanya setelah perbedaan yang berulang ditinjau dan dikelompokkan menjadi temuan yang dapat ditindaklanjuti, sistem mengubahnya menjadi tugas terbatas dengan kondisi keberhasilan yang jelas.

Kami menerapkan otomatisasi ini pada lapisan produk yang terbatas. Lapisan ini melakukan ekstraksi dan memetakan dokumen sumber ke alur kerja pajak. Engineer tetap bertanggung jawab atas arsitektur, keputusan produk, dan perilisan. Praktisi mengarahkan loop peningkatan melalui pekerjaan yang sudah mereka lakukan: mengoreksi nilai yang diekstrak, meninjau pengembalian, dan menyetujui pengajuan final.

Bagi Codex, hasilnya bukan peringatan yang samar, melainkan tugas engineering yang terlingkup dengan bukti, permukaan produk yang dapat diedit, dan gerbang validasi yang eksplisit. Konteks untuk tugas properti sewaan yang representatif dapat diringkas sebagai berikut:

Teks polos

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

Lingkungan tugas Codex yang terbatas memisahkan worktree yang dapat ditulis [1] dari konteks produksi hanya-baca [5]. Worktree berisi permukaan produk terlingkup yang dapat diperiksa atau diubah Codex [2], eval terarah dan regresi yang mendefinisikan keberhasilan [3], serta skill/dokumen yang dapat digunakan ulang yang mengodekan cara menjalankan tugas dan menghormati keputusan sebelumnya [4]. Konteks hanya-baca menyediakan trace produksi, dokumen sumber, prediksi Tax AI, pengembalian final, dan dokumentasi bidang mesin pajak, sehingga Codex dapat menyelidiki kegagalan tanpa mengubah bukti yang mendasarinya.

Ekspansi ke domain baru

Loop yang sama berlaku di luar properti sewaan. Properti sewaan memerlukan sekitar enam minggu dan pengawasan engineering yang besar untuk mencapai presisi dan recall 90%, tetapi pekerjaan itu menghasilkan abstraksi yang dapat digunakan ulang, artefak tinjauan, konvensi eval, dan pola implementasi yang memudahkan dukungan untuk schedule yang sama kompleksnya seperti Schedule C dan Schedule A.

Tax AI membuktikan jalur untuk membangun agen yang meningkatkan diri. Praktisi menghasilkan sinyal umpan balik bernilai tinggi dengan memberikan layanan. Alur kerja produk mempertahankan sinyal tersebut sebagai bukti terstruktur. Sistem engineering yang didukung eval memvalidasi peningkatan sebelum mencapai produksi, dan loop bertenaga agen menjaga sistem tetap dalam alur peningkatan mandiri yang berkelanjutan.

Struktur Thrive Holdings memungkinkan kami mereplikasi lingkungan ini di industri tertentu. Holdings adalah pemilik sekaligus operator, sehingga tim engineering gabungan kami dapat bekerja langsung dengan praktisi dan data produksi dari dalam bisnis seperti Crete, bukan sebagai vendor melainkan sebagai mitra. Ini berarti teknologi, produk, dan layanan semuanya berada di bawah satu atap untuk membantu kami bergerak lebih cepat dan membangun produk yang luar biasa.

Seorang akuntan senior yang tahun lalu menghabiskan 180 jam untuk persiapan pajak, tahun ini hanya menghabiskan 15 jam. Sebagian dari waktu itu ia gunakan untuk menelepon setiap kliennya dan memandu mereka melalui pengembalian mereka, tingkat layanan yang sangat personal yang tidak mungkin dilakukan setahun lalu. Sisa waktunya ia gunakan untuk menangani klien baru dan memperluas penawaran layanan baru.

Bersama-sama, tim kami kini menggunakan desain tiga bagian yang sama dari Tax AI sebagai cetak biru untuk membangun alur kerja di domain lain di seluruh Thrive Holdings⁠(terbuka di jendela baru); alur kerja akuntansi seperti pembukuan dan audit, serta alur kerja operasional seperti otomatisasi help desk TI. Di seluruh domain dan industri, janji yang lebih luas dari agen yang meningkatkan diri tetap berlaku. Agen terbaik diarahkan oleh manusia untuk belajar menjadi lebih mampu, lebih tepercaya, dan lebih bernilai seiring waktu.

Untuk mempelajari lebih lanjut tentang tim OpenAI yang mengerjakan proyek ini, hubungi kami.

Penulis

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo, John de Wasseige

Terus membaca

Lihat semua

Epidemiologi core dump: memperbaiki bug 18 tahun

Teknik Rekayasa30 Jun 2026

Membangun sandbox yang aman dan efektif untuk mengaktifkan Codex di Windows

Teknik Rekayasa13 Mei 2026

Supercomputer networking to accelerate large scale AI training

Teknik Rekayasa5 Mei 2026