2026年5月27日

用 Codex 建立可自我改進的報稅智能代理

技術團隊成員：Aravind Srinivasan 與 Samay Shamdasani (Thrive Holdings)，Arthur Fernandes Araujo 與 John de Wasseige (OpenAI)

正在載入...

了解 Thrive Holdings 與 OpenAI 如何結合執業人員專業知識及由 Codex 驅動的迴圈，為 Crete 會計師共同開發 Tax AI

現實世界系統在生產環境中的表現，往往與實驗室內不同，並會以部署前難以預料的方式出現故障。團隊往往在推出後才發現這些失敗案例，然後花上數星期檢查邊緣個案、調整提示詞，並把生產環境反饋轉化為持久的產品改進。這個反饋迴圈既人手化又緩慢，而且只有在工程師推動時才會改善。但今天，只要有經過周詳設計的評估基礎設施、可直接接觸執業人員與真實世界環境，以及 Codex 前沿的智能代理能力，你便可以建立能自我改進的智能代理。

在本文中，我們會拆解如何使用 Codex 建立這類智能代理。過去六個月，OpenAI 前線部署的工程師與研究人員，聯同 Thrive Holdings 的工程師合作，為 Crete⁠（在新視窗中開啟）由 30 多家會計師事務所組成的網絡共同打造 Tax AI，協助準備日益複雜的報稅表。Tax AI 並非依賴工程師逐一找出並修復每個問題，而是利用 Codex 把生產環境使用轉化為結構化訊號，為自主改進提供動力。

Crete 的執業人員每個報稅季都會準備數以萬計的報稅表，涉及數以百萬計的底層文件。對於中至高複雜度的申報，單是資料輸入每份報稅表便可花上八小時，當中往往涉及雜亂的資料來源、前一年度文件，以及人手擷取與計算。他們指出，在報稅季最繁忙的時段，報稅準備是其中一個重大瓶頸。

為解決這個問題，Tax AI 在今個報稅季處理了參與試點的 Crete 事務所共 7,000 份報稅表。系統把準備 1040 及 1041 報稅表這個耗時流程中的大部分工作自動化；但比效率提升更吸引的是，系統本身已可量度地優於三個月前首次部署的版本。

可量度的自我改進

在 Tax AI 中，執業人員會上載來源檔案及任何客戶專屬備註。Tax AI 隨後會建立可供審查的稅務引擎提交內容。它可為執業人員節省約三分之一的報稅準備時間，以高達 97% 的準確度草擬報稅表，並把吞吐量提高約 50%，讓他們有更多空間花時間與客戶交流。

我們可透過了解 Tax AI 在其後無需修正的情況下，能多準確地完成報稅表，來量化這項改進。我們透過檢查有多少比例的報稅表達到 75%、90% 或 100% 正確欄位完成度，來衡量準確度。推出時，只有四分之一的報稅表達到 75% 正確欄位完成度，但六星期內，86% 的報稅表已達到這個水平。系統在 90% 及 100% 正確欄位完成度層級上的增長更快。這些門檻讓我們能實際了解不同報稅表仍需多少執業人員後續處理。

在早期，Tax AI 處理的是較簡單的工作，例如 W-2 與 1099。隨著報稅季推進，它開始處理包含 K-1、附表及更棘手邊緣個案的更複雜報稅表。每一項新能力比上一項都能為每份報稅表節省更多時間，因為它承擔的任務更困難，手動處理亦更耗時。直到今天，我們仍持續看到進展。

接下來，我們會說明團隊如何共同設計 Tax AI，透過三個關鍵支柱令其具備自我改進能力：1）專家執業人員反饋，2）生產環境追蹤（由輸入到最終輸出的結構化歷史），以及 3）基於度身訂造評估、由 Codex 驅動的迭代迴圈，以實現持續且更快速的產品開發。我們希望這些經驗能對其他領域的建設者有所幫助，尤其是在那些執業人員的專業知識對整體系統品質及其中流動數據至關重要的領域。

隨著 Tax AI 擴展至更複雜的報稅申報，在整個報稅季中，達到 75%、90% 及完全完成的已評分報稅表比例持續上升。

問題所在

當我們推進至報稅準備中更困難的部分（K-1、租賃房地產附表，以及需要在多個來源檔案之間核對數值的稅表）時，很明顯真正的挑戰在於產品能否讓複雜的生產環境失敗變得可見、可理解及可採取行動。

在產品早期，大部分修正都是人手進行。執業人員可以修正系統錯誤，但產品未能擷取完整上下文：提交前被更改的數值，可能反映真正的擷取遺漏、映射問題、產品支援缺失，或預期的工作流程雜訊。要釐清這些情況，仍需工程團隊跟進。工程師可以使用編碼智能代理，但系統當時尚未設計成能在改進迴圈中有意義地使用 AI。我們沒有足夠訊號去識別真正值得攻克的問題。

我們的方法：三部分迴圈

這促使我們圍繞三個支柱來設計系統：

貼近執業人員：實際執行工作的人，必須引導產品學習甚麼。他們的直覺與理解能揭示哪些錯誤真正重要，並幫助判斷下一步值得聚焦於工作流程的哪些部分。
把產品建成能讓生產環境產生證據：產品不僅要擷取輸入與輸出；還要擷取從來源材料、到擷取欄位及其來源依據、再到下游提交與專家修正的完整路徑。
建立由 Codex 驅動的改進迴圈：一旦生產環境問題變得可見且結構化，它們便可轉化為發現、度身訂造的評估，以及具範圍的工程任務。Codex 之後便可協助調查、提出變更、針對目標與回歸評估驗證，並比純人手迭代循環更快推動產品向前。

下方的租賃物業例子展示了這個迴圈如何在實務中運作，帶你了解執業人員修正如何變成結構化發現，再變成評估目標，最後成為具 Codex 範圍的工程任務。

租賃物業例子

租賃物業收入會在個人報稅表的 Schedule E 上申報。從工程角度看，擷取這些資料的任務描述起來簡單，但要做好卻很困難。系統必須讀取雜亂的來源材料（手寫筆記、電郵、試算表及其他客戶檔案），擷取系統可有信心映射至稅務引擎的租賃物業欄位，並保留足夠證據，讓執業人員可批准或修正結果。下方的簡化例子展示了這些來源檔案及擷取輸出可能呈現的樣子。

1. 執業人員的修正揭示失敗

智能代理預測值與已提交報稅表中的實際值之間的差異，可能反映真正的擷取遺漏，但也可能是執業人員偏好、稅務引擎沿用前一年度報稅表的數值，或是在申報工作流程其他地方引入或更改的數值。執業人員協助我們辨識這些情況，讓我們能找出哪些操作需要執業人員修正，或會阻礙提交。

由於我們能詳細看見這些修正，因此把審查流程由失敗後的終點步驟，轉變為持續學習循環。我們設計此工作流程，以結構化資料方式擷取專家操作。現在，每一次介入都會記錄 Tax AI 提議了甚麼、執業人員修改了甚麼，以及最終提交的報稅表採用了甚麼，從而為產品的改進迴圈提供養分。

2. 產品追蹤把修正轉化為評估

對於租賃物業這類複雜工作流程，系統必須保留來源檔案與已提交報稅表之間發生的過程。在這條路徑上，文件會被整理、拆分及分類；租賃物業欄位會連同回溯至來源材料的引文一併擷取；這些數值會映射至稅務引擎；而執業人員在提交前仍可作出修正。這些產品層級追蹤使我們能夠調查失敗發生的位置。為了把執業人員修正轉化為有用的評估目標，系統會分三步處理：

擷取差異：把 Tax AI 的輸出與已提交報稅表作比較，產生欄位層級審查列，以記錄預期值、預測值，以及該差異是否屬可採取行動的問題。
將相關失敗分組：把相似的審查列分組，以區分反覆出現的產品失敗與預期的工作流程雜訊。例如，反覆出現的執業人員修正可能顯示 Tax AI 經常遺漏「公平出租日數」欄位、錯誤處理「其他開支」，或混淆同一來源資料套件中的多個租賃物業。
把重複模式轉為評估目標：一經審查及量化，重複出現的發現便會成為 Codex 可改進的明確評估目標。

*租賃物業審查列會把反覆出現的產品失敗與預期雜訊分開，再把可採取行動的個案轉為評估目標，讓 Codex 有明確的改進方向。*

3. 這項發現成為 Codex 要攻克的問題

第三個支柱，是建立一個能對這些新評估採取行動的工程迴圈。這正是 Codex 成為核心的地方。

假設我們的評估流程標示出，Tax AI 持續遺漏「公平出租日數」欄位，而執業人員則穩定地把它補上。由於這項發現已被整理成具針對性的評估集，並附有代表性的來源資料套件與預期輸出，Codex 便可直接在產品框架內調查根本原因。

Codex 並非只根據欠佳的最終輸出來工作。它會一併檢視追蹤、評估、程式碼庫及技能：

調查流程：檢查來源資料套件、擷取結構定義、映射器行為及程式碼路徑，以判斷問題是未支援欄位、遺漏擷取模式、來源選擇問題、映射器缺口，還是評分器問題。
實施針對性修正：擴展擷取結構定義、改善租賃物業文件的來源選擇、更新稅務引擎映射器，或在預期工作流程雜訊被算作失敗時微調評分器。
驗證並提出建議：重新執行針對性的評估，運行更廣泛的回歸測試套件，並提出候選 pull request 供工程審查。
完成閉環：把反覆出現的執業人員修正轉化為可量度的工程任務。如果證據含糊不清，或無法安全地自動化，個案便會送回產品團隊，而不會被強行納入此迴圈。

端到端自我改進迴圈：生產環境追蹤會顯示重複出現的欄位層級修正，這些修正會成為失敗訊號，讓 Codex 可連同追蹤、評估、程式碼庫及技能一併檢視。可採取行動的模式會轉化為有界評估與候選產品變更；模糊個案則會送回工程師審查。每次已推出的改進，都會為下一輪循環產生新的生產證據。

如何使用 Codex 建立這個迴圈

租賃物業例子體現了一種更廣泛且可重用的模式：利用生產環境產物與追蹤來提升智能代理能力。只要把來自生產數據的已審查發現、來源追蹤、預期稅務引擎輸出、相關程式碼範例及評估指令作為一組輸入，Codex 便能在數週至數月內實質提升效能與準確度。這建基於我們在框架工程與 Symphony 工作中所述的原則，當中說明如何讓任務對 Codex 清晰可辨、提供有範圍的上下文與工具，並把驗證及人工審查保留為環境的一部分。

這些證據不會自動變成 Codex 任務。執業人員修正可能反映擷取遺漏、映射問題、未支援的產品行為、稅務判斷，或預期的工作流程雜訊。只有在重複差異經審查並歸納為可採取行動的發現後，系統才會把它們轉化為具明確成功條件的有界任務。

我們把這種自動化應用於產品中一個有界層。這一層負責擷取，並把來源文件映射至稅務工作流程。工程師仍然負責架構、產品決策及推出。執業人員透過他們本來就在做的工作來引導改進迴圈：修正擷取值、審查報稅表，以及批准最終申報。

對 Codex 而言，結果不是模糊的警示，而是具範圍的工程任務，附有證據、可編輯的產品介面，以及明確的驗證關卡。一項具代表性的租賃物業任務，其上下文可概括如下：

純文字

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

有界的 Codex 任務環境把可寫入的工作樹 [1] 與唯讀的生產環境上下文 [5] 分開。工作樹包含 Codex 可檢視或修改的有範圍產品介面 [2]、界定成功的針對性與回歸評估 [3]，以及編碼如何執行任務並遵循既有決策的可重用技能/文件 [4]。唯讀上下文提供生產環境追蹤、來源文件、Tax AI 預測、最終定稿報稅表，以及稅務引擎欄位文件，讓 Codex 可在不改動底層證據的情況下調查失敗原因。

擴展至新領域

同一個迴圈不只適用於租賃物業。租賃物業大約花了六星期，並需要大量工程監督，才達到 90% 的精確率與召回率；但這項工作產出了可重用的抽象層、審查產物、評估慣例及實作模式，令支援同樣複雜的附表（如 Schedule C 與 Schedule A）變得更容易。

Tax AI 證明了建立可自我改進智能代理的一條路徑。執業人員透過提供服務，產生高價值的訊號。產品工作流程把這些訊號保留為結構化證據。以評估為基礎的工程系統會在改進進入生產環境前先行驗證，而由智能代理驅動的迴圈則讓系統持續處於自我改進流程中。

Thrive Holdings 的架構讓我們能在特定行業中複製這種環境。Holdings 既是擁有人也是操作代理，因此我們的聯合工程團隊能直接與像 Crete 這類企業內部的執業人員及生產數據合作，不是以供應商身份，而是作為夥伴。這表示技術、產品與服務都置於同一體系之下，幫助我們更快推進並打造卓越產品。

一位去年花了 180 小時處理報稅準備的資深會計師，今年只花了 15 小時。她把部分節省下來的時間用於致電每一位客戶，逐一講解他們的報稅表；這種高度貼身的服務水平，在一年前仍無法做到。其餘時間，她則用來接收新客戶並拓展新的服務項目。

目前，我們的團隊正把 Tax AI 的同一套三部分設計作為藍圖，用於 Thrive Holdings⁠（在新視窗中開啟）旗下其他領域建立工作流程；包括簿記及審計等會計工作流程，以及 IT 服務台自動化等營運工作流程。跨越不同領域與行業，可自我改進智能代理的更廣泛前景依然成立。最佳的智能代理會由人引導學習，隨時間變得更有能力、更值得信賴，也更有價值。

如欲了解更多有關參與此項目的 OpenAI 團隊，歡迎聯絡我們。

作者

Aravind Srinivasan、Samay Shamdasani、Arthur Fernandes Araujo及John de Wasseige

繼續閲讀

查看全部

核心傾印流行病學：修復存在 18 年之久的錯誤

工程2026年6月30日

在 Windows 上建構安全而有效的沙盒以支援 Codex

工程2026年5月13日

哥布林從何而來

工程2026年5月5日