用 Codex 建立可自我改進的報稅智慧體
作者:技術團隊成員 Aravind Srinivasan 與 Samay Shamdasani(Thrive Holdings),Arthur Fernandes Araujo 與 John de Wasseige(OpenAI)
Thrive Holdings 與 OpenAI 如何結合從業人員專業與 Codex 驅動迴圈,為 Crete 會計師共同開發 Tax AI
真實世界系統在生產環境中的行為,往往與實驗室中不同,並會以部署前難以預料的方式出錯。團隊常在上線後才發現這些失敗,接著花上數週檢查邊緣案例、調整提示詞,並把生產環境回饋轉化為持久的產品改進。這個回饋迴圈是手動且緩慢的,只有在工程師推進時才會改善。但如今,藉由精心設計的評估基礎設施、直接接觸從業人員與真實世界環境,以及 Codex 最前沿的智慧體能力,你可以打造會自我改進的智慧體。
在這篇文章中,我們將拆解說明如何使用 Codex 建立這類智慧體。在過去六個月裡,OpenAI 的前線部署工程師與研究人員,和 Thrive Holdings 的工程師合作,與 Crete(在新視窗中開啟) 由 30 多家會計師事務所組成的網路共同打造 Tax AI,協助準備日益複雜的報稅表。Tax AI 不依賴工程師逐一找出並修正每個失敗,而是使用 Codex 將生產環境使用情況轉化為可驅動自主改進的結構化訊號。
Crete 的從業人員每個報稅季都會準備數萬份報稅表,這需要處理數百萬份底層文件。對中到高複雜度的申報而言,光是資料輸入每份報稅表就可能花上八小時,且往往涉及雜亂的資料來源、前一年文件,以及手動擷取與計算。他們指出,在報稅季最繁忙的時段,報稅準備是顯著的瓶頸。
為了解決這個問題,Tax AI 在本次報稅季處理了參與試點的 Crete 事務所共 7,000 份報稅表。該系統自動化了大量準備 1040 與 1041 報稅表的耗時流程,但比效率提升更引人注目的是,這個系統本身已可衡量地優於三個月前首次部署的版本。
在 Tax AI 中,從業人員會上傳來源檔案以及任何客戶特定備註。接著 Tax AI 會建立可供審查的稅務引擎提交內容。它為從業人員節省約三分之一的報稅準備時間,以最高 97% 的準確率起草報稅表,並將吞吐量提高約 50%,讓他們有更多空間花時間與客戶互動。
我們可以透過了解 Tax AI 在後續無需修正的情況下,能多準確地完成報稅表,來量化這項改進。我們透過檢查有多少比例的報稅表達到 75%、90% 或 100% 的正確欄位完成度來衡量準確性。剛上線時,只有四分之一的報稅表達到 75% 的正確欄位完成度,但六週內就有 86% 達到這個標準。系統在 90% 與 100% 正確欄位完成度這兩個層級上的成長更快。這些門檻讓我們能實際看出不同報稅表仍需要多少從業人員後續處理。
在早期,Tax AI 處理的是較簡單的工作,例如 W-2 與 1099。隨著報稅季推進,它開始處理包含 K-1、附表與更棘手邊緣案例的更複雜報稅表。每一項新能力比前一項都能為每份報稅表節省更多時間,因為它承擔的是更困難、手動處理更耗時的任務。直到今天,我們仍持續看到進展。
接下來,我們將說明團隊如何依靠三個關鍵支柱共同設計 Tax AI,使其能自我改進:1) 專家從業人員回饋,2) 生產環境追蹤(從輸入到最終輸出的結構化歷史),以及 3) 基於客製化評估的 Codex 驅動迭代迴圈,以實現持續且更快速的產品開發。我們希望這些經驗能對其他建造者有所幫助,特別是在那些從業人員專業知識對塑造整體系統品質及其流經資料至關重要的領域。
隨著 Tax AI 擴展到更複雜的申報,達到 75%、90% 與完全完成的已評分報稅表占比在整個報稅季持續上升。
當我們推進到報稅準備中更困難的部分(K-1、租賃不動產附表,以及需要跨多個來源檔案核對數值的稅表)時,很明顯真正的挑戰在於產品是否能讓複雜的生產環境失敗變得可見、可理解且可採取行動。
在產品早期,大多數修正都是手動完成的。從業人員可以修正系統錯誤,但產品無法捕捉完整情境:提交前被更改的值,可能反映真實的擷取遺漏、映射問題、產品支援缺失,或預期的工作流程雜訊。要釐清這些情況,仍需要工程團隊後續跟進。工程師可以使用編碼智慧體,但系統當時尚未被設計成能在改進迴圈中有意義地使用 AI。我們沒有足夠的訊號來辨識正確的攻克目標。
這促使我們圍繞三個支柱來設計系統:
- 貼近從業人員:實際執行工作的人必須引導產品學習什麼。他們的直覺與理解能揭示哪些錯誤真正重要,並幫助判斷接下來值得聚焦於工作流程的哪些部分。
- 把產品建成能讓生產環境產生證據:產品必須捕捉的不只是輸入與輸出,更需要捕捉從來源資料、到擷取欄位與來源依據、再到下游提交與專家修正的完整路徑。
- 建立由 Codex 驅動的改進迴圈:一旦生產環境問題變得可見且結構化,就能成為發現、客製化評估,以及範圍明確的工程任務。接著 Codex 就能協助調查、提出變更、用目標與回歸評估驗證,並比純手動迭代循環更快推動產品前進。
下方的租賃房產範例展示了這個迴圈如何在實務中運作,帶你了解從業人員修正如何變成結構化發現,再成為評估目標,最後成為一項範圍明確、可交由 Codex 處理的工程任務。
租賃房產收入會申報在個人報稅表的 Schedule E 上。從工程角度看,擷取這項資訊的任務描述起來簡單,但要做好卻很難。系統必須讀取雜亂的來源資料(手寫筆記、電子郵件、試算表及其他客戶檔案),擷取系統能有把握映射到稅務引擎的租賃房產欄位,並保留足夠證據,讓從業人員能核准或修正結果。下方的簡化範例展示了這些來源檔案與擷取輸出可能呈現的樣貌。
租賃房產來源資料套件會先正規化為附帶引文的欄位,再映射到下游稅務引擎概念。
智慧體預測值與已提交報稅表中實際值之間的差異,可能反映真實的擷取遺漏,但也可能是從業人員偏好、稅務引擎沿用前一年報稅表帶入的值,或是在申報工作流程其他地方新增或變更的值。從業人員協助我們辨識這些情況,讓我們能判斷哪些動作需要從業人員修正,或會阻擋提交。
因為我們能詳細看到這些修正,所以把審查流程從失敗後的終點步驟,轉變為持續學習循環。我們將工作流程設計為把專家操作擷取成結構化資料。現在,每一次介入都會記錄 Tax AI 提出了什麼、從業人員修改了什麼,以及最終寫入已提交報稅表的是什麼,成為產品持續改進的重要依據。
對於像租賃房產這樣的複雜工作流程,系統必須保留從來源檔案到已提交報稅表之間發生的過程。在這條路徑上,文件會被整理、拆分與分類;租賃房產欄位會被擷取,並附上回溯到來源資料的引文;這些值會被映射到稅務引擎;而從業人員在提交前仍可能加以修正。這些產品層級的追蹤讓我們能調查失敗發生的位置。為了把從業人員修正轉成有用的評估目標,系統會分三步處理:
- 擷取差異:將 Tax AI 的輸出與已提交報稅表比對,產生欄位層級的審查列,記錄預期值、預測值,以及該差異是否看來可採取行動。
- 將相關失敗分組:把相似的審查列分組,以區分反覆出現的產品失敗與預期的工作流程雜訊。例如,反覆出現的從業人員修正可能顯示 Tax AI 經常漏掉「公平出租天數」欄位、錯誤處理「其他費用」,或在同一來源資料套件中混淆多個租賃房產。
- 把重複模式轉成評估目標:一旦經過審查與衡量,重複出現的發現就會成為 Codex 可改進的明確評估目標。
租賃房產審查列會將反覆出現的產品失敗與預期雜訊區分開來,再把可採取行動的案例轉成評估目標,讓 Codex 有明確可攻克的目標。
第三個支柱是建立能對這些新評估採取行動的工程迴圈。這正是 Codex 成為核心的地方。
假設我們的評估流程標記出 Tax AI 持續漏掉「公平出租天數」欄位,而從業人員又能穩定補上。由於這項發現已被打包成具針對性的評估集,包含具代表性的來源資料套件與預期輸出,Codex 就能直接在產品骨架內調查根本原因。
Codex 的分析依據不只有品質不佳的最終輸出,還會一併檢視追蹤資料、評估、程式碼庫與技能:
- 調查流程:檢查來源資料套件、擷取結構描述、映射器行為與程式碼路徑,藉此判斷問題是未支援欄位、漏掉的擷取模式、來源選擇問題、映射器缺口,還是評分器問題。
- 實作針對性修正:擴充擷取結構描述、改善租賃房產文件的來源選擇、更新稅務引擎映射器,或在預期工作流程雜訊被算作失敗時微調評分器。
- 驗證並提出建議:重新執行目標評估、執行更廣泛的回歸測試套件,並提出候選 pull request 供工程審查。
- 完成閉環:把反覆出現的從業人員修正轉成可衡量的工程任務。如果證據模糊,或無法安全自動化,該案例就會回送產品團隊,而不是強行納入這個迴圈。
端到端的自我改進迴圈:生產環境追蹤會揭露重複出現的欄位層級修正,這些修正會成為失敗訊號,讓 Codex 可連同追蹤、評估、程式碼庫與技能一併檢視。可採取行動的模式會轉化為有界的評估與候選產品變更;模糊案例則回送工程師審查。每次上線的改進都會為下一輪循環產生新的生產證據。
租賃房產的例子體現了一種更廣泛且可重用的模式:利用生產環境產物與追蹤來提升智慧體能力。給定來自生產資料的已審查發現、來源追蹤、預期的稅務引擎輸出、相關程式碼範例與評估指令作為一組輸入,Codex 能在數週到數月內實質提升效能與準確性。這建立在我們於 harness engineering與 Symphony 工作中描述的原則之上;這些內容說明了如何讓任務對 Codex 清晰可辨、提供有範圍的情境與工具,並讓驗證與人工審查持續成為環境的一部分。
這些證據不會自動變成 Codex 任務。從業人員修正可能反映擷取遺漏、映射問題、未支援的產品行為、稅務判斷,或預期的工作流程雜訊。只有在反覆出現的差異經過審查並分組為可採取行動的發現後,系統才會將其轉成具有明確成功條件的有界任務。
我們把這種自動化應用在產品中一個有界的層面。這一層負責擷取,並把來源文件映射到稅務工作流程中。工程師仍負責架構、產品決策與上線。從業人員透過他們原本就在做的工作來引導改進迴圈:修正擷取值、審查報稅表,以及核准最終申報。
對 Codex 而言,結果不是模糊的警示,而是具範圍的工程任務,附帶證據、可編輯的產品介面,以及明確的驗證關卡。具代表性的租賃房產任務,其情境可概括如下:
同樣的迴圈也適用於租賃房產之外。租賃房產大約花了六週,並需要大量工程監督,才達到 90% 的精確率與召回率;但這項工作產出了可重用的抽象層、審查產物、評估慣例與實作模式,使支援同樣複雜的附表(如 Schedule C 與 Schedule A)變得更容易。
Tax AI 證明了一條打造可自我改進智慧體的路徑。從業人員在提供服務的過程中,會產生高價值的回饋訊號。產品工作流程會把這些訊號保存為結構化證據。工程團隊會先透過評估機制驗證改動,再部署到正式環境;而智慧體驅動的迭代機制則讓系統能不斷自我改進。
Thrive Holdings 的結構讓我們能在特定產業中複製這種環境。Holdings 同時是擁有者與操作代理,因此我們的聯合工程團隊能直接與像 Crete 這樣企業內部的從業人員及生產資料合作,不是以供應商身分,而是以夥伴身分。這表示技術、產品與服務都在同一體系下,幫助我們更快推進並打造卓越產品。
一位去年花了 180 小時處理報稅準備的資深會計師,今年只花了 15 小時。她把其中一部分時間用來致電每一位客戶,逐一帶他們了解自己的報稅表;這種高度貼身的服務水準在一年前還無法做到。其餘時間則被她用來承接新客戶並拓展新的服務項目。
如今,我們的團隊正把 Tax AI 的同一套三段式設計,作為在 Thrive Holdings(在新視窗中開啟) 其他領域建立工作流程的藍圖;包括記帳與審計等會計工作流程,以及 IT 服務台自動化等營運工作流程。跨越不同領域與產業,可自我改進智慧體的更大承諾依然成立。最好的智慧體會在人類引導下學習,逐漸變得更有能力、更值得信任,也更有價值。
若想進一步了解參與此專案的 OpenAI 團隊,歡迎聯絡我們。


