用 Codex 构建可自我改进的税务智能体
作者:技术团队成员 Aravind Srinivasan 与 Samay Shamdasani(Thrive Holdings),Arthur Fernandes Araujo 与 John de Wasseige(OpenAI)
Thrive Holdings 与 OpenAI 如何将从业者专业知识与 Codex 驱动闭环结合,为 Crete 会计师共同开发 Tax AI
现实世界中的系统在生产环境中的表现与实验室中不同,会以部署前难以预料的方式出错。团队往往在上线后才发现这些失败,然后花上数周检查边缘案例、调整提示,并将生产反馈转化为持久的产品改进。这个反馈闭环是手动且缓慢的,只有工程师推动时才会改进。但今天,借助精心设计的评测基础设施、对从业者和真实环境的直接接触,以及 Codex 前沿的智能体能力,你可以构建能够自我改进的智能体。
在这篇文章中,我们将拆解我们如何使用 Codex 构建这种类型的智能体。在过去六个月里,OpenAI 的前线部署工程师和研究人员与 Thrive Holdings 的工程师协作,为 Crete(在新窗口中打开) 由 30 多家会计师事务所组成的网络共同打造了 Tax AI,帮助处理日益复杂的报税表准备工作。Tax AI 不依赖工程师逐一发现并修复每个失败,而是使用 Codex 将生产使用转化为结构化信号,为自主改进提供动力。
Crete 的从业者每个报税季要准备数万份报税表,这意味着需要处理数百万份底层文档。对于中等到高复杂度的申报,仅数据录入每份报税表就可能需要八小时,而且往往涉及杂乱的数据源、上一年度文档,以及手动提取和计算。他们指出,在报税季最繁忙的阶段,报税准备是一个显著瓶颈。
为了解决这个问题,本报税季 Tax AI 在参与试点的 Crete 事务所中处理了 7,000 份报税表。该系统自动化了准备 1040 和 1041 报税表这一耗时流程中的大部分工作,但比效率提升更有说服力的是,该系统本身已经可衡量地优于三个月前首次部署的版本。
在 Tax AI 中,从业者会上传源文件以及任何客户特定备注。随后 Tax AI 会创建一个可供审查的税务引擎提交结果。它为从业者节省了大约三分之一的报税准备时间,以高达 97% 的准确率起草报税表,并将吞吐量提高约 50%,从而让他们有更多时间陪伴客户。
我们可以通过了解 Tax AI 在后续无需修正的情况下能多准确地完成一份报税表,来量化这种改进。我们通过检查达到 75%、90% 或 100% 正确字段完成率的报税表占比来衡量准确性。上线时,只有四分之一的报税表达到 75% 的正确字段完成率,但在六周内,这一比例达到了 86%。在 90% 和 100% 正确字段完成率这两个层级上,系统增长得更快。这些阈值让我们能够从实用角度看出,不同报税表仍需要多少从业者后续跟进。
早期,Tax AI 处理的是较简单的工作,比如 W-2 和 1099。随着报税季推进,它开始处理包含 K-1、附表以及更棘手边缘案例的更复杂报税表。每一项新能力比上一项都能为每份报税表节省更多时间,因为它承担的任务更难,手动完成也更耗时。直到今天,我们仍持续看到进展。
接下来,我们将介绍我们的团队如何围绕三个关键支柱共同设计 Tax AI,使其能够自我改进:1)专家从业者反馈,2)生产追踪(从输入到最终输出的结构化历史),以及 3)基于定制评测、由 Codex 驱动的迭代闭环,以实现持续且更快速的产品开发。我们希望我们的经验能对其他构建者有所帮助,尤其是在那些从业者专业知识对塑造整体系统质量及其所处理数据至关重要的领域。
随着 Tax AI 扩展到更复杂的申报,达到 75%、90% 和完全完成的评分报税表占比在整个报税季持续上升。
当我们推进到报税准备中更困难的部分时(K-1、租赁房地产附表,以及需要在多个源文件之间核对数值的税表),一个事实变得很明显:真正的挑战在于产品能否让复杂的生产失败变得可见、可理解且可处理。
在产品早期,大多数修正都是手动完成的。从业者可以修正系统错误,但产品并未捕获完整上下文:提交前被更改的值,可能反映真实的提取遗漏、映射问题、产品支持缺失,或预期的工作流噪声。要理清这些情况,仍然需要工程团队后续跟进。工程师可以使用编码智能体,但系统当时尚未被设计成能在改进闭环中有意义地使用 AI。我们还没有足够的信号来识别正确的攀登目标。
这促使我们围绕三个支柱来设计系统:
- 贴近从业者:真正做这项工作的人需要引导产品学习什么。他们的直觉和理解揭示了哪些错误真正重要,并帮助判断工作流的哪些部分值得接下来重点关注。
- 构建产品,让生产产生证据:产品必须捕获的不只是输入和输出;它还需要捕获从源材料、到提取字段及其来源、再到下游提交和专家修正的完整路径。
- 创建由 Codex 驱动的改进闭环:一旦生产问题变得可见且结构化,它们就可以转化为发现、定制评测和有范围的工程任务。随后,Codex 可以帮助调查、提出变更、针对定向评测和回归评测进行验证,并比纯手动迭代循环更快地推动产品前进。
下面的租赁房产示例展示了这一闭环在实践中的运作方式,带你了解从业者修正如何变成结构化发现,再变成评测目标,最终成为一个由 Codex 界定范围的工程任务。
租赁房产收入会在个人报税表的 Schedule E 中申报。从工程角度看,提取这类信息的任务描述起来简单,但要做好却很难。系统必须读取杂乱的源材料(手写备注、电子邮件、电子表格和其他客户文件),提取系统能够有把握映射到税务引擎的租赁房产字段,并保留足够证据,以便从业者批准或修正结果。下面这个简化示例展示了这些源文件和提取输出可能是什么样子。
租赁房产源数据包会先标准化为带引用的字段,再映射到下游税务引擎概念。
智能体预测值与已提交报税表中的实际值之间的差异,可能反映了真实的提取遗漏,但也可能是从业者偏好、税务引擎中沿用自上一年度报税表的值,或是在申报工作流其他环节引入或修改的值。从业者帮助我们辨别这些情况,从而识别出哪些操作需要从业者修正,或会阻止提交。
由于我们能够详细看到这些修正,我们将审查流程从失败后的终点步骤,转变为持续学习循环。我们设计了该工作流,以结构化数据的形式捕获专家操作。现在,每一次干预都会通过记录 Tax AI 的具体建议、从业者修改了什么,以及最终写入已提交报税表的内容,来为产品的改进闭环提供输入。
对于租赁房产这类复杂工作流,系统必须保留从源文件到已提交报税表之间发生的全过程。在这一路径上,文档会被整理、拆分和分类;租赁房产字段会被提取,并附带回溯到源材料的引用;这些值会被映射到税务引擎;而从业者在提交前仍可能对其进行修正。这些产品级追踪使我们能够调查失败发生在何处。为了将从业者修正转化为有用的评测目标,系统会分三步处理:
- 捕获差异:将 Tax AI 的输出与已提交报税表进行比较,生成字段级审查行,记录期望值、预测值,以及该差异是否看起来可执行。
- 归并相关失败:将相似的审查行分组,以区分反复出现的产品失败和预期的工作流噪声。例如,反复出现的从业者修正可能表明 Tax AI 经常漏掉“公平出租天数”字段、错误处理“其他费用”,或在同一源数据包中混淆多个租赁房产。
- 将重复模式转化为评测目标:经过审查和衡量后,重复出现的发现会成为 Codex 明确的改进评测目标。
租赁房产审查行将反复出现的产品失败与预期噪声区分开来,再把可执行案例转化为评测目标,为 Codex 提供可攀登的山头。
第三个支柱是建立一个能够根据这些新评测采取行动的工程闭环。这正是 Codex 成为核心的地方。
假设我们的评测流水线标记出 Tax AI 持续漏掉“公平出租天数”字段,而从业者又总能可靠地补上它。由于这一发现已经被打包成一个有针对性的评测集,包含代表性的源数据包和期望输出,Codex 就可以直接在产品脚手架内调查根本原因。
Codex 并不只是面对一个欠佳的最终输出。它会联合检查追踪、评测、代码仓库和技能:
- 调查流水线:检查源数据包、提取模式、映射器行为和代码路径,以判断问题究竟是字段尚不支持、提取模式遗漏、源选择问题、映射器缺口,还是评分器问题。
- 实施定向修复:扩展提取模式、改进租赁房产文档的源选择、更新税务引擎映射器,或者在预期工作流噪声被计为失败时优化评分器。
- 验证并提出方案:重新运行定向评测,运行更广泛的回归测试套件,并提交候选拉取请求供工程审查。
- 闭环:将反复出现的从业者修正转化为可衡量的工程任务。如果证据存在歧义,或无法安全地自动化处理,该案例就会回流给产品团队,而不是被强行推进这个闭环。
端到端的自我改进闭环:生产追踪会暴露重复出现的字段级修正,这些修正会成为失败信号,Codex 可结合追踪、评测、代码仓库和技能进行检查。可执行的模式会转化为有边界的评测和候选产品变更;模糊案例则回流给工程师审查。每一次上线的改进都会为下一轮循环产生新的生产证据。
租赁房产示例体现了一种更广泛、可复用的模式:利用生产工件和追踪来提升智能体能力。给定来自生产数据的已审查发现、源追踪、期望的税务引擎输出、相关代码示例以及评测命令这一组输入,Codex 可以在数周到数月内实质性提升性能和准确性。这建立在我们关于 harness engineering和 Symphony 的工作所描述的原则之上,这些内容阐述了如何让任务对 Codex 清晰可见、提供有边界的上下文和工具,并让验证与人工审查始终成为环境的一部分。
这些证据不会自动变成 Codex 任务。从业者修正可能反映提取遗漏、映射问题、产品行为尚不支持、税务判断,或预期的工作流噪声。只有在反复出现的差异经过审查并归并为可执行发现之后,系统才会将其转化为一个有边界、且成功条件明确的任务。
我们将这种自动化应用于产品中一个有边界的层。这一层负责执行提取,并将源文档映射到税务工作流中。工程师仍然负责架构、产品决策和上线交付。从业者通过他们本来就在做的工作来引导改进闭环:修正提取值、审查报税表,以及批准最终申报。
对 Codex 来说,结果不是一个模糊的警报,而是一个带有证据、可编辑产品界面和明确验证关卡的有范围工程任务。一个具有代表性的租赁房产任务,其上下文可概括如下:
同样的闭环也适用于租赁房产之外的场景。租赁房产场景大约花了六周时间,并需要大量工程监督,才达到 90% 的精确率和召回率,但这项工作产出了可复用的抽象、审查工件、评测约定和实现模式,使得支持同样复杂的附表(如 Schedule C 和 Schedule A)变得更容易。
Tax AI 证明了一条构建可自我改进智能体的路径。从业者通过交付服务产生高价值的反馈信号。产品工作流将这些信号保留为结构化证据。以评测为支撑的工程系统会在改进进入生产前完成验证,而由智能体驱动的闭环则让系统保持持续自我改进的流动。
Thrive Holdings 的结构使我们能够在特定行业中复制这一环境。Holdings 既是所有者也是操作代理,因此我们的联合工程团队能够直接与像 Crete 这样的企业内部从业者和生产数据协作,不是作为供应商,而是作为合作伙伴。这意味着技术、产品和服务都在同一屋檐下,帮助我们更快推进并打造卓越产品。
一位去年花了 180 小时做报税准备的资深会计师,今年只花了 15 小时。她把其中一部分时间用于给每一位客户打电话,带他们逐项了解自己的报税表,这种高接触度服务是一年前无法实现的。其余时间则被她用来承接新客户并拓展新的服务项目。
如今,我们的团队正将 Tax AI 的同一三段式设计作为蓝图,用于在 Thrive Holdings(在新窗口中打开) 旗下其他领域构建工作流;包括簿记和审计等会计工作流,以及 IT 服务台自动化等运营工作流。跨越不同领域和行业,可自我改进智能体的更广泛前景依然成立。最好的智能体由人来引导学习,随着时间推移变得更强大、更值得信任,也更有价值。
如需进一步了解参与该项目的 OpenAI 团队,欢迎联系我们。


