Xây dựng tác nhân thuế tự cải thiện với Codex
Bởi các Thành viên Đội ngũ Kỹ thuật: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)
Cách Thrive Holdings và OpenAI đồng phát triển Tax AI cho các kế toán Crete bằng cách kết hợp chuyên môn của chuyên viên với một vòng lặp do Codex dẫn dắt
Các hệ thống trong thế giới thực hoạt động khác trong môi trường sản xuất so với trong phòng thí nghiệm, và hỏng theo những cách khó lường trước khi triển khai. Các nhóm thường chỉ phát hiện những lỗi đó sau khi ra mắt, rồi dành nhiều tuần để kiểm tra các trường hợp biên, điều chỉnh câu lệnh và chuyển phản hồi từ sản xuất thành các cải tiến sản phẩm bền vững. Vòng lặp phản hồi là thủ công và chậm, và chỉ cải thiện khi có kỹ sư thúc đẩy nó. Nhưng ngày nay, với hạ tầng eval được thiết kế cẩn thận, quyền truy cập trực tiếp vào các chuyên viên và môi trường thực tế, cùng các năng lực tác nhân tiên phong của Codex, bạn có thể xây dựng các tác nhân tự cải thiện.
Trong bài viết này, chúng tôi sẽ phân tích cách dùng Codex để xây dựng kiểu tác nhân này. Trong sáu tháng qua, các kỹ sư và nhà nghiên cứu triển khai thực địa của OpenAI cùng với các kỹ sư của Thrive Holdings đã hợp tác xây dựng Tax AI cùng với và dành cho mạng lưới hơn 30 công ty kế toán của Crete(mở trong cửa sổ mới) để hỗ trợ chuẩn bị các tờ khai thuế ngày càng phức tạp. Thay vì dựa vào kỹ sư để tìm và sửa từng lỗi, Tax AI dùng Codex để biến việc sử dụng trong sản xuất thành các tín hiệu có cấu trúc, thúc đẩy cải tiến tự chủ.
Mỗi mùa, các chuyên viên của Crete chuẩn bị hàng chục nghìn tờ khai thuế, đòi hỏi phải xử lý hàng triệu tài liệu nền. Với các hồ sơ có độ phức tạp từ trung bình đến cao, riêng việc nhập dữ liệu có thể mất tám giờ cho mỗi tờ khai, thường liên quan đến nguồn dữ liệu lộn xộn, tài liệu năm trước và việc trích xuất, tính toán thủ công. Họ chỉ ra rằng việc chuẩn bị thuế là một nút thắt lớn trong giai đoạn bận rộn nhất của mùa thuế.
Để giải quyết vấn đề này, Tax AI đã xử lý 7.000 tờ khai thuế trên khắp các công ty Crete tham gia chương trình thí điểm trong mùa thuế này. Hệ thống tự động hóa phần lớn quy trình tốn thời gian khi chuẩn bị tờ khai thuế 1040 và 1041, nhưng điều còn thuyết phục hơn cả mức tăng hiệu quả là bản thân hệ thống hiện tốt hơn một cách đo lường được so với phiên bản được triển khai lần đầu ba tháng trước.
Trong Tax AI, các chuyên viên tải lên các tệp nguồn cùng mọi ghi chú riêng cho khách hàng. Sau đó Tax AI tạo một hồ sơ nộp cho công cụ thuế, sẵn sàng để rà soát. Nó giúp các chuyên viên tiết kiệm khoảng một phần ba thời gian chuẩn bị thuế, soạn thảo tờ khai với độ chính xác lên tới 97% và tăng thông lượng khoảng 50%, tạo thêm dư địa để họ dành thời gian cho khách hàng.
Chúng tôi có thể định lượng sự cải thiện này bằng cách hiểu Tax AI có thể hoàn thành một tờ khai chính xác đến mức nào mà không cần chỉnh sửa về sau. Chúng tôi đo độ chính xác bằng cách kiểm tra tỷ lệ tờ khai đạt mức hoàn thành trường đúng 75%, 90% hoặc 100%. Khi ra mắt, chỉ một phần tư số tờ khai đạt mức hoàn thành trường đúng 75%, nhưng trong vòng sáu tuần, 86% đã đạt mốc đó. Hệ thống còn tăng trưởng nhanh hơn ở các mức hoàn thành trường đúng 90% và 100%. Các ngưỡng này cho chúng tôi cái nhìn thực tế về mức độ theo dõi tiếp theo mà các chuyên viên vẫn cần thực hiện với từng tờ khai.
Ban đầu, Tax AI xử lý các công việc đơn giản hơn như W-2 và 1099. Khi mùa thuế tiếp diễn, nó chuyển sang các tờ khai phức tạp hơn với K-1, các schedule và những trường hợp biên khó hơn. Mỗi năng lực mới đều tiết kiệm nhiều thời gian hơn cho mỗi tờ khai so với năng lực trước đó vì các nhiệm vụ mà nó đảm nhận khó hơn và tốn thời gian hơn khi làm thủ công. Đến nay chúng tôi vẫn tiếp tục thấy tiến bộ liên tục.
Tiếp theo, chúng tôi sẽ trình bày cách các đội của mình cùng thiết kế Tax AI để có thể tự cải thiện dựa trên ba trụ cột quan trọng: 1) phản hồi của chuyên viên chuyên môn, 2) trace sản xuất (lịch sử có cấu trúc từ đầu vào đến đầu ra cuối cùng), và 3) vòng lặp lặp lại do Codex dẫn dắt dựa trên các eval được thiết kế riêng để cho phép phát triển sản phẩm liên tục và nhanh hơn. Chúng tôi hy vọng kinh nghiệm của mình sẽ hữu ích cho những người xây dựng khác trong các lĩnh vực mà chuyên môn của chuyên viên là chìa khóa để định hình chất lượng của toàn bộ hệ thống và dữ liệu chạy qua nó.
Khi Tax AI mở rộng sang các hồ sơ khai thuế phức tạp hơn, tỷ lệ tờ khai được chấm điểm đạt mức hoàn thành 75%, 90% và đầy đủ tiếp tục tăng trong suốt mùa thuế.
Khi chúng tôi tiến vào những phần khó hơn của việc chuẩn bị thuế (K-1, các schedule bất động sản cho thuê và các biểu mẫu thuế nơi giá trị phải được đối soát qua nhiều tệp nguồn). Rõ ràng, thách thức thực sự nằm ở việc liệu sản phẩm có thể làm cho các lỗi sản xuất phức tạp trở nên hiển thị, dễ hiểu và có thể hành động hay không.
Trong những ngày đầu của sản phẩm, phần lớn việc chỉnh sửa là thủ công. Các chuyên viên có thể sửa lỗi hệ thống, nhưng sản phẩm không ghi lại đầy đủ ngữ cảnh: một giá trị bị thay đổi trước khi nộp có thể phản ánh lỗi trích xuất thực sự, vấn đề ánh xạ, thiếu hỗ trợ sản phẩm hoặc nhiễu quy trình dự kiến. Việc phân loại các trường hợp đó vẫn cần đội kỹ thuật theo dõi tiếp. Các kỹ sư có thể dùng các tác nhân lập trình, nhưng hệ thống khi đó vẫn chưa được thiết kế để dùng AI một cách có ý nghĩa trong vòng lặp cải tiến. Chúng tôi chưa có tín hiệu để xác định đúng đỉnh núi cần chinh phục.
Điều đó dẫn dắt chúng tôi đến thiết kế hệ thống xoay quanh ba trụ cột:
- Luôn gắn bó với chuyên viên: Những người trực tiếp làm việc cần định hướng những gì sản phẩm học được. Trực giác và hiểu biết của họ cho thấy lỗi nào là quan trọng và giúp định hướng phần nào của quy trình đáng để tập trung tiếp theo.
- Xây dựng sản phẩm để sản xuất tạo ra bằng chứng: Sản phẩm phải ghi lại nhiều hơn chỉ đầu vào và đầu ra; nó cần ghi lại toàn bộ đường đi từ tài liệu nguồn, đến các trường được trích xuất và nguồn gốc, đến hồ sơ nộp ở bước sau và chỉnh sửa của chuyên gia.
- Tạo vòng lặp cải tiến do Codex dẫn dắt: Khi các vấn đề trong sản xuất trở nên hiển thị và có cấu trúc, chúng có thể trở thành phát hiện, eval được thiết kế riêng và các nhiệm vụ kỹ thuật có phạm vi rõ ràng. Sau đó Codex có thể giúp điều tra, đề xuất thay đổi, xác thực chúng bằng các eval có mục tiêu và hồi quy, và đưa sản phẩm tiến lên nhanh hơn một chu kỳ lặp hoàn toàn thủ công.
Ví dụ về bất động sản cho thuê bên dưới cho thấy vòng lặp đó hoạt động thế nào trong thực tế, cho bạn xem chỉnh sửa của chuyên viên trở thành một phát hiện có cấu trúc ra sao, rồi thành mục tiêu đánh giá, và cuối cùng là một nhiệm vụ kỹ thuật có quy định phạm vi cho Codex.
Thu nhập từ bất động sản cho thuê được báo cáo trên Schedule E của tờ khai thuế cá nhân. Từ góc độ kỹ thuật, nhiệm vụ trích xuất nó thì dễ mô tả nhưng khó làm tốt. Hệ thống phải đọc tài liệu nguồn lộn xộn (ghi chú viết tay, email, bảng tính và các tệp khác của khách hàng), trích xuất các trường bất động sản cho thuê mà hệ thống có thể tự tin ánh xạ vào công cụ thuế, và giữ lại đủ bằng chứng để một chuyên viên có thể phê duyệt hoặc chỉnh sửa kết quả. Ví dụ đơn giản hóa bên dưới cho thấy các tệp nguồn và đầu ra được trích xuất đó có thể trông như thế nào.
Một gói nguồn bất động sản cho thuê được chuẩn hóa thành các trường có trích dẫn trước khi được ánh xạ (map) sang các khái niệm của công cụ thuế ở bước sau.
Sự khác biệt giữa giá trị do tác nhân dự đoán và giá trị thực tế từ tờ khai thuế đã nộp có thể phản ánh một lỗi trích xuất thực sự, nhưng cũng có thể là ý riêng của chuyên viên, một giá trị được chuyển tiếp từ tờ khai năm trước trong công cụ thuế, hoặc một giá trị được thêm vào hay thay đổi ở nơi khác trong quy trình khai thuế. Các chuyên viên đã giúp chúng tôi phân biệt những trường hợp đó để xác định hành động nào cần chuyên viên chỉnh sửa hoặc ngăn cản việc nộp.
Vì có thể xem chi tiết các chỉnh sửa này, chúng tôi đã biến quy trình rà soát từ một bước cuối cùng sau khi thất bại thành một chu kỳ học hỏi liên tục. Chúng tôi thiết kế quy trình làm việc để ghi lại hành động của chuyên gia dưới dạng dữ liệu có cấu trúc. Giờ đây, mọi can thiệp đều đưa vào vòng lặp cải tiến của sản phẩm bằng cách ghi lại chính xác Tax AI đã đề xuất gì, chuyên viên đã sửa gì và cuối cùng điều gì được đưa vào tờ khai đã nộp.
Đối với một quy trình phức tạp như tài sản cho thuê, hệ thống phải bảo toàn toàn bộ những gì xảy ra giữa các tệp nguồn và tờ khai đã nộp. Dọc theo quy trình đó, tài liệu được tổ chức, tách và phân loại; các trường thông tin tài sản cho thuê được trích xuất kèm theo trích dẫn quay về tài liệu nguồn; những giá trị này sau đó được ánh xạ vào động cơ thuế; và các chuyên viên vẫn có thể chỉnh sửa chúng trước khi nộp. Các trace ở cấp sản phẩm đó cho phép điều tra nơi xảy ra lỗi. Để biến các chỉnh sửa của chuyên viên thành mục tiêu đánh giá hữu ích, hệ thống xử lý chúng theo ba bước:
- Ghi lại khác biệt: Đầu ra của Tax AI được so sánh với tờ khai đã nộp để tạo ra các hàng rà soát cấp trường, ghi lại giá trị kỳ vọng, giá trị dự đoán và liệu khác biệt đó có vẻ có thể xử lý hay không.
- Gộp các lỗi liên quan: Các hàng rà soát tương tự được nhóm lại để tách lỗi sản phẩm lặp lại khỏi nhiễu quy trình dự kiến. Ví dụ, các chỉnh sửa lặp lại của chuyên viên có thể cho thấy Tax AI thường bỏ sót các trường “số ngày cho thuê theo giá thị trường”, xử lý sai “chi phí khác”, hoặc nhầm lẫn nhiều bất động sản cho thuê trong cùng một gói nguồn.
- Biến các mẫu lặp lại thành mục tiêu eval: Sau khi được rà soát và đo lường, các phát hiện lặp lại trở thành mục tiêu eval rõ ràng để Codex cải thiện.
Các hàng rà soát bất động sản cho thuê tách lỗi sản phẩm lặp lại khỏi nhiễu dự kiến, rồi biến các trường hợp có thể xử lý thành mục tiêu đánh giá để Codex có một mục tiêu để chinh phục.
Trụ cột thứ ba là tạo ra một vòng lặp kỹ thuật có khả năng hành động dựa trên những eval mới này. Đây là nơi Codex đóng vai trò trung tâm.
Giả sử quy trình eval của chúng tôi gắn cờ rằng Tax AI liên tục bỏ sót trường "số ngày cho thuê theo giá thị trường", trong khi các chuyên viên luôn điền trường này. Vì phát hiện này đã được đóng gói thành một bộ eval có mục tiêu, với các gói nguồn đại diện và đầu ra kỳ vọng, Codex có thể điều tra nguyên nhân gốc trực tiếp trong khung sản phẩm.
Codex không chỉ làm việc với một đầu ra cuối cùng kém chất lượng. Nó kiểm tra trace, eval, repo, và skill cùng lúc:
- Điều tra quy trình: Kiểm tra các gói nguồn, lược đồ trích xuất, hành vi của bộ ánh xạ và các đường dẫn code để xác định liệu vấn đề là trường chưa được hỗ trợ, mẫu trích xuất bị bỏ sót, vấn đề chọn nguồn, khoảng trống của bộ ánh xạ hay vấn đề của bộ chấm điểm.
- Triển khai các bản sửa có mục tiêu: Mở rộng lược đồ trích xuất, cải thiện việc chọn nguồn cho tài liệu bất động sản cho thuê, cập nhật bộ ánh xạ công cụ thuế hoặc tinh chỉnh bộ chấm điểm nếu nhiễu quy trình dự kiến đang bị tính là lỗi.
- Xác thực và đề xuất: Chạy lại eval có mục tiêu, chạy các bộ hồi quy rộng hơn và đưa ra một yêu cầu hợp nhất ứng viên để kỹ thuật xem xét.
- Khép kín vòng lặp: Biến một chỉnh sửa lặp lại của chuyên viên thành một nhiệm vụ kỹ thuật có thể đo lường. Nếu bằng chứng mơ hồ hoặc không thể tự động hóa an toàn, trường hợp đó sẽ được chuyển lại cho nhóm sản phẩm thay vì bị ép đi qua vòng lặp.
Vòng lặp tự cải tiến khép kín: các dấu vết sản xuất làm nổi bật các sửa chữa lặp lại ở mức trường, từ đó trở thành tín hiệu thất bại mà Codex có thể kiểm tra cùng với trace, eval, repo và skill. Các mẫu hình có thể hành động sẽ trở thành evals có giới hạn và các thay đổi sản phẩm tiềm năng; các trường hợp mơ hồ sẽ được chuyển trở lại cho kỹ sư xem xét. Mỗi cải tiến được triển khai sẽ tạo ra bằng chứng sản xuất mới cho chu kỳ tiếp theo.
Ví dụ về bất động sản cho thuê là biểu tượng cho một mẫu rộng hơn có thể tái sử dụng: dùng hiện vật và dấu vết sản xuất để cải thiện năng lực của một tác nhân. Với các phát hiện đã được rà soát từ dữ liệu sản xuất, dấu vết nguồn, đầu ra công cụ thuế kỳ vọng, các ví dụ mã liên quan và lệnh eval làm tập đầu vào, Codex có thể cải thiện đáng kể hiệu năng và độ chính xác theo từng tuần và tháng. Điều này dựa trên các nguyên tắc được mô tả trong công trình của chúng tôi về kỹ thuật harness và Symphony, trong đó trình bày cách làm cho nhiệm vụ trở nên dễ hiểu với Codex, cung cấp ngữ cảnh và công cụ có phạm vi rõ ràng, đồng thời vẫn giữ vai trò xác thực và rà soát của con người trong môi trường.
Bằng chứng đó không tự động trở thành một nhiệm vụ cho Codex. Một chỉnh sửa của chuyên viên có thể phản ánh lỗi trích xuất, vấn đề ánh xạ, hành vi sản phẩm chưa được hỗ trợ, phán đoán thuế hoặc nhiễu quy trình dự kiến. Chỉ sau khi các khác biệt lặp lại đã được rà soát và nhóm thành một phát hiện có thể hành động, hệ thống mới biến chúng thành một nhiệm vụ giới hạn với điều kiện thành công rõ ràng.
Chúng tôi áp dụng tự động hóa này cho một lớp giới hạn của sản phẩm. Lớp này thực hiện trích xuất và ánh xạ tài liệu nguồn vào các quy trình thuế. Các kỹ sư vẫn chịu trách nhiệm về kiến trúc, quyết định sản phẩm và phát hành. Các chuyên viên định hướng vòng lặp cải tiến thông qua chính công việc họ đã làm: sửa các giá trị được trích xuất, rà soát tờ khai và phê duyệt hồ sơ nộp cuối cùng.
Với Codex, kết quả không phải là một cảnh báo mơ hồ mà là một nhiệm vụ kỹ thuật có phạm vi rõ ràng với bằng chứng, các bề mặt sản phẩm có thể chỉnh sửa và các cổng xác thực minh bạch. Ngữ cảnh cho một nhiệm vụ bất động sản cho thuê đại diện có thể được tóm tắt như sau:
Cùng một vòng lặp này cũng áp dụng ngoài bất động sản cho thuê. Bất động sản cho thuê mất khoảng sáu tuần và cần giám sát kỹ thuật đáng kể để đạt độ chính xác và độ bao phủ 90%, nhưng công việc đó đã tạo ra các trừu tượng có thể tái sử dụng, hiện vật rà soát, quy ước eval và mẫu triển khai giúp việc hỗ trợ các biểu mẫu phức tạp tương tự như Schedule C và Schedule A trở nên dễ hơn.
Tax AI chứng minh một con đường để xây dựng các tác nhân tự cải thiện. Các chuyên viên tạo ra tín hiệu phản hồi giá trị cao bằng chính việc cung cấp dịch vụ. Các quy trình sản phẩm bảo toàn những tín hiệu đó dưới dạng bằng chứng có cấu trúc. Các hệ thống kỹ thuật được hậu thuẫn bởi eval xác thực các cải tiến trước khi chúng đến môi trường sản xuất, và một vòng lặp do tác nhân vận hành giữ cho hệ thống ở trong dòng chảy tự cải thiện liên tục.
Cấu trúc của Thrive Holdings cho phép chúng tôi tái tạo môi trường này trong các ngành cụ thể. Holdings vừa là chủ sở hữu vừa là trình vận hành, nên các đội kỹ thuật kết hợp của chúng tôi có thể làm việc trực tiếp với chuyên viên và dữ liệu sản xuất từ bên trong các doanh nghiệp như Crete, không phải với tư cách nhà cung cấp mà là đối tác. Điều này có nghĩa là công nghệ, sản phẩm và dịch vụ đều nằm dưới cùng một mái nhà để giúp chúng tôi di chuyển nhanh hơn và xây dựng những sản phẩm xuất sắc.
Một kế toán cấp cao đã dành 180 giờ cho việc chuẩn bị thuế năm ngoái thì năm nay chỉ dành 15 giờ. Cô ấy đã dùng một phần thời gian đó để gọi cho từng khách hàng và hướng dẫn họ xem tờ khai của mình, một mức độ phục vụ sát sao mà một năm trước chưa thể làm được. Phần thời gian còn lại cô dùng để nhận thêm khách hàng mới và mở rộng sang các dịch vụ mới.
Cùng nhau, các đội của chúng tôi hiện đang dùng cùng thiết kế ba phần từ Tax AI làm bản thiết kế để xây dựng quy trình trong các lĩnh vực khác trên khắp Thrive Holdings(mở trong cửa sổ mới); các quy trình kế toán như ghi sổ và kiểm toán, và các quy trình vận hành như tự động hóa bộ phận hỗ trợ CNTT. Trên khắp các lĩnh vực và ngành nghề, lời hứa rộng hơn của các tác nhân tự cải thiện vẫn đúng. Những tác nhân tốt nhất được con người định hướng để học cách trở nên có năng lực hơn, đáng tin cậy hơn và giá trị hơn theo thời gian.
Để tìm hiểu thêm về đội ngũ OpenAI đã làm việc trong dự án này, hãy liên hệ.


