27 พฤษภาคม 2569

การสร้างเอเจนต์ด้านภาษีที่พัฒนาตนเองได้ด้วย Codex

โดยสมาชิกฝ่ายเทคนิค: Aravind Srinivasan และ Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo และ John de Wasseige (OpenAI)

กำลังโหลด…

Thrive Holdings และ OpenAI ร่วมกันพัฒนา Tax AI สำหรับนักบัญชีของ Crete ได้อย่างไร โดยผสานความเชี่ยวชาญของผู้ปฏิบัติงานเข้ากับวงจรที่ขับเคลื่อนด้วย Codex

การทำงานของระบบในสถานการณ์จริงมีความแตกต่างจากในสภาพแวดล้อมทดลอง โดยมักพบจุดบกพร่องที่คาดการณ์ได้ยากก่อนการปรับใช้ ทีมงานมักค้นพบความล้มเหลวเหล่านั้นหลังจากเปิดตัวผลิตภัณฑ์ จากนั้นจึงใช้เวลาหลายสัปดาห์ในการตรวจสอบกรณีที่เกิดขึ้นได้ยาก การปรับปรุงพรอมต์ และการเปลี่ยนสัญญาณตอบรับจากหน้างานให้กลายเป็นการพัฒนาผลิตภัณฑ์อย่างยั่งยืน วงจรข้อเสนอแนะเป็นแบบแมนนวลและมีความล่าช้า โดยจะดีขึ้นก็ต่อเมื่อวิศวกรเข้ามาผลักดันให้เกิดการเปลี่ยนแปลง แต่ในปัจจุบันคุณสามารถสร้างเอเจนต์ที่มีศักยภาพในการพัฒนาตนเองได้ด้วยโครงสร้างพื้นฐานสำหรับการประเมินผลที่ออกแบบมาอย่างรอบคอบ การเข้าถึงผู้ปฏิบัติงานและสภาพแวดล้อมการทำงานจริงโดยตรง ตลอดจนขีดความสามารถระดับแนวหน้าของเอเจนต์อย่าง Codex

ในโพสต์นี้เราจะเจาะลึกว่าเราใช้ Codex เพื่อสร้างเอเจนต์ประเภทนี้ได้อย่างไร ในช่วงหกเดือนที่ผ่านมา วิศวกรที่ทำงานร่วมกับลูกค้าโดยตรงและนักวิจัยของ OpenAI พร้อมด้วยวิศวกรของ Thrive Holdings ได้ร่วมมือกันสร้าง Tax AI เพื่อเครือข่ายบริษัทบัญชีมากกว่า 30 แห่งของ Crete⁠(เปิดในหน้าต่างใหม่)เพื่อช่วยจัดเตรียมแบบแสดงรายการภาษีที่ซับซ้อนมากขึ้นเรื่อยๆ แทนที่จะพึ่งพาวิศวกรให้ค้นหาและแก้ไขความล้มเหลวแต่ละครั้ง Tax AI ใช้ Codex เพื่อเปลี่ยนการใช้งานจริงในสภาพแวดล้อมการผลิตให้เป็นสัญญาณที่มีโครงสร้าง ซึ่งใช้ขับเคลื่อนการปรับปรุงแบบอัตโนมัติ

ผู้ปฏิบัติงานที่ Crete ต้องจัดเตรียมแบบแสดงรายการภาษีจำนวนหลายหมื่นฉบับในแต่ละฤดูกาล ซึ่งจำเป็นต้องอาศัยการตรวจสอบและประมวลผลเอกสารประกอบจำนวนหลายล้านฉบับ สำหรับการยื่นภาษีที่มีความซับซ้อนระดับปานกลางถึงระดับสูง เฉพาะขั้นตอนการป้อนข้อมูลเพียงอย่างเดียวอาจใช้เวลาถึง 8 ชั่วโมงต่อหนึ่งฉบับ ซึ่งมักเกี่ยวข้องกับแหล่งข้อมูลที่ไม่เป็นระเบียบ เอกสารจากปีก่อนหน้า รวมถึงการสกัดข้อมูลและการคำนวณด้วยตนเอง ความล่าช้าในขั้นตอนการเตรียมภาษีถูกชี้ให้เห็นว่าเป็นอุปสรรคสำคัญที่สุดในช่วงฤดูกาลภาษีทีมีงานเดข้ามาเยอะ

เพื่อแก้ไขปัญหานี้ Tax AI ได้ประมวลผลแบบแสดงรายการภาษีจำนวน 7,000 ฉบับจากสำนักงานต่าง ๆ ของ Crete ที่เข้าร่วมโครงการนำร่องในช่วงฤดูกาลภาษีนี้ ระบบนี้ลดภาระงานในกระบวนการเตรียมแบบยื่นภาษี 1040 และ 1041 ที่กินเวลานานได้เป็นอย่างดี อย่างไรก็ตามสิ่งที่น่าประทับใจยิ่งกว่าการเพิ่มประสิทธิภาพ คือตัวระบบเองมีการพัฒนาขึ้นอย่างวัดผลได้ เมื่อเทียบกับเวอร์ชันที่เปิดตัวครั้งแรกเมื่อสามเดือนที่แล้ว

การพัฒนาตนเองที่วัดผลได้

ใน Tax AI ผู้ปฏิบัติงานจะอัปโหลดไฟล์ต้นฉบับพร้อมกับหมายเหตุเฉพาะของลูกค้า จากนั้น Tax AI จะสร้างรายการส่งข้อมูลไปยังระบบคำนวณภาษี ซึ่งพร้อมสำหรับการตรวจสอบ ช่วยให้ผู้ปฏิบัติงานประหยัดเวลาได้ประมาณหนึ่งในสามในการจัดเตรียมภาษี ร่างแบบแสดงรายการภาษีด้วยความถูกต้องสูงสุดถึง 97% และเพิ่มอัตราการประมวลผลได้ประมาณ 50% ทำให้พวกเขามีเวลามากขึ้นในการพบปะกับลูกค้า

เราสามารถวัดผลการปรับปรุงนี้ในเชิงปริมาณได้ด้วยการทำความเข้าใจว่า Tax AI สามารถกรอกแบบแสดงรายการภาษีได้อย่างถูกต้องเพียงใด โดยไม่จำเป็นต้องแก้ไขในภายหลัง เราวัดความแม่นยำโดยตรวจสอบสัดส่วนของแบบแสดงรายการที่กรอกช่องข้อมูลได้ถูกต้องครบถ้วนถึงระดับ 75% 90% หรือ 100% ผลการดำเนินงานในช่วงเริ่มต้นพบว่า มีแบบแสดงรายการภาษีเพียงหนึ่งในสี่เท่านั้นที่เติมข้อมูลในช่องได้ถูกต้องครบถ้วนร้อยละ 75% แต่ภายในระยะเวลา 6 สัปดาห์ สัดส่วนดังกล่าวเพิ่มขึ้นเป็นร้อยละ 86% ระบบแสดงให้เห็นถึงอัตราการเติบโตที่รวดเร็วยิ่งขึ้น ในระดับการเติมข้อมูลที่ถูกต้องครบถ้วนสมบูรณ์ถึง 90% และ 100% เกณฑ์เหล่านี้ช่วยให้เราเห็นมุมมองเชิงปฏิบัติว่า รายการที่ส่งกลับประเภทต่างๆ ยังคงต้องมีการติดตามผลจากผู้ปฏิบัติงานมากน้อยเพียงใด

ในช่วงแรก ๆ Tax AI จัดการงานที่ไม่ซับซ้อนมากนัก เช่น แบบฟอร์ม W-2 และ 1099 เมื่อฤดูกาลดำเนินไประบบเปลี่ยนไปจัดการกับแบบแสดงรายการภาษีที่มีความซับซ้อนมากขึ้น ซึ่งรวมถึงเอกสาร K-1 ตารางแนบ และกรณีเฉพาะที่ยากต่อการจัดการ ความสามารถที่เพิ่มเข้ามาแต่ละอย่างช่วยลดระยะเวลาในงานเตรียมภาษีแต่ละฉบับได้มากกว่าที่เคยเป็นมา เพราะภารกิจที่ระบบรับช่วงต่อนั้นมีความยุ่งยากและกินเวลาในการทำด้วยตนเองสูงกว่า วันนี้เรายังคงเห็นความคืบหน้าอย่างต่อเนื่อง

ถัดไปเราจะอธิบายทีละขั้นตอนว่าทีมของเราร่วมกันออกแบบและพัฒนา Tax AI ให้สามารถปรับปรุงตัวเองได้อย่างไร โดยอาศัยเสาหลักสำคัญสามประการ ได้แก่: 1) ความคิดเห็นจากผู้ปฏิบัติงานผู้เชี่ยวชาญ 2) ร่องรอยการทำงานในสภาพแวดล้อมจริง (ประวัติที่มีโครงสร้างตั้งแต่อินพุตไปจนถึงเอาต์พุตสุดท้าย) และ 3) วงจรการทำซ้ำที่ขับเคลื่อนด้วย Codex โดยอิงจากการประเมินผลที่ปรับแต่งเฉพาะ เพื่อให้การพัฒนาผลิตภัณฑ์เป็นไปอย่างต่อเนื่องและรวดเร็วยิ่งขึ้น เราหวังว่าประสบการณ์ของเราจะก่อให้เกิดประโยชน์ต่อผู้พัฒนาท่านอื่นในสาขาที่ความเชี่ยวชาญของผู้ปฏิบัติงานเป็นกุญแจสำคัญในการกำหนดคุณภาพของระบบโดยรวมและข้อมูลที่ไหลผ่านระบบนั้น

เมื่อ Tax AI ได้ขยายขอบเขตการทำงานไปยังการยื่นแบบภาษีที่มีความซับซ้อนมากขึ้น สัดส่วนของแบบแสดงรายการที่ผ่านการประเมินคะแนนจนถึงระดับ 75%, 90% และการประมวลผลเสร็จสมบูรณ์ ก็มีอัตราที่เพิ่มสูงขึ้นอย่างต่อเนื่องตลอดช่วงฤดูกาลภาษี

ปัญหา

เมื่อก้าวเข้าสู่ส่วนที่ยากขึ้นของการเตรียมภาษี (เช่น K-1, ตารางรายการอสังหาริมทรัพย์ให้เช่า และแบบภาษีที่ต้องมีการตรวจสอบยอดให้ตรงกันจากไฟล์ข้อมูลหลายแหล่ง) ความท้าทายที่แท้จริงคือการทำให้ระบบสามารถแสดงผล เข้าใจ และจัดการกับข้อผิดพลาดที่เกิดขึ้นจริงในระหว่างการใช้งานได้อย่างชัดเจน

กระบวนการแก้ไขข้อผิดพลาดในระยะแรกของผลิตภัณฑ์ส่วนใหญ่ยังเป็นแบบแมนนวล ผู้ปฏิบัติงานสามารถแก้ไขข้อผิดพลาดของระบบได้ แต่ตัวผลิตภัณฑ์กลับไม่สามารถจัดเก็บข้อมูลบริบทที่ครบถ้วนได้ เนื่องจากค่าที่ถูกเปลี่ยนก่อนการยื่นภาษีอาจสะท้อนถึงความผิดพลาดในการสกัดข้อมูล ปัญหาการจับคู่ข้อมูล การขาดการรองรับจากตัวผลิตภัณฑ์ หรือความความคลาดเคลื่อนของงานตามปกติ การแก้ไขกรณีเหล่านั้นให้เรียบร้อยยังคงต้องอาศัยการติดตามผลจากทีมวิศวกรรม วิศวกรสามารถใช้เอเจนต์ช่วยเขียนโค้ดได้ก็จริง แต่ระบบในขณะนั้นยังไม่ได้ถูกออกแบบมาเพื่อใช้ประโยชน์จาก AI ในเชิงลึกภายในวงจรการปรับปรุงประสิทธิภาพ รายังไม่มีสัญญาณหรือข้อมูลที่ชัดเจนเพียงพอที่จะระบุได้ว่าเส้นทางไหนคือเป้าหมายที่ถูกต้องที่เราควรเลือกเดิน

แนวทางของเรา: วงจรแบบสามส่วน

ปัจจัยดังกล่าวส่งผลให้เกิดการออกแบบระบบโดยยึดหลักการสำคัญ 3 ประการ ดังนี้

อยู่ใกล้ชิดกับผู้ปฏิบัติงานจริง: คนที่ลงมือทำงานควรเป็นผู้กำหนดทิศทางว่าสิ่งที่ผลิตภัณฑ์เรียนรู้ควรเป็นอะไร สัญชาตญาณและความเข้าใจของพวกเขาช่วยชี้ให้เห็นว่าข้อผิดพลาดใดมีความสำคัญ และช่วยให้ทราบว่าส่วนใดของเวิร์กโฟลว์ควรให้ความสำคัญเป็นลำดับถัดไป
สร้างผลิตภัณฑ์ให้สามารถสร้างหลักฐานการทำงานได้: ผลิตภัณฑ์ต้องบันทึกมากกว่าแค่ข้อมูลขาเข้าและขาออก แต่ต้องจัดเก็บเส้นทางทั้งหมดตั้งแต่เอกสารต้นทาง ข้อมูลที่สกัดได้และที่มา ไปจนถึงการยื่นส่งข้อมูลและการแก้ไขโดยผู้เชี่ยวชาญ
สร้างลูปการปรับปรุงที่ขับเคลื่อนด้วย Codex: เมื่อปัญหาในโปรดักชันมองเห็นได้และถูกจัดโครงสร้างแล้ว ปัญหาเหล่านั้นสามารถกลายเป็นข้อค้นพบ การประเมินผลที่ปรับให้เหมาะสม และงานวิศวกรรมที่กำหนดขอบเขตชัดเจนได้ จากนั้น Codex จะช่วยตรวจสอบ เสนอการเปลี่ยนแปลง ตรวจยืนยันการเปลี่ยนแปลงเหล่านั้นกับการประเมินแบบเจาะจงและการประเมินการถดถอย และผลักดันผลิตภัณฑ์ให้ก้าวหน้าได้เร็วกว่าเมื่อเทียบกับวงจรการทำซ้ำแบบที่ต้องทำด้วยตนเองล้วนๆ

ตัวอย่างอสังหาริมทรัพย์ให้เช่าด้านล่างแสดงให้เห็นการทำงานของวงจรดังกล่าวในทางปฏิบัติ โดยอธิบายขั้นตอนตั้งแต่การที่ผู้ปฏิบัติงานแก้ไขข้อมูลจนกลายเป็นผลการค้นพบที่มีโครงสร้าง ตามด้วยการกำหนดให้เป็นเป้าหมายสำหรับการประเมิน และสิ้นสุดที่การเป็นงานด้านวิศวกรรมที่จำกัดขอบเขตใน Codex

ตัวอย่างอสังหาริมทรัพย์ให้เช่า

รายได้จากอสังหาริมทรัพย์ให้เช่าจะถูกรายงานใน Schedule E ของแบบแสดงรายการภาษีเงินได้บุคคลธรรมดา ในมุมมองด้านวิศวกรรม งานสกัดข้อมูลดังกล่าวสามารถอธิบายได้ง่าย แต่การทำให้สำเร็จอย่างมีประสิทธิภาพนั้นมีความท้าทาย ระบบต้องอ่านเอกสารต้นทางที่ไม่เป็นระเบียบ (เช่น บันทึกที่เขียนด้วยลายมือ อีเมล สเปรดชีต และไฟล์อื่นๆ ของลูกค้า) สกัดข้อมูลรายการอสังหาริมทรัพย์ให้เช่าที่ระบบสามารถจับคู่กับโปรแกรมคำนวณภาษีได้อย่างแม่นยำ และจัดเก็บหลักฐานให้เพียงพอต่อการที่ผู้ปฏิบัติงานจะอนุมัติหรือแก้ไขผลลัพธ์นั้น ตัวอย่างแบบง่ายด้านล่างแสดงให้เห็นว่าไฟล์ต้นทางเหล่านั้นและเอาต์พุตที่ดึงออกมาอาจมีลักษณะอย่างไร

ข้อมูลจากแหล่งอสังหาริมทรัพย์ให้เช่าจะถูกปรับให้อยู่ในรูปแบบมาตรฐานในช่องกรอกข้อมูลที่ผ่านการอ้างอิงข้อมูล ก่อนจะถูกเชื่อมโยงเข้ากับแนวคิดของระบบภาษีในขั้นตอนถัดไป

1 การตรวจแก้ของผู้ปฏิบัติงานแสดงให้เห็นถึงข้อผิดพลาด

ความแตกต่างระหว่างค่าที่เอเจนต์คาดการณ์กับค่าจริงจากแบบแสดงรายการภาษีที่ยื่น อาจสะท้อนถึงการสกัดข้อมูลที่ผิดพลาดจริง หรืออาจเกิดจากความต้องการเฉพาะของผู้ปฏิบัติงาน ค่าที่ถูกยกยอดมาจากปีก่อนในระบบภาษี หรือการที่ข้อมูลถูกแก้ไขจากจุดอื่นในขั้นตอนการทำงาน ผู้เชี่ยวชาญได้ช่วยให้เราจำแนกกรณีเหล่านั้น เพื่อให้สามารถระบุได้ว่าการดำเนินการใดบ้างที่จำเป็นต้องได้รับการแก้ไขโดยผู้เชี่ยวชาญ หรือกรณีใดที่ส่งผลให้การยื่นเอกสารไม่สามารถดำเนินการต่อไปได้

ข้อมูลจากการแก้ไขข้อมูลเหล่านี้ช่วยให้เราพลิกโฉมขั้นตอนการตรวจสอบ จากที่เป็นเพียงการแก้ไขที่ปลายเหตุหลังเกิดข้อผิดพลาด ไปสู่การเป็นระบบการเรียนรู้แบบต่อเนื่องที่ช่วยพัฒนาประสิทธิภาพของงานตลอดเวลา เราออกแบบเวิร์กโฟลว์ให้บันทึกการดำเนินการของผู้เชี่ยวชาญในรูปแบบข้อมูลที่มีโครงสร้าง ทุกการดำเนินการแก้ไขในขณะนี้จะช่วยป้อนข้อมูลสู่วงจรการพัฒนาผลิตภัณฑ์ โดยระบบจะบันทึกสิ่งที่ Tax AI เสนอ สิ่งที่ผู้ปฏิบัติงานปรับเปลี่ยน และสิ่งที่ถูกส่งยื่นจริงในแบบภาษีไว้อย่างละเอียด

2. ร่องรอยการทำงานของผลิตภัณฑ์เปลี่ยนการแก้ไขให้กลายเป็นเกณฑ์การประเมิน

สำหรับกระบวนการทำงานที่มีความซับซ้อนอย่างอสังหาริมทรัพย์สำหรับให้เช่า ระบบจำเป็นต้องรักษาข้อมูลสิ่งที่เกิดขึ้นระหว่างไฟล์ต้นฉบับและแบบแสดงรายการภาษีที่ยื่นจริงไว้ ตลอดเส้นทางดังกล่าว เอกสารจะถูกจัดระเบียบ แบ่งแยก และจำแนกประเภท ช่องข้อมูลของอสังหาริมทรัพย์ให้เช่าจะถูกสกัดโดยมีการอ้างอิงกลับไปยังเอกสารต้นฉบับ ค่าเหล่านั้นจะถูกจับคู่เข้าสู่ระบบคำนวณภาษี และผู้ปฏิบัติงานอาจทำการแก้ไขข้อมูลเหล่านั้นก่อนการยื่นแบบภาษี ร่องรอยการทำงานระดับผลิตภัณฑ์เหล่านี้ช่วยให้สามารถตรวจสอบย้อนกลับไปยังจุดที่เกิดความล้มเหลวได้ เพื่อให้การแก้ไขจากผู้ปฏิบัติงานกลายเป็นเป้าหมายการประเมินที่มีประสิทธิภาพ ระบบจะประมวลผลข้อมูลดังกล่าวผ่าน 3 ขั้นตอน:

ระบุความแตกต่าง: ผลลัพธ์จาก Tax AI จะถูกนำไปเปรียบเทียบกับแบบแสดงรายการภาษีที่ยื่นจริง เพื่อจัดทำบันทึกการตรวจสอบในระดับช่องข้อมูล ซึ่งจะระบุค่าที่ควรจะเป็น, ค่าที่คาดการณ์โดยระบบ และวิเคราะห์ว่าความแตกต่างที่พบนั้นเป็นประเด็นที่จำเป็นต้องดำเนินการแก้ไขหรือไม่
จัดกลุ่มปัญหาที่มีลักษณะคล้ายกัน: แถวข้อมูลการตรวจสอบที่มีลักษณะใกล้เคียงกันจะถูกจัดกลุ่มไว้ด้วยกัน เพื่อจำแนกความผิดพลาดของผลิตภัณฑ์ที่เกิดขึ้นบ่อยครั้งออกจากความแปรปรวนปกติที่พบได้ในขั้นตอนการทำงาน ตัวอย่างเช่น การแก้ไขซ้ำๆ จากผู้ปฏิบัติงานอาจแสดงให้เห็นว่า Tax AI มักตรวจไม่พบข้อมูลวันให้เช่า จัดการ “ค่าใช้จ่ายอื่นๆ” ผิดพลาด หรือแยกความแตกต่างของอสังหาริมทรัพย์ให้เช่าหลายแห่งในเอกสารชุดเดียวกันไม่ได้
เปลี่ยนรูปแบบซ้ำๆ ให้เป็นเป้าหมายการประเมิน: เมื่อได้รับการตรวจสอบและวัดผลแล้ว ข้อค้นพบที่เกิดขึ้นซ้ำๆ จะกลายเป็นเกณฑ์การประเมินผลที่ชัดเจน เพื่อให้ Codex นำไปพัฒนาขีดความสามารถต่อไป

การคัดแยกแถวข้อมูลรีวิวอสังหาริมทรัพย์ช่วยจำแนกปัญหาของผลิตภัณฑ์ที่เกิดขึ้นซ้ำๆ ออกจากสัญญาณรบกวนทั่วไป และเปลี่ยนกรณีที่สามารถแก้ไขได้ให้เป็นเป้าหมายการประเมินเพื่อสร้างความท้าทายให้ Codex ได้พัฒนาขีดความสามารถต่อไป

3. ผลการค้นพบนี้กลายเป็นโจทย์ท้าทายสำหรับ Codex

เสาหลักประการที่สามคือการสร้างวงจรทางวิศวกรรมที่สามารถดำเนินการตามเกณฑ์การประเมินใหม่เหล่านี้ได้ นี่คือจุดที่ Codex กลายมาเป็นศูนย์กลาง

สมมติว่าไปป์ไลน์การประเมินผลของเราระบุว่า Tax AI พลาดช่องกรอกข้อมูลของ "จำนวนวันที่ให้เช่าในราคาตลาดที่เป็นธรรม" อยู่เสมอ ในขณะที่ผู้ประกอบวิชาชีพกรอกข้อมูลในช่องนี้ได้อย่างน่าเชื่อถือ เนื่องจากข้อค้นพบนี้ถูกบรรจุไว้ในชุดการประเมินแบบกำหนดเป้าหมายแล้ว พร้อมด้วยแพ็กเกจแหล่งข้อมูลตัวอย่างและผลลัพธ์ที่คาดหวัง Codex จึงสามารถตรวจสอบสาเหตุที่แท้จริงได้โดยตรงภายในโครงสร้างผลิตภัณฑ์

Codex ไม่ได้ทำงานกับแค่ผลลัพธ์ขั้นสุดท้ายที่ไม่ได้มาตรฐานเพียงอย่างเดียว ระบบจะดำเนินการตรวจสอบร่องรอยการทำงาน เกณฑ์การประเมินผล Repo และทักษะควบคู่กัน:

ตรวจสอบไปป์ไลน์: ตรวจสอบแพ็กเกจแหล่งข้อมูล โครงสร้างการสกัดข้อมูล พฤติกรรมการจับคู่ข้อมูล และเส้นทางของโค้ด เพื่อระบุว่าปัญหาเกิดจากช่องข้อมูลที่ไม่รองรับ รูปแบบการสกัดข้อมูลที่ตกหล่น ปัญหาการเลือกแหล่งข้อมูล ข้อจำกัดของตัวจับคู่ข้อมูล หรือปัญหาที่ระบบการให้คะแนน
ดำเนินการแก้ไขเฉพาะจุด: ดำเนินการขยายขอบเขตโครงสร้างการสกัดข้อมูล ปรับปรุงการเลือกแหล่งข้อมูลสำหรับเอกสารอสังหาริมทรัพย์ให้เช่า อัปเดตระบบจับคู่ข้อมูลเข้าสู่ระบบภาษี หรือปรับปรุงระบบประเมินผลหากพบว่าสิ่งที่ถูกนับเป็นความผิดพลาดนั้นแท้จริงแล้วเป็นเพียงสัญญาณรบกวนตามปกติของขั้นตอนการทำงาน
การตรวจสอบความถูกต้องและเสนอแนวทาง: ดำเนินการรันการประเมินแบบกำหนดเป้าหมายซ้ำ รันชุดทดสอบ Regression ในวงกว้างขึ้น และนำเสนอคำขอ Pull Request เพื่อให้ทีมวิศวกรตรวจสอบ
ปิดวงจรการทำงาน: เปลี่ยนการแก้ไขซ้ำๆ จากผู้ปฏิบัติงานให้เป็นงานทางวิศวกรรมที่สามารถวัดผลได้ หากหลักฐานมีความคลุมเครือหรือไม่ปลอดภัยที่จะดำเนินการด้วยระบบอัตโนมัติ ระบบจะส่งเคสนั้นกลับไปยังทีมผลิตภัณฑ์เพื่อพิจารณาแทนที่จะบังคับให้เข้าสู่กระบวนการอัตโนมัติ

กระบวนการพัฒนาตนเองอย่างครบวงจร: ระบบจะดึงรอยร่องรอยการทำงานในโปรดักชันมาวิเคราะห์เพื่อหาจุดที่ต้องแก้ไขบ่อยๆ จากนั้นจะเปลี่ยนจุดเหล่านี้ให้เป็นสัญญาณเตือนความล้มเหลว เพื่อให้ Codex นำไปตรวจสอบร่วมกับข้อมูลการทดสอบ โค้ดใน Repo และทักษะอื่นๆ แพทเทิร์นที่นำไปใช้งานได้จริงจะถูกเปลี่ยนให้กลายเป็นแบบทดสอบที่ชัดเจนและไอเดียพัฒนาผลิตภัณฑ์ใหม่ๆ ส่วนกรณีที่ยังกำกวมหรือไม่ชัดเจน จะถูกส่งกลับไปให้ทีมวิศวกรตรวจสอบอีกครั้ง การปรับปรุงแต่ละรายการที่นำออกใช้งานจริงจะสร้างข้อมูลหลักฐานใหม่จากสภาพแวดล้อมการใช้งานจริงสำหรับรอบถัดไป

วิธีการใช้ Codex เพื่อสร้างวงจรการทำงานนี้

ตัวอย่างอสังหาริมทรัพย์ให้เช่าถือเป็นภาพแทนของรูปแบบการใช้งานที่สามารถนำไปปรับใช้ซ้ำได้ในวงกว้าง นั่นคือการใช้ผลงานและร่องรอยการทำงานจริงมาเป็นข้อมูลเพื่อยกระดับความสามารถของเอเจนต์ AI ด้วยการใช้ข้อมูลที่ผ่านการตรวจสอบจากข้อมูลในระบบจริง ร่องรอยการทำงาน ผลลัพธ์ที่คาดหวังของระบบภาษี ตัวอย่างโค้ดที่เกี่ยวข้อง และคำสั่งการประเมินผลเป็นชุดข้อมูลนำเข้า Codex สามารถปรับปรุงประสิทธิภาพและความแม่นยำขึ้นได้อย่างมีนัยสำคัญในระยะเวลาหลายสัปดาห์ถึงหลายเดือน หลักการนี้ต่อยอดจากแนวคิดที่เราได้วางไว้ในงานด้าน Harness Engineering และ Symphony ซึ่งได้อธิบายขั้นตอนการสร้างภารกิจให้มีความชัดเจนต่อการประมวลผลของ Codex การจัดเตรียมบริบทและเครื่องมือที่ตรงประเด็น รวมถึงการบูรณาการขั้นตอนการตรวจสอบและการทบทวนโดยมนุษย์ให้เป็นส่วนหนึ่งของสภาพแวดล้อมการทำงาน

หลักฐานดังกล่าวไม่ได้เปลี่ยนเป็นงานสำหรับ Codex โดยอัตโนมัติ การแก้ไขของผู้ปฏิบัติงานอาจสะท้อนถึงความผิดพลาดในการสกัดข้อมูล ปัญหาการจับคู่ข้อมูล พฤติกรรมผลิตภัณฑ์ที่ไม่ได้รับการรองรับ การตัดสินใจทางภาษี หรือสัญญาณรบกวนตามปกติในกระบวนการทำงาน ระบบจะแปลงความแตกต่างที่พบซ้ำ ๆ ให้เป็นงานที่มีขอบเขตชัดเจนและมีเงื่อนไขความสำเร็จที่วัดผลได้ ก็ต่อเมื่อผ่านการตรวจสอบและจัดกลุ่มเป็นข้อสรุปที่พร้อมนำไปแก้ไขแล้วเท่านั้น

ระบบนำกระบวนการอัตโนมัตินี้ไปประยุกต์ใช้กับเลเยอร์ที่มีขอบเขตจำกัดของผลิตภัณฑ์ เลเยอร์นี้ทำหน้าที่สกัดข้อมูลและแมปเอกสารต้นทางเข้ากับเวิร์กโฟลว์ด้านภาษี วิศวกรยังคงรับผิดชอบด้านสถาปัตยกรรม การตัดสินใจเกี่ยวกับผลิตภัณฑ์ และการส่งมอบผลิตภัณฑ์ ผู้ปฏิบัติงานจะขับเคลื่อนวงจรการปรับปรุงผ่านงานที่ทำอยู่แล้ว ได้แก่ การแก้ไขค่าที่ดึงออกมา การตรวจทานแบบแสดงรายการภาษี และการอนุมัติการยื่นแบบขั้นสุดท้าย

สำหรับ Codex ผลลัพธ์ที่ได้ไม่ใช่การแจ้งเตือนที่คลุมเครือ แต่เป็นงานวิศวกรรมที่มีขอบเขตชัดเจน พร้อมด้วยหลักฐานประกอบ ส่วนประกอบของผลิตภัณฑ์ที่แก้ไขได้ และจุดตรวจสอบความถูกต้องที่กำหนดไว้อย่างเป็นรูปธรรม บริบทสำหรับงานตัวอย่างด้านอสังหาริมทรัพย์ให้เช่าสามารถสรุปได้ดังนี้:

ข้อความธรรมดา

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

สภาพแวดล้อมงานแบบมีขอบเขตของ Codex แยกพื้นที่การทำงาน Worktree ที่แก้ไขได้ [1] ออกจากบริบทการผลิตที่อ่านได้อย่างเดียว [5] Worktree ประกอบด้วยส่วนประกอบของผลิตภัณฑ์ที่ Codex สามารถตรวจสอบหรือแก้ไขได้ในขอบเขตที่กำหนดไว้ [2] ชุดการประเมินผลเชิงเป้าหมายและการทดสอบความถดถอยที่ใช้เป็นเกณฑ์ตัดสินความสำเร็จ [3] และทักษะหรือเอกสารที่นำไปใช้ซ้ำได้ ซึ่งทำหน้าที่เข้ารหัสวิธีการปฏิบัติงานและเคารพต่อการตัดสินใจที่เคยเกิดขึ้นก่อนหน้านี้ [4] ข้อมูลในบริบทส่วนที่อ่านได้อย่างเดียวประกอบด้วยร่องรอยการผลิต เอกสารต้นฉบับ การคาดการณ์จาก Tax AI แบบยื่นภาษีฉบับสุดท้าย และเอกสารกำกับเขตข้อมูลของเครื่องมือภาษี ทำให้ Codex ดำเนินการตรวจสอบความล้มเหลวได้โดยไม่ส่งผลกระทบต่อหลักฐานต้นทาง

การขยายไปยังโดเมนใหม่

วงจรการทำงานแบบเดียวกันนี้สามารถประยุกต์ใช้กับงานด้านอื่นที่นอกเหนือจากอสังหาริมทรัพย์ให้เช่าได้ การเพิ่มความแม่นยำและการเรียกคืนข้อมูลของอสังหาริมทรัพย์ให้เช่าให้ถึง 90% ใช้เวลาประมาณ 6 สัปดาห์และต้องอาศัยการกำกับดูแลทางวิศวกรรมอย่างเข้มข้น แต่กระบวนการดังกล่าวสร้างโครงสร้างที่นำไปใช้ซ้ำได้ รวมถึงชิ้นงานรีวิว แนวปฏิบัติในการประเมิน และรูปแบบการใช้งานที่ช่วยให้การสนับสนุนตารางที่มีความซับซ้อนใกล้เคียงกัน เช่น Schedule C และ Schedule A เป็นไปได้ง่ายขึ้น

Tax AI พิสูจน์ให้เห็นถึงแนวทางในการสร้างเอเจนต์ที่พัฒนาตนเองได้ ผู้ปฏิบัติงานสร้างสัญญาณตอบรับที่มีมูลค่าสูงจากการให้บริการจริง เวิร์กโฟลว์ของผลิตภัณฑ์จะเก็บรักษาสัญญาณเหล่านั้นไว้เป็นหลักฐานที่มีโครงสร้าง ระบบวิศวกรรมที่ขับเคลื่อนด้วยการประเมินผลจะตรวจสอบความถูกต้องของการปรับปรุงก่อนที่จะนำไปใช้งานจริง และกระบวนการที่ขับเคลื่อนด้วยเอเจนต์อัจฉริยะ จะช่วยให้ระบบเกิดการพัฒนาตนเองอย่างต่อเนื่อง

โครงสร้างของ Thrive Holdings ช่วยให้สามารถจำลองสภาพแวดล้อมนี้ไปปรับใช้ในอุตสาหกรรมเฉพาะทางต่างๆ ได้ ในฐานะที่ Thrive Holdings ดำเนินบทบาททั้งในฐานะเจ้าของและผู้บริหารจัดการ ทำให้ทีมวิศวกรรมของเราสามารถทำงานร่วมกับผู้ปฏิบัติงานและข้อมูลจากหน้างานจริงในธุรกิจต่างๆ เช่น Crete ได้โดยตรง ในฐานะหุ้นส่วนทางธุรกิจไม่ใช่ในฐานะผู้ให้บริการภายนอก นั่นหมายความว่า เทคโนโลยี ผลิตภัณฑ์ และบริการ ทั้งหมดอยู่ภายใต้โครงสร้างเดียวกัน ซึ่งช่วยให้เราสามารถดำเนินงานได้รวดเร็วยิ่งขึ้นและสร้างผลิตภัณฑ์ที่มีความเป็นเลิศ

นักบัญชีอาวุโสท่านหนึ่ง ซึ่งเคยใช้เวลาถึง 180 ชั่วโมงในการเตรียมข้อมูลภาษีเมื่อปีที่แล้ว สามารถลดเวลาการทำงานลงเหลือเพียง 15 ชั่วโมงในปีนี้ เธอนำเวลาส่วนนั้นไปใช้ในการโทรหาลูกค้าทุกคน และอธิบายการยื่นภาษีให้พวกเขาเข้าใจทีละขั้นตอน ซึ่งเป็นระดับของบริการที่ใส่ใจอย่างใกล้ชิดซึ่งเมื่อหนึ่งปีก่อนยังไม่สามารถทำได้ เวลาที่เหลือนั้น เธอใช้ไปกับการรับลูกค้ารายใหม่และขยายไปสู่การนำเสนอบริการใหม่ๆ

ขณะนี้ทีมงานของเราได้นำโครงสร้างการออกแบบสามส่วนจากโครงการ Tax AI มาใช้เป็นแม่แบบในการสร้างเวิร์กโฟลว์สำหรับธุรกิจอื่นภายใต้ Thrive Holdings⁠(เปิดในหน้าต่างใหม่) ไม่ว่าจะเป็นงานด้านบัญชี เช่น การทำบัญชีและการตรวจสอบบัญชี หรือกระบวนการปฏิบัติงานอย่างระบบอัตโนมัติสำหรับแผนกช่วยเหลือด้านไอที ศักยภาพในวงกว้างของเอเจนต์ที่พัฒนาตัวเองได้คือความหวังที่เข้ามาพลิกโฉมการทำงานในทุกภาคส่วนและทุกอุตสาหกรรม เอเจนต์ที่ดีที่สุดได้รับการชี้นำโดยมนุษย์ให้เรียนรู้และพัฒนาให้มีความสามารถมากขึ้น น่าเชื่อถือมากขึ้น และมีคุณค่ามากขึ้นเมื่อเวลาผ่านไป

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับทีม OpenAI ที่ทำงานในโปรเจ็กต์นี้ ติดต่อเรา

ผู้เขียน

Aravind Srinivasan Samay Shamdasani Arthur Fernandes Araujo และJohn de Wasseige

อ่านต่อ

ดูทั้งหมด

ระบาดวิทยาของ Core Dump: การแก้ไขบั๊กที่ค้างคามานาน 18 ปี

วิศวกรรม30 มิ.ย. 2569

การสร้างแซนด์บ็อกซ์ที่มีความปลอดภัยและมีประสิทธิภาพเพื่อใช้งาน Codex บน Windows

วิศวกรรม13 พ.ค. 2569

ย้อนรอยที่มาของเหล่าก๊อบลิน

วิศวกรรม5 พ.ค. 2569