Негізгі мазмұнға өту
OpenAI

2026 ж. 27 мамыр

Инженерия

Codex-пен өзін-өзі жетілдіретін салық агенттерін құру

Техникалық құрам мүшелері: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)

Жүктелуде…

Thrive Holdings пен OpenAI маман тәжірибесін Codex-ке негізделген циклмен біріктіріп, Crete бухгалтерлері үшін Tax AI-ды қалай бірге әзірледі

Нақты әлемдегі жүйелер өндірісте зертханадағыдан өзгеше жұмыс істейді және енгізуге дейін болжау қиын тәсілдермен бұзылады. Командалар мұндай ақауларды көбіне іске қосылғаннан кейін анықтайды, содан соң шеткі жағдайларды тексеруге, көмексөздерді түзетуге және өндірістік кері байланысты өнімнің ұзақ мерзімді жақсартуларына айналдыруға апталар жұмсайды. Кері байланыс циклі қолмен орындалады және баяу, әрі ол инженер алға жылжытқанда ғана жақсарады. Бірақ бүгінде мұқият жобаланған бағалау инфрақұрылымы, мамандар мен нақты ортаға тікелей қолжетімділік және Codex-тің озық агенттік мүмкіндіктері арқылы өзін-өзі жетілдіретін агенттерді құруға болады.

Бұл жазбада біз осындай агентті құру үшін Codex-ті қалай пайдаланғанымызды талдаймыз. Соңғы алты айда OpenAI-дың клиент ортасында жұмыс істейтін инженерлері мен зерттеушілері Thrive Holdings инженерлерімен бірге Crete(жаңа терезеде ашылады)-тің 30-дан астам бухгалтерлік фирмалар желісімен қатар және солар үшін Tax AI-ды құрып, барған сайын күрделеніп жатқан салық декларацияларын дайындауға көмектесті. Әр ақауды инженерлер тауып, түзетеді деп сенудің орнына, Tax AI өндірістегі қолдануды автономды жақсартуды қуаттандыратын құрылымдалған сигналдарға айналдыру үшін Codex-ті пайдаланады.

Crete мамандары әр маусымда ондаған мың салық декларациясын дайындайды, бұл миллиондаған бастапқы құжаттармен жұмыс істеуді талап етеді. Орташа және жоғары күрделіліктегі декларациялар үшін тек деректерді енгізудің өзі бір декларацияға сегіз сағат алуы мүмкін, әрі оған ретсіз дереккөздер, алдыңғы жылғы құжаттар және қолмен шығарып алу мен есептеу жиі кіреді. Олар бізге салық маусымының ең қарбалас кезеңінде салық дайындау елеулі кедергі болғанын көрсетті.

Бұл мәселені шешу үшін Tax AI осы салық маусымында пилотқа қатысқан Crete фирмалары бойынша 7 000 салық декларациясын өңдеді. Жүйе 1040 және 1041 салық декларацияларын дайындаудың көп уақыт алатын процесінің едәуір бөлігін автоматтандырады, бірақ тиімділік өсімінен де әсерлісі — жүйенің өзі үш ай бұрын алғаш енгізілген нұсқадан өлшенетіндей жақсырақ.

Өлшенетін өзін-өзі жетілдіру

Tax AI жүйесінде мамандар бастапқы файлдарды клиентке тән кез келген ескертпелермен бірге жүктейді. Содан кейін Tax AI шолуға дайын, салық жүйесіне жіберілетін декларацияны жасайды. Ол мамандардың салық дайындауға кететін уақытының шамамен үштен бірін үнемдейді, декларация жобаларын 97%-ға дейінгі дәлдікпен жасайды және өткізу қабілетін шамамен 50%-ға арттырып, клиенттермен көбірек уақыт өткізуге мүмкіндік береді. 

Бұл жақсаруды Tax AI кейін түзетуді қажет етпей декларацияны қаншалықты дәл аяқтай алатынын түсіну арқылы сандық түрде бағалай аламыз. Біз дәлдікті декларациялардың қандай үлесі өрістердің 75%, 90% немесе 100% дұрыс толтырылуына жететінін тексеру арқылы өлшейміз. Іске қосылған сәтте декларациялардың тек төрттен бірі ғана өрістердің 75% дұрыс толтырылуына жетті, бірақ алты апта ішінде бұл көрсеткішке 86% жетті. Жүйе өрістердің 90% және 100% дұрыс толтырылуы деңгейлерінде одан да жылдам өсім көрсетті. Бұл шектер бізге әртүрлі декларациялар үшін маманның қаншалықты кейінгі араласуы әлі қажет екенін практикалық тұрғыдан көрсетеді. 

Бастапқыда Tax AI W-2 және 1099 сияқты қарапайымдау жұмыстарды атқарды. Маусым жалғасқан сайын ол K-1-дер, кестелер және күрделірек шеткі жағдайлары бар неғұрлым күрделі декларацияларға көшті. Әр жаңа мүмкіндік алдыңғысынан көбірек уақыт үнемдеді, өйткені ол мойнына алған тапсырмалар қиынырақ әрі қолмен орындауға көбірек уақыт алатын еді. Біз бүгін де үздіксіз ілгерілеуді көріп отырмыз.

Келесіде командаларымыз Tax AI-ды өзін-өзі жетілдіретін ету үшін үш маңызды тірекке сүйеніп қалай бірге жобалағанын қарастырамыз: 1) сарапшы маманның кері байланысы, 2) өндірістік іздер (кірістерден соңғы нәтижеге дейінгі құрылымдалған тарих), және 3) үздіксіз әрі жылдамырақ өнім әзірлеуді қамтамасыз етуге арналған бейімделген бағалауларға негізделген Codex циклі. Біздің тәжірибеміз жүйенің жалпы сапасын және оның ішіндегі деректер ағынын қалыптастыруда маман тәжірибесі шешуші болатын басқа жасаушыларға пайдалы болады деп үміттенеміз.

Tax AI күрделірек декларацияларға кеңейген сайын, бағаланған қайтарымдардың 75%, 90% және толық аяқталу деңгейіне жету үлесі салық маусымы бойы өсе берді.

Мәселе

Біз салық дайындаудың қиынырақ бөліктеріне (K-1-дер, жалға берілетін жылжымайтын мүлік кестелері және мәндері бірнеше бастапқы файл бойынша сәйкестендірілуі тиіс салық нысандары) кіріскенде, шынайы қиындық өнімнің күрделі өндірістік ақауларды көрінетін, түсінікті және іске жарамды ете алуында екені айқын болды.

Өнімнің алғашқы күндерінде түзетудің көбі қолмен жасалды. Мамандар жүйе қателерін түзете алатын, бірақ өнім толық контексті түсірмейтін: тапсыру алдындағы өзгертілген мән шынайы шығарып алу қатесін, сәйкестендіру мәселесін, өнім қолдауының жоқтығын немесе күтілетін жұмыс ағыны шуын көрсетуі мүмкін еді. Бұл жағдайларды ажырату үшін әлі де инженерлік топтың кейінгі араласуы қажет болды. Инженерлер код жазу агенттерін қолдана алар еді, бірақ жүйе әлі жақсарту циклі ішінде AI-ды мағыналы пайдалануға лайықталып жасалмаған еді. Бізде бағындыруға тиіс дұрыс белесті анықтайтын сигнал болмады.

Біздің үш бөлікті цикл тәсіліміз

Сол бізді жүйені үш тірекке сүйеніп жобалауға алып келді:

  1. Мамандарға жақын болу: Жұмысты істеп жүрген адамдар өнімнің нені үйренетінін бағыттауы керек. Олардың түйсігі мен түсінігі қай қателер маңызды екенін ашады және жұмыс ағынының келесі қай бөліктеріне назар аудару керегін анықтауға көмектеседі.
  2. Өнімді өндіріс дәлел жасайтындай етіп құру: Өнім тек кірістер мен нәтижелерді ғана емес; бастапқы материалдан, шығарылған өрістер мен олардың шығу тегінен, кейінгі жіберілім мен сарапшы түзетуіне дейінгі толық жолды түсіруі керек.
  3. Codex-ке негізделген жақсарту циклін құру: Өндірістік мәселелер көрінетін және құрылымдалған болған соң, олар қорытындыларға, бейімделген бағалауларға және шектелген инженерлік тапсырмаларға айнала алады. Содан кейін Codex зерттеуге, өзгерістер ұсынуға, оларды нысаналы және регрессиялық бағалауларға қарсы тексеруге және өнімді толық қолмен қайталау цикліне қарағанда жылдамырақ ілгерілетуге көмектесе алады. 

Төмендегі жалға берілетін мүлік мысалы бұл циклдің іс жүзінде қалай жұмыс істейтінін көрсетеді: маман түзетуі қалай құрылымдалған қорытындыға, кейін бағалау нысанасына, ақырында Codex-ке шектелген инженерлік тапсырмаға айналатынын кезең-кезеңімен түсіндіреді.

Жалға берілетін мүлік мысалы

Жалға берілетін мүліктен түсетін табыс жеке салық декларациясының Schedule E бөлімінде көрсетіледі. Инженерлік тұрғыдан оны шығарып алу міндетін сипаттау оңай, бірақ сапалы орындау қиын. Жүйе ретсіз бастапқы материалды (қолмен жазылған жазбалар, электрондық хаттар, кестелер және клиенттің басқа файлдары) оқып, жүйе салық қозғалтқышына сенімді түрде сәйкестендіре алатын жалға берілетін мүлік өрістерін шығарып алуы және маман нәтижені бекіте не түзете алатындай жеткілікті дәлелді сақтауы керек. Төмендегі ықшамдалған мысал бұл бастапқы файлдар мен шығарылған нәтижелердің қандай болуы мүмкін екенін көрсетеді.

«»

Жалға берілетін мүлікке қатысты бастапқы деректер пакеті кейінгі салық қозғалтқышы ұғымдарына сәйкестендірілмес бұрын, сілтемеленген өрістерге қалыпқа келтіріледі.

1. Маманның түзетуі ақауды ашады

Агент болжаған мән мен тапсырылған салық декларациясындағы нақты мән арасындағы айырма шынымен шығарып алу қатесін көрсетуі мүмкін, бірақ ол сондай-ақ маманның таңдауы, салық қозғалтқышындағы алдыңғы жылғы декларациядан көшірілген мән немесе декларациялау жұмыс ағынының басқа жерінде енгізілген не өзгертілген мән болуы мүмкін. Қай әрекеттер маман түзетуін қажет еткенін немесе жіберуді бөгегенін анықтай алуымыз үшін, мамандар бізге мұндай жағдайларды ажыратуға көмектесті.

Бұл түзетулерді егжей-тегжейлі көре алғандықтан, біз шолу процесін сәтсіздіктен кейінгі соңғы қадамнан үздіксіз оқу цикліне айналдырдық. Біз жұмыс ағынын сарапшылардың әрекеттерін құрылымдалған дерек ретінде түсіретіндей етіп жобаладық. Енді әрбір араласу Tax AI не ұсынғанын, маман нені өзгерткенін және ақырында тапсырылған декларацияға не енгенін дәл жазу арқылы өнімнің жақсарту цикліне үлес қосады.

2. Өнім іздері түзетулерді бағалауларға айналдырады

Жалға берілетін мүлік сияқты күрделі жұмыс ағыны үшін жүйе бастапқы файлдар мен тапсырылған декларация арасында не болатынын сақтауы керек. Осы жолда құжаттар реттеледі, бөлінеді және жіктеледі; жалға берілетін мүлік өрістері бастапқы материалға сілтемелермен бірге шығарылады; бұл мәндер салық қозғалтқышына сәйкестендіріледі; ал мамандар оларды тапсыру алдында әлі де түзете алады. Осындай өнім деңгейіндегі іздер ақаудың қай жерде болғанын зерттеуге мүмкіндік береді. Маман түзетулерін пайдалы бағалау нысаналарына айналдыру үшін жүйе оларды үш қадаммен өңдейді:

  • Айырманы тіркеу: Tax AI нәтижесі тапсырылған декларациямен салыстырылып, күтілетін мәнді, болжанған мәнді және айырманың іске жарамды болып көрінетін-көрінбейтінін қамтитын өріс деңгейіндегі шолу жолдары жасалады.
  • Байланысты ақауларды топтау: Ұқсас шолу жолдары өнімнің қайталанатын ақауларын күтілетін жұмыс ағыны шуынан ажырату үшін топтастырылады. Мысалы, мамандардың қайталанатын түзетулері Tax AI-дың «нарықтық жалдау күндері» өрістерін жиі жіберіп алатынын, «басқа шығындарды» қате өңдейтінін немесе бір бастапқы пакеттегі бірнеше жалға берілетін мүлікті шатастыратынын көрсетуі мүмкін.
  • Қайталанатын үлгілерді бағалау нысаналарына айналдыру: Қаралып, өлшенгеннен кейін қайталанатын қорытындылар Codex жақсарта алатын айқын бағалау нысаналарына айналады.
«»

Жалға берілетін мүлікке қатысты шолу жолдары өнімнің қайталанатын ақауларын күтілетін шудан бөліп, іске жарамды жағдайларды Codex жақсартуға тиіс нақты бағалау нысаналарына айналдырады.

3. Қорытынды Codex үшін бағындыратын белеске айналады

Үшінші тірек — осы жаңа бағалаулар бойынша әрекет ете алатын инженерлік цикл құру. Дәл осы жерде Codex негізгі рөлге шығады.

Айталық, біздің бағалау құбырымыз Tax AI-дың «әділ жалға беру күндері» өрісін тұрақты түрде жіберіп алатынын, ал мамандар оны сенімді түрде толтыратынын белгіледі. Бұл қорытынды өкілдік бастапқы пакеттері мен күтілетін нәтижелері бар нысаналы бағалау жиынтығына әлдеқашан оралғандықтан, Codex түпкі себепті өнім қаңқасының ішінде тікелей зерттей алады.

Codex тек сапасы төмен соңғы нәтижемен ғана жұмыс істемейді. Ол ізді, бағалауды, репозиторийді және дағдыларды бірге қарайды:

  • Құбырды зерттеу: Мәселенің қолдау көрсетілмейтін өріс, жіберіп алынған шығарып алу үлгісі, дереккөзді таңдау мәселесі, сәйкестендіргіш олқылығы немесе бағалаушы мәселесі екенін анықтау үшін бастапқы пакеттерді, шығарып алу схемаларын, сәйкестендіргіштің жұмысын және код жолдарын тексеру.
  • Нысаналы түзетулерді енгізу: Шығарып алу схемасын кеңейту, жалға берілетін мүлік құжаттары үшін дереккөз таңдауды жақсарту, салық қозғалтқышы сәйкестендіргіштің жаңарту немесе күтілетін жұмыс ағыны шуы ақау ретінде есептеліп жатса, бағалаушыны нақтылау.
  • Тексеру және ұсыну: Нысаналы бағалауды қайта іске қосу, кеңірек регрессия жиынтықтарын жүргізу және инженерлік шолу үшін ықтимал pull request ұсыну.
  • Циклді жабу: Маманның қайталанатын түзетуін өлшенетін инженерлік тапсырмаға айналдыру. Егер дәлел екіұшты болса немесе қауіпсіз автоматтандыруға келмесе, жағдай цикл арқылы күштеп өткізілмей, өнім тобына қайта жіберіледі.
«»

Басынан аяғына дейінгі өзін-өзі жетілдіру циклі: өндірістік іздер өріс деңгейіндегі қайталанатын түзетулерді көрсетеді, олар Codex ізбен, бағалаулармен, репозиториймен және дағдылармен бірге тексере алатын сәтсіздік сигналдарына айналады. Іске жарамды үлгілер шектелген бағалауларға және өнімдегі ықтимал өзгерістерге айналады; екіұшты жағдайлар қарау үшін инженерлерге қайта жіберіледі. Жеткізілген әрбір жақсарту келесі цикл үшін жаңа өндірістік дәлел жасайды.

Бұл циклді құру үшін Codex-ті қалай қолдануға болады

Жалға берілетін мүлік мысалы кеңірек қайта пайдаланылатын үлгінің айқын көрінісі: агент мүмкіндіктерін жақсарту үшін өндірістік артефактілер мен іздерді пайдалану. Өндірістік деректерден қаралған қорытындылар, бастапқы іздер, күтілетін салық қозғалтқышы нәтижесі, тиісті код мысалдары және бағалау пәрмендері кіріс жиыны ретінде берілгенде, Codex апталар мен айлар ішінде өнімділік пен дәлдікті едәуір жақсарта алады. Бұл біздің harness engineering және Symphony туралы жұмысымызда сипатталған қағидаларға сүйенеді; онда тапсырмаларды Codex үшін түсінікті ету, шектелген контекст пен құралдар беру және тексеру мен адам шолуын ортаның бір бөлігі ретінде сақтау жолдары түсіндіріледі. 

Бұл дәлел автоматты түрде Codex тапсырмасына айналмайды. Маман түзетуі шығарып алу қатесін, сәйкестендіру мәселесін, өнімнің қолдау көрсетпейтін мінез-құлқын, салықтық пайымды немесе күтілетін жұмыс ағыны шуын көрсетуі мүмкін. Қайталанатын айырмалар қаралып, іске жарамды қорытындыға топтастырылғаннан кейін ғана жүйе оларды табыс шарты айқын шектелген тапсырмаға айналдырады.

Біз бұл автоматтандыруды өнімнің шектелген қабатына қолданамыз. Бұл қабат шығарып алуды орындайды және бастапқы құжаттарды салық жұмыс ағындарына сәйкестендіреді. Инженерлер архитектура, өнім шешімдері және жеткізу үшін жауапты болып қалады. Мамандар жақсарту циклін өздері онсыз да істеп жүрген жұмыс арқылы бағыттайды: шығарылған мәндерді түзету, декларацияларды шолу және соңғы тапсыруларды бекіту.

Codex үшін нәтиже бұлыңғыр ескерту емес, дәлелдері, өңделетін өнім беттері және айқын тексеру қақпалары бар шектелген инженерлік тапсырма болады. Жалға берілетін мүлікке қатысты өкілдік тапсырманың контексін былайша түйіндеуге болады:

Қарапайым мәтін

1
/candidates/FIND-RENTAL-0042/
2
3
├── repo/ [1]
4
│ └── branch: codex/fix-rental-0042
5
│ │
6
│ ├── AGENTS.md
7
│ │
8
│ ├── tasks/FIND-RENTAL-0042/
9
│ │ ├── task.yaml
10
│ │ ├── EXEC_PLAN.md
11
│ │ └── RESULTS.md
12
│ │
13
│ ├── app/tax-ai/rental-income/ [2]
14
│ │ ├── agent.ts
15
│ │ ├── schema.ts
16
│ │ ├── provenance.ts
17
│ │ └── mapper.ts
18
│ │
19
│ ├── evals/ [3]
20
│ │ ├── datasets/fair-rental-days.yaml
21
│ │ ├── suites/fair-rental-days.yaml
22
│ │ ├── suites/rental-income-regression.yaml
23
│ │ └── graders/rental-income.yaml
24
│ │
25
│ ├── skills/ [4]
26
│ │ ├── eval-runner/
27
│ │ └── tax-field-docs/
28
│ │
29
│ └── docs/ [4]
30
│ ├── architecture/
31
│ └── task-environments/
32
33
└── scoped-tools/ [5]
34
├── production-trace
35
├── source-artifacts
36
└── tax-engine-docs

Шектелген Codex тапсырма ортасы жазылатын worktree-ді [1] тек оқуға арналған өндірістік контекстен [5] бөледі. Worktree ішінде Codex тексере немесе өзгерте алатын шектелген өнім беті [2], табысты анықтайтын нысаналы және регрессиялық бағалаулар [3], сондай-ақ тапсырманы қалай орындау және алдыңғы шешімдерді сақтау керегін кодтайтын қайта пайдаланылатын дағдылар/құжаттар [4] бар. Тек оқуға арналған контекст өндірістік ізді, бастапқы құжаттарды, Tax AI болжамын, аяқталған декларацияны және салық қозғалтқышы өрістерінің құжаттамасын береді, сондықтан Codex негізгі дәлелді өзгертпей-ақ ақауды зерттей алады.

Жаңа салаларға кеңею

Дәл осы цикл жалға берілетін мүліктен тыс салаларда да қолданылады.. Жалға берілетін мүлік бойынша 90% дәлдік пен толықтыққа жету үшін шамамен алты апта және елеулі инженерлік бақылау қажет болды, бірақ сол жұмыс қайта пайдаланылатын абстракциялар, шолу артефактілері, бағалау келісімдері және іске асыру үлгілерін беріп, Schedule C және Schedule A сияқты ұқсас күрделі кестелерді қолдауды жеңілдетті.

Tax AI өзін-өзі жетілдіретін агенттерді құру жолын көрсетеді. Мамандар қызметті көрсету арқылы жоғары құнды кері байланыс сигналдарын жасайды. Өнім жұмыс ағындары бұл сигналдарды құрылымдалған дәлел ретінде сақтайды. Бағалаумен бекітілген инженерлік жүйелер жақсартуларды өндіріске жетпей тұрып тексереді, ал агентке негізделген цикл жүйені үздіксіз өзін-өзі жетілдіру ағынында ұстайды. 

Thrive Holdings құрылымы бізге бұл ортаны нақты салаларда қайталауға мүмкіндік береді. Holdings әрі иесі, әрі оператор болғандықтан, біздің біріккен инженерлік топтарымыз Crete сияқты бизнестердің ішінен мамандармен және өндірістік деректермен жеткізуші ретінде емес, серіктес ретінде тікелей жұмыс істей алады. Бұл технология, өнім және қызметтің бәрі бізге жылдамырақ қозғалып, айрықша өнімдер құруға көмектесу үшін бір шаңырақ астында екенін білдіреді.

Өткен жылы салық дайындауға 180 сағат жұмсаған бір аға бухгалтер биыл оған небәрі 15 сағат жұмсады. Ол бұл уақыттың бір бөлігін әрбір клиентіне қоңырау шалып, олардың декларацияларын бірге қарап шығуға арнады — мұндай жоғары деңгейлі жеке қызмет бір жыл бұрын мүмкін емес еді. Қалған уақытын ол жаңа клиенттер қабылдауға және жаңа қызмет ұсыныстарын кеңейтуге жұмсады.

Қазір біздің командалар Tax AI-дағы дәл осы үш бөлікті жобаны Thrive Holdings(жаңа терезеде ашылады) аясындағы басқа салаларда жұмыс ағындарын құрудың үлгісі ретінде қолдануда; бухгалтерлік есеп жүргізу мен аудит сияқты есептік жұмыс ағындарында және IT help desk автоматтандыруы сияқты операциялық жұмыс ағындарында. Салалар мен индустриялар бойынша өзін-өзі жетілдіретін агенттердің кең әлеуеті айқын болып отыр. Ең үздік агенттер уақыт өте келе қабілетті, сенімді және құндырақ болуды үйренуі үшін адамдардың бағыттауымен дамиды.

Осы жобаға қатысқан OpenAI командасы туралы көбірек білу үшін хабарласыңыз.

Автор

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo, John de Wasseige