Nibnu aġenti tat-taxxa li jtejbu lilhom infushom b’Codex
Minn Membri tal-Istaff Tekniku: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)
Kif Thrive Holdings u OpenAI żviluppaw flimkien Tax AI għal accountants ta’ Crete billi għaqqdu l-għarfien tal-prattikanti ma’ ċiklu mmexxi minn Codex
Sistemi tad-dinja reali jġibu ruħhom b’mod differenti fil-produzzjoni milli f’laboratorju, u jfallu b’modi li diffiċli tantiċipahom qabel id-deployment. It-timijiet spiss jiskopru dawk il-fallimenti wara t-tnedija, imbagħad iqattgħu ġimgħat jispezzjonaw każijiet fil-marġni, jaġġustaw prompts, u jittraduċu feedback tal-produzzjoni f’titjib dejjiemi tal-prodott. Iċ-ċiklu tal-feedback huwa manwali u bil-mod, u jitjieb biss meta inġinier javvanzah. Iżda llum, b’infrastruttura ta’ eval maħsuba sew, aċċess dirett għall-prattikanti u ambjenti tad-dinja reali, u l-kapaċitajiet aġentiċi fruntiera ta’ Codex, tista’ tibni aġenti li jtejbu lilhom infushom.
F’din il-kariga, se nispjegaw kif użajna Codex biex nibnu dan it-tip ta’ aġent. Matul l-aħħar sitt xhur, inġiniera u riċerkaturi ta’ OpenAI deployed fuq quddiem flimkien mal-inġiniera ta’ Thrive Holdings ikkollaboraw biex jibnu Tax AI flimkien ma’ u għal netwerk ta’ 30+ ditta tal-kontabilità ta’ Crete(jinfetaħ f’tieqa ġdida) biex jgħinu fil-preparazzjoni ta’ returns tat-taxxa dejjem aktar kumplessi. Minflok ma tiddependi fuq l-inġiniera biex isibu u jsewwu kull falliment, Tax AI tuża Codex biex tbiddel l-użu fil-produzzjoni f’sinjali strutturati li jsaħħu titjib awtonomu.
Il-prattikanti ta’ Crete jippreparaw għexieren ta’ eluf ta’ returns tat-taxxa kull staġun, li jeħtieġ li jaħdmu fuq miljuni ta’ dokumenti sottostanti. Għal preżentazzjonijiet ta’ kumplessità medja sa kbira, id-dħul tad-data waħdu jista’ jieħu tmien sigħat għal kull ritorn, ħafna drabi jinvolvi sorsi ta’ data imħawdin, dokumenti tas-sena ta’ qabel, u estrazzjoni u kalkolu manwali. Huma indikawlna l-preparazzjoni tat-taxxa bħala ostaklu sinifikanti matul l-aktar fażi impenjattiva tal-istaġun tat-taxxa.
Biex insolvu din il-problema, Tax AI pproċessat 7,000 returns tat-taxxa madwar id-ditti ta’ Crete li pparteċipaw fil-pilota f’dan l-istaġun tat-taxxa. Is-sistema tawtomatizza ħafna mill-proċess li jieħu ħafna ħin tal-preparazzjoni ta’ returns tat-taxxa 1040 u 1041, iżda saħansitra aktar konvinċenti mill-qligħ fl-effiċjenza huwa li s-sistema nnifisha hija b’mod li jista’ jitkejjel aħjar mill-verżjoni li ġiet deployed għall-ewwel darba tliet xhur ilu.
F’Tax AI, il-prattikanti jtellgħu fajls tas-sors flimkien ma’ kwalunkwe noti speċifiċi għall-klijent. Tax AI imbagħad toħloq sottomissjoni għall-magna tat-taxxa, lesta għar-reviżjoni. Tiffrankalhom madwar terz tal-ħin tagħhom fuq il-preparazzjoni tat-taxxa, tabbozza returns bi preċiżjoni sa 97%, u żżid it-throughput b’madwar 50%, u toħloq aktar spazju biex iqattgħu ħin mal-klijenti.
Nistgħu nikkwantifikaw dan it-titjib billi nifhmu kemm Tax AI tista’ tlesti ritorn b’mod preċiż mingħajr ma jkollha bżonn korrezzjoni aktar tard. Aħna nkejlu l-preċiżjoni billi niċċekkjaw liema sehem ta’ returns jilħaq 75%, 90%, jew 100% ta’ tlestija korretta tal-kampijiet. Fit-tnedija, kwart biss tar-returns kienu f’75% ta’ tlestija korretta tal-kampijiet, iżda fi żmien sitt ġimgħat, 86% laħqu dak il-livell. Is-sistema wriet tkabbir saħansitra aktar mgħaġġel fil-livelli ta’ 90% u 100% ta’ tlestija korretta tal-kampijiet. Dawn il-limiti jagħtuna veduta prattika ta’ kemm segwitu minn prattikant għadhom jeħtieġu returns differenti.
Fil-bidu, Tax AI kienet tieħu ħsieb xogħol aktar sempliċi, bħal W-2s u 1099s. Hekk kif għadda l-istaġun, marret għal returns aktar kumplessi b’K-1s, skedi, u każijiet fil-marġni aktar diffiċli. Kull kapaċità ġdida ffrankat aktar ħin għal kull ritorn minn ta’ qabilha għax il-kompiti li ħadet fuqha kienu aktar diffiċli u jieħdu aktar ħin biex isiru manwalment. Illum għadna naraw progress kontinwu.
Issa, se ngħaddu minn kif it-timijiet tagħna kkoinġinerjaw Tax AI biex ittejjeb lilha nnifisha billi bbażajna fuq tliet pilastri kritiċi: 1) feedback ta’ prattikanti esperti, 2) traċċi tal-produzzjoni (storja strutturata mill-inputs sal-output finali), u 3) ċiklu ta’ iterazzjoni mmexxi minn Codex ibbażat fuq evals imfassla apposta biex jippermetti żvilupp kontinwu u aktar mgħaġġel tal-prodott. Nittamaw li l-esperjenza tagħna tkun utli għal bennejja oħra f’oqsma fejn l-għarfien tal-prattikanti huwa essenzjali biex jifforma l-kwalità tas-sistema ġenerali u tad-data li tgħaddi minnha.
Hekk kif Tax AI espandiet għal preżentazzjonijiet aktar kumplessi, is-sehem ta’ returns ivvalutati li laħqu 75%, 90% u tlestija sħiħa kompla jiżdied matul l-istaġun tat-taxxa.
Hekk kif dħalna f’partijiet aktar diffiċli tal-preparazzjoni tat-taxxa (K-1s, skedi ta’ proprjetà immobbli għall-kiri, u formoli tat-taxxa fejn il-valuri kellhom jiġu rrikonċiljati fuq diversi fajls tas-sors), sar ovvju li l-isfida vera kienet jekk il-prodott setax jagħmel fallimenti kumplessi tal-produzzjoni viżibbli, mifhuma, u azzjonabbli.
Fil-bidu tal-prodott, il-biċċa l-kbira tal-korrezzjoni kienet manwali. Il-prattikanti setgħu jikkoreġu żbalji tas-sistema, iżda l-prodott ma kienx jaqbad il-kuntest kollu: valur mibdul qabel il-preżentazzjoni seta’ jirrifletti nuqqas veru fl-estrazzjoni, problema ta’ mapping, nuqqas ta’ appoġġ fil-prodott, jew storbju mistenni tal-fluss tax-xogħol. L-għażla bejn dawn il-każijiet xorta kienet teħtieġ segwitu mit-tim tal-inġinerija. L-inġiniera setgħu jużaw aġenti tal-kodifikazzjoni, iżda s-sistema kienet għadha ma ġietx iddisinjata biex tuża l-AI b’mod sinifikanti ġewwa ċiklu ta’ titjib. Ma kellniex is-sinjal biex nidentifikaw l-għolja t-tajba x’nitilgħu.
Dan wassalna biex niddisinjaw is-sistema madwar tliet pilastri:
- Ibqa’ qrib il-prattikanti: In-nies li jagħmlu x-xogħol għandhom imexxu dak li jitgħallem il-prodott. L-intuwizzjoni u l-fehim tagħhom juru liema żbalji huma importanti u jgħinu jinfurmaw liema partijiet tal-fluss tax-xogħol jiswew l-aktar attenzjoni wara.
- Ibni l-prodott biex il-produzzjoni toħloq evidenza: Il-prodott irid jaqbad aktar minn sempliċement inputs u outputs; jeħtieġ jaqbad il-mogħdija sħiħa mill-materjal tas-sors, għall-kampijiet estratti u l-provenjenza, sas-sottomissjoni downstream u l-korrezzjoni tal-espert.
- Oħloq ċiklu ta’ titjib immexxi minn Codex: Ladarba l-kwistjonijiet tal-produzzjoni jkunu viżibbli u strutturati, jistgħu jsiru sejbiet, evals imfassla apposta, u kompiti ta’ inġinerija delimitati. Codex imbagħad jista’ jgħin jinvestiga, jipproponi bidliet, jivvalidahom kontra evals immirati u ta’ regressjoni, u jmexxi l-prodott ’il quddiem aktar malajr minn ċiklu ta’ iterazzjoni purament manwali.
L-eżempju tal-proprjetajiet għall-kiri hawn taħt juri kif dak iċ-ċiklu jaħdem fil-prattika, u jmexxik minn kif korrezzjoni minn prattikant issir sejba strutturata, imbagħad mira ta’ eval, u finalment kompitu ta’ inġinerija delimitat għal Codex.
Id-dħul minn proprjetà għall-kiri jiġi rrappurtat fuq Schedule E ta’ ritorn tat-taxxa individwali. Minn perspettiva ta’ inġinerija, il-kompitu tal-estrazzjoni tiegħu huwa sempliċi biex jiġi deskritt iżda diffiċli biex isir tajjeb. Is-sistema trid taqra materjal tas-sors imħawwad (noti miktuba bl-idejn, emails, spreadsheets, u fajls oħra tal-klijenti), tiġbed il-kampijiet tal-proprjetà għall-kiri li s-sistema tista’ timmappja b’kunfidenza mal-magna tat-taxxa, u żżomm biżżejjed evidenza biex prattikant ikun jista’ japprova jew jikkoreġi r-riżultat. L-eżempju ssimplifikat hawn taħt juri kif jistgħu jidhru dawk il-fajls tas-sors u l-outputs estratti.
Pakkett tas-sors ta’ proprjetà għall-kiri jiġi nnormalizzat f’kampijiet iċċitati qabel ma dawn jiġu mmappjati għal kunċetti downstream tal-magna tat-taxxa.
Differenza bejn il-valur imbassar mill-aġent u l-valur attwali mir-ritorn tat-taxxa ppreżentat tista’ tirrifletti nuqqas veru fl-estrazzjoni, iżda tista’ tkun ukoll preferenza tal-prattikant, valur miġjub ’il quddiem minn ritorn tas-sena ta’ qabel fil-magna tat-taxxa, jew valur introdott jew mibdul x’imkien ieħor fil-fluss tax-xogħol tal-preżentazzjoni. Il-prattikanti għenuna niddistingwu dawn il-każijiet biex inkunu nistgħu nidentifikaw liema azzjonijiet kienu jeħtieġu korrezzjoni minn prattikant jew kienu jimblukkaw sottomissjoni.
Minħabba li stajna naraw dawn il-korrezzjonijiet fid-dettall, biddilna l-proċess ta’ reviżjoni minn pass finali wara l-falliment għal ċiklu kontinwu ta’ tagħlim. Iddisinjajna l-fluss tax-xogħol biex jaqbad l-azzjonijiet tal-esperti bħala data strutturata. Issa, kull intervent idaħħal fiċ-ċiklu ta’ titjib tal-prodott billi jirreġistra eżatt x’ipproponiet Tax AI, x’biddel il-prattikant, u x’fl-aħħar daħal fir-ritorn ippreżentat.
Għal fluss tax-xogħol kumpless bħall-proprjetajiet għall-kiri, is-sistema trid iżżomm dak li jiġri bejn il-fajls tas-sors u r-ritorn ippreżentat. Tul dik it-triq, id-dokumenti jiġu organizzati, maqsuma u kklassifikati; il-kampijiet tal-proprjetà għall-kiri jiġu estratti b’ċitazzjonijiet lura għall-materjal tas-sors; dawk il-valuri jiġu mmappjati fil-magna tat-taxxa; u l-prattikanti xorta jistgħu jikkoreġuhom qabel il-preżentazzjoni. Dawk it-traces fil-livell tal-prodott jagħmluha possibbli li jiġi investigat fejn seħħ il-falliment. Biex il-korrezzjonijiet tal-prattikanti jinbidlu f’miri ta’ evalwazzjoni utli, is-sistema tipproċessahom fi tliet passi:
- Aqbad id-differenza: L-output ta’ Tax AI jitqabbel mar-ritorn ippreżentat biex jipproduċi ringieli ta’ reviżjoni fil-livell tal-kamp li jaqbdu l-valur mistenni, il-valur imbassar, u jekk id-differenza tidhirx azzjonabbli.
- Iġbor fallimenti relatati: Ringieli ta’ reviżjoni simili jinġabru flimkien biex jisseparaw fallimenti rikorrenti tal-prodott minn storbju mistenni tal-fluss tax-xogħol. Pereżempju, korrezzjonijiet ripetuti minn prattikanti jistgħu juru li Tax AI spiss titlef kampijiet ta’ “fair rental days”, timmaniġġja ħażin “other expenses”, jew tħawwad bejn proprjetajiet multipli għall-kiri fl-istess pakkett tas-sors.
- Ibdel xejriet ripetuti f’miri ta’ eval: Ladarba jiġu riveduti u mkejla, sejbiet ripetuti jsiru miri ċari ta’ eval għal Codex biex itejjeb.
Ir-ringieli tar-reviżjoni tal-proprjetà għall-kiri jisseparaw fallimenti rikorrenti tal-prodott minn storbju mistenni, imbagħad ibiddlu l-każijiet azzjonabbli f’miri ta’ evalwazzjoni li jagħtu lil Codex għolja x’jitla’.
It-tielet pilastru huwa l-ħolqien ta’ ċiklu ta’ inġinerija kapaċi jaġixxi fuq dawn l-evals ġodda. Hawnhekk Codex isir ċentrali.
Ejja nassumu li l-pipeline tal-eval tagħna jindika li Tax AI b’mod konsistenti titlef il-kamp "fair rental days", filwaqt li l-prattikanti jimlewh b’mod affidabbli. Minħabba li din is-sejba diġà ġiet ippakkjata f’sett ta’ eval immirat, b’pakketti tas-sors rappreżentattivi u outputs mistennija, Codex jista’ jinvestiga l-kawża ewlenija direttament fi ħdan l-istruttura tal-prodott.
Codex mhux qed jaħdem biss b’output finali taħt il-livell mixtieq. Huwa jispezzjona t-trace, l-eval, ir-repożitorju u s-skills flimkien:
- Investiga l-pipeline: Spezzjona pakketti tas-sors, skemi ta’ estrazzjoni, l-imġiba tal-mapper, u mogħdijiet tal-kodiċi biex tiddetermina jekk il-kwistjoni hijiex kamp mhux appoġġjat, xejra ta’ estrazzjoni mitlufa, problema fl-għażla tas-sors, lakuna fil-mapper, jew kwistjoni tal-grader.
- Implimenta tiswijiet immirati: Estendi l-iskema tal-estrazzjoni, ittejjeb l-għażla tas-sors għal dokumenti ta’ proprjetà għall-kiri, aġġorna l-mapper tal-magna tat-taxxa, jew irfina l-grader jekk storbju mistenni tal-fluss tax-xogħol qed jingħadd bħala falliment.
- Ivvalida u pproponi: Erġa’ ħaddem l-eval immirat, ħaddem suites usa’ ta’ regressjoni, u uri talba ta' pull kandidata għar-reviżjoni tal-inġinerija.
- Agħlaq iċ-ċiklu: Ibdel korrezzjoni rikorrenti minn prattikant f’kompitu ta’ inġinerija li jista’ jitkejjel. Jekk l-evidenza tkun ambigwa jew ma tistax tiġi awtomatizzata b’mod sigur, il-każ jintbagħat lura lit-tim tal-prodott minflok ma jiġi mġiegħel jgħaddi miċ-ċiklu.
Iċ-ċiklu sħiħ ta’ titjib awtonomu: traces tal-produzzjoni juru korrezzjonijiet ripetuti fil-livell tal-kamp, li jsiru sinjali ta’ falliment li Codex jista’ jispezzjona flimkien mat-trace, evals, repożitorju u skills. Xejriet azzjonabbli jsiru evals limitati u bidliet kandidati fil-prodott; każijiet ambigwi jintbagħtu lura lill-inġiniera għar-reviżjoni. Kull titjib imwassal joħloq evidenza ġdida tal-produzzjoni għaċ-ċiklu li jmiss.
L-eżempju tal-proprjetà għall-kiri huwa emblematiku ta’ xejra usa’ u li tista’ terġa’ tintuża: l-użu ta’ artifacts u traces tal-produzzjoni biex jitjiebu l-kapaċitajiet ta’ aġent. Meta jingħataw sejbiet riveduti minn data tal-produzzjoni, traces tas-sors, output mistenni tal-magna tat-taxxa, eżempji rilevanti ta’ kodiċi, u kmandi ta’ eval bħala sett ta’ inputs, Codex jista’ jtejjeb b’mod sostanzjali l-prestazzjoni u l-preċiżjoni fuq ġimgħat u xhur. Dan jibni fuq il-prinċipji deskritti fix-xogħol tagħna dwar harness engineering u Symphony, li jispjegaw kif tagħmel il-kompiti leġibbli għal Codex, tipprovdi kuntest u għodod delimitati, u żżomm il-validazzjoni u r-reviżjoni umana bħala parti mill-ambjent.
Dik l-evidenza ma ssirx kompitu għal Codex awtomatikament. Korrezzjoni minn prattikant tista’ tirrifletti nuqqas fl-estrazzjoni, kwistjoni ta’ mapping, imġiba tal-prodott mhux appoġġjata, ġudizzju tat-taxxa, jew storbju mistenni tal-fluss tax-xogħol. Biss wara li differenzi ripetuti jkunu ġew riveduti u miġbura f’sejba azzjonabbli, is-sistema tibdilhom f’kompitu delimitat b’kundizzjoni ċara ta’ suċċess.
Aħna napplikaw din l-awtomazzjoni għal saff delimitat tal-prodott. Dan is-saff iwettaq l-estrazzjoni u jimmappja dokumenti tas-sors fi flussi tax-xogħol tat-taxxa. L-inġiniera jibqgħu responsabbli għall-arkitettura, id-deċiżjonijiet tal-prodott, u r-rilaxx. Il-prattikanti jmexxu ċ-ċiklu ta’ titjib permezz tax-xogħol li diġà jagħmlu: jikkoreġu valuri estratti, jirrevedu returns, u japprovaw il-preżentazzjonijiet finali.
Għal Codex, ir-riżultat mhuwiex twissija vaga iżda kompitu ta’ inġinerija delimitat b’evidenza, uċuħ tal-prodott editjabbli, u gradi espliċiti ta’ validazzjoni. Il-kuntest għal kompitu rappreżentattiv ta’ proprjetà għall-kiri jista’ jiġi miġbur fil-qosor kif ġej:
L-istess ċiklu japplika lil hinn mill-proprjetajiet għall-kiri. Il-proprjetajiet għall-kiri ħadu madwar sitt ġimgħat u superviżjoni sostanzjali tal-inġinerija biex jilħqu 90% preċiżjoni u recall, iżda dak ix-xogħol ipproduċa astrazzjonijiet li jistgħu jerġgħu jintużaw, artifacts ta’ reviżjoni, konvenzjonijiet ta’ eval, u xejriet ta’ implimentazzjoni li għamluha aktar faċli biex jiġu appoġġjati skedi kumplessi simili bħal Schedule C u Schedule A.
Tax AI turi triq għall-bini ta’ aġenti li jtejbu lilhom infushom. Il-prattikanti jiġġeneraw sinjali ta’ feedback ta’ valur għoli billi jwasslu s-servizz. Il-flussi tax-xogħol tal-prodott iżommu dawk is-sinjali bħala evidenza strutturata. Sistemi ta’ inġinerija appoġġjati b’evals jivvalidaw it-titjib qabel ma jasal fil-produzzjoni, u ċiklu mħaddem minn aġent iżomm is-sistema fi fluss kontinwu ta’ titjib awtonomu.
L-istruttura ta’ Thrive Holdings tippermettilna nirreplikaw dan l-ambjent f’industriji speċifiċi. Holdings hija kemm sid kif ukoll operatur, għalhekk it-timijiet magħquda tagħna tal-inġinerija jistgħu jaħdmu direttament mal-prattikanti u mad-data tal-produzzjoni minn ġewwa negozji bħal Crete, mhux bħala bejjiegħ iżda bħala sħab. Dan ifisser li t-teknoloġija, il-prodott, u s-servizz kollha jinsabu taħt saqaf wieħed biex jgħinuna nimxu aktar malajr u nibnu prodotti eċċezzjonali.
Accountant anzjana waħda li s-sena l-oħra qattgħet 180 siegħa fuq il-preparazzjoni tat-taxxa qattgħet biss 15-il siegħa fuqha din is-sena. Parti minn dak il-ħin qattgħetu ċċempel lil kull wieħed mill-klijenti tagħha u tgħaddihom mar-returns tagħhom, livell ta’ servizz personali ħafna li sena ilu ma kienx possibbli. Il-bqija ta’ dak il-ħin użatu biex tieħu klijenti ġodda u tespandi għal offerti ġodda ta’ servizzi.
Flimkien, it-timijiet tagħna issa qed jużaw l-istess disinn fi tliet partijiet minn Tax AI bħala blueprint għall-bini ta’ flussi tax-xogħol f’oqsma oħra madwar Thrive Holdings(jinfetaħ f’tieqa ġdida); flussi tax-xogħol tal-kontabilità bħall-bookkeeping u l-awditjar, u flussi tax-xogħol operattivi bħall-awtomazzjoni tal-help desk tal-IT. Madwar oqsma u industriji differenti, il-wegħda usa’ ta’ aġenti li jtejbu lilhom infushom tibqa’ valida. L-aħjar aġenti jiġu mmexxija min-nies biex jitgħallmu jsiru aktar kapaċi, aktar fdati, u aktar ta’ valur maż-żmien.
Biex titgħallem aktar dwar it-tim ta’ OpenAI li ħadem fuq dan il-proġett, ikkuntattjana.


