Codexతో స్వీయ-మెరుగుదల పన్ను ఏజెంట్ల నిర్మాణం
టెక్నికల్ స్టాఫ్ సభ్యులచే: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)
ప్రాక్టిషనర్ నైపుణ్యాన్ని Codex-ఆధారిత లూప్తో కలిపి, Thrive Holdings మరియు OpenAI Crete అకౌంటెంట్ల కోసం Tax AIను ఎలా సహ-అభివృద్ధి చేశాయో
వాస్తవ ప్రపంచ సిస్టమ్లు ల్యాబ్లో ప్రవర్తించే విధంగా కాకుండా ప్రొడక్షన్లో భిన్నంగా ప్రవర్తిస్తాయి; అమలు ముందు ఊహించడం కష్టమైన రీతుల్లో విఫలమవుతాయి. బృందాలు తరచుగా ఆ వైఫల్యాలను ప్రారంభం తర్వాతే గుర్తిస్తాయి; ఆపై edge casesను పరిశీలించడం, ప్రాంప్ట్లను సర్దుబాటు చేయడం, మరియు ప్రొడక్షన్ ఫీడ్బ్యాక్ను దీర్ఘకాలిక ఉత్పత్తి మెరుగుదలలుగా మార్చడంలో వారాలు గడుపుతాయి. ఫీడ్బ్యాక్ లూప్ మాన్యువల్గా మరియు నెమ్మదిగా ఉంటుంది; ఒక ఇంజినీర్ దాన్ని ముందుకు తీసుకెళ్లినప్పుడే అది మెరుగుపడుతుంది. కానీ నేడు, ఆలోచనాత్మకంగా రూపొందించిన eval మౌలిక వసతులు, ప్రాక్టిషనర్లు మరియు వాస్తవ ప్రపంచ వాతావరణాలకు నేర ప్రాప్యత, మరియు Codex యొక్క అగ్రశ్రేణి ఏజెంటిక్ సామర్థ్యాలతో, మీరు స్వీయ-మెరుగుదల ఏజెంట్లను నిర్మించవచ్చు.
ఈ పోస్టులో, ఈ రకమైన ఏజెంట్ను నిర్మించడానికి మేము Codexను ఎలా ఉపయోగించామో వివరిస్తాము. గత ఆరు నెలల్లో, OpenAI forward deployed ఇంజినీర్లు మరియు పరిశోధకులు, అలాగే Thrive Holdings ఇంజినీర్లు కలిసి, పెరుగుతున్న క్లిష్టమైన పన్ను రిటర్న్లను సిద్ధం చేయడంలో సహాయపడేందుకు Crete(కొత్త విండోలో తెరుచుకుంటుంది) యొక్క 30+ అకౌంటింగ్ సంస్థల నెట్వర్క్తో పాటు, వాటికోసం Tax AIను నిర్మించారు. ప్రతి వైఫల్యాన్ని కనుగొని సరిచేయడానికి ఇంజినీర్లపై ఆధారపడటానికి బదులుగా, Tax AI ప్రొడక్షన్ వినియోగాన్ని స్వయంచాలక మెరుగుదలకు ఇంధనం అందించే నిర్మిత సంకేతాలుగా మార్చడానికి Codexను ఉపయోగిస్తుంది.
Crete ప్రాక్టిషనర్లు ప్రతి సీజన్లో పదివేలల పన్ను రిటర్న్లను సిద్ధం చేస్తారు; దీనికి లక్షలాది మూల పత్రాలపై పని చేయాల్సి ఉంటుంది. మధ్యస్థ నుంచి పెద్ద క్లిష్టత గల ఫైలింగ్లకు, డేటా ఎంట్రీ ఒక్కటే ప్రతి రిటర్న్కు ఎనిమిది గంటలు పట్టవచ్చు; ఇందులో గందరగోళమైన డేటా సోర్స్లు, గత సంవత్సరం పత్రాలు, మరియు మాన్యువల్ ఎక్స్ట్రాక్షన్, లెక్కింపు ఉంటాయి. పన్ను సీజన్లో అత్యంత బిజీగా ఉండే సమయంలో పన్ను సిద్ధీకరణ ఒక ముఖ్య bottleneck అని వారు మాకు సూచించారు.
ఈ సమస్యను పరిష్కరించడానికి, ఈ పన్ను సీజన్లో పైలట్లో పాల్గొన్న Crete సంస్థల అంతటా Tax AI 7,000 పన్ను రిటర్న్లను ప్రాసెస్ చేసింది. ఈ సిస్టమ్ 1040 మరియు 1041 పన్ను రిటర్న్ల సిద్ధీకరణలో సమయం ఎక్కువ తీసుకునే ప్రక్రియలో పెద్ద భాగాన్ని ఆటోమేట్ చేస్తుంది; కానీ సామర్థ్య లాభాల కంటే మరింత ఆకర్షణీయమైన విషయం ఏమిటంటే, మూడు నెలల క్రితం మొదట అమలు చేసిన వెర్షన్తో పోలిస్తే ఈ సిస్టమ్ కొలవదగిన రీతిలో మెరుగ్గా ఉంది.
Tax AIలో, ప్రాక్టిషనర్లు ఏవైనా క్లయింట్-నిర్దిష్ట గమనికలతో పాటు సోర్స్ ఫైల్లను అప్లోడ్ చేస్తారు. తర్వాత Tax AI సమీక్షకు సిద్ధంగా ఉన్న పన్ను ఇంజిన్ సమర్పణను సృష్టిస్తుంది. ఇది ప్రాక్టిషనర్లకు పన్ను సిద్ధీకరణలో వారి సమయం సుమారు మూడో వంతు ఆదా చేస్తుంది, 97% వరకు ఖచ్చితత్వంతో రిటర్న్లను డ్రాఫ్ట్ చేస్తుంది, మరియు థ్రూపుట్ను సుమారు 50% పెంచుతుంది; దీంతో వారు క్లయింట్లతో గడపడానికి మరింత సమయం పొందుతారు.
తర్వాత సవరణ అవసరం లేకుండా Tax AI ఒక రిటర్న్ను ఎంత ఖచ్చితంగా పూర్తి చేయగలదో అర్థం చేసుకోవడం ద్వారా ఈ మెరుగుదలను మేము పరిమాణాత్మకంగా కొలవగలము. 75%, 90%, లేదా 100% సరైన ఫీల్డ్ పూర్తి స్థాయికి ఎంత శాతం రిటర్న్లు చేరుతున్నాయో చూసి మేము ఖచ్చితత్వాన్ని కొలుస్తాము. ప్రారంభంలో, కేవలం నాలుగో వంతు రిటర్న్లు మాత్రమే 75% సరైన ఫీల్డ్ పూర్తి స్థాయిలో ఉండేవి; కానీ ఆరు వారాల్లో 86% ఆ స్థాయిని చేరాయి. 90% మరియు 100% సరైన ఫీల్డ్ పూర్తి స్థాయిల వద్ద సిస్టమ్ ఇంకా వేగంగా వృద్ధి చూపించింది. వివిధ రిటర్న్లకు ఇంకా ఎంత ప్రాక్టిషనర్ ఫాలో-అప్ అవసరమో ఈ పరిమితులు మాకు ఆచరణాత్మక దృశ్యాన్ని ఇస్తాయి.
ప్రారంభంలో, Tax AI W-2లు మరియు 1099లు వంటి సరళమైన పనిని నిర్వహించింది. సీజన్ కొనసాగేకొద్దీ, అది K-1లు, షెడ్యూల్లు, మరియు మరింత కఠినమైన edge cases ఉన్న క్లిష్టమైన రిటర్న్లలోకి ప్రవేశించింది. ప్రతి కొత్త సామర్థ్యం, దాని ముందు దానికంటే ప్రతి రిటర్న్కు ఎక్కువ సమయం ఆదా చేసింది; ఎందుకంటే అది తీసుకున్న పనులు మరింత కఠినమైనవి మరియు మాన్యువల్గా చేయడానికి ఎక్కువ సమయం పట్టేవి. ఈరోజు కూడా మేము నిరంతర పురోగతిని చూస్తూనే ఉన్నాము.
తర్వాత, 1) నిపుణ ప్రాక్టిషనర్ ఫీడ్బ్యాక్, 2) ప్రొడక్షన్ ట్రేస్లు (ఇన్పుట్ల నుంచి తుది అవుట్పుట్ వరకు నిర్మిత చరిత్ర), మరియు 3) నిరంతర, వేగవంతమైన ఉత్పత్తి అభివృద్ధిని సాధించేందుకు అనుకూల evals ఆధారంగా ఉన్న Codex-నడిచే iteration loop అనే మూడు కీలక స్తంభాలపై ఆధారపడి, మా బృందాలు Tax AIను స్వీయ-మెరుగుదలగా ఎలా సహ-ఇంజినీర్ చేశాయో వివరిస్తాము. ప్రాక్టిషనర్ నైపుణ్యం మొత్తం సిస్టమ్ నాణ్యతను మరియు దానిలో నడిచే డేటాను ఆకృతీకరించడంలో కీలకమైన డొమైన్లలో ఉన్న ఇతర నిర్మాణకర్తలకు మా అనుభవం ఉపయోగపడుతుందని మేము ఆశిస్తున్నాము.
Tax AI మరింత క్లిష్టమైన ఫైలింగ్లకు విస్తరించడంతో, 75%, 90%, మరియు పూర్తి పూర్తికి చేరిన స్కోర్ చేసిన రిటర్న్ల వాటా పన్ను సీజన్ అంతటా పెరుగుతూ వచ్చింది.
పన్ను సిద్ధీకరణలోని మరింత కఠినమైన భాగాలైన K-1లు, అద్దె రియల్ ఎస్టేట్ షెడ్యూల్లు, మరియు అనేక సోర్స్ ఫైల్లలో విలువలను సరిపోల్చాల్సిన పన్ను ఫారమ్లలోకి మేము వెళ్లినప్పుడు, అసలు సవాలు ఉత్పత్తి క్లిష్టమైన ప్రొడక్షన్ వైఫల్యాలను కనిపించేలా, అర్థమయ్యేలా, మరియు అమలు చేయదగినవిగా చేయగలదా అన్నదే అని స్పష్టమైంది.
ఉత్పత్తి ప్రారంభ దశల్లో, ఎక్కువ భాగం సవరణ మాన్యువల్గా ఉండేది. ప్రాక్టిషనర్లు సిస్టమ్ లోపాలను సరిచేయగలిగేవారు, కానీ ఉత్పత్తి పూర్తి సందర్భాన్ని పట్టుకోలేదు: ఫైలింగ్కు ముందు మార్చిన విలువ నిజమైన ఎక్స్ట్రాక్షన్ లోపం, మ్యాపింగ్ సమస్య, లేని ఉత్పత్తి మద్దతు, లేదా ఆశించిన వర్క్ఫ్లో శబ్దాన్ని ప్రతిబింబించవచ్చు. ఆ సందర్భాలను వేరు చేయడానికి ఇంకా ఇంజినీరింగ్ బృందం నుంచి ఫాలో-అప్ అవసరమయ్యేది. ఇంజినీర్లు కోడింగ్ ఏజెంట్లను ఉపయోగించగలిగారు, కానీ మెరుగుదల లూప్లో AIను అర్థవంతంగా ఉపయోగించేలా సిస్టమ్ ఇంకా రూపకల్పన చేయబడలేదు. ఎక్కాల్సిన సరైన కొండను గుర్తించే సంకేతం మాకు లేదు.
అది మమ్మల్ని సిస్టమ్ను మూడు స్తంభాల చుట్టూ రూపకల్పన చేయడానికి దారితీసింది:
- ప్రాక్టిషనర్లకు దగ్గరగా ఉండండి: పని చేసే వ్యక్తులే ఉత్పత్తి ఏమి నేర్చుకోవాలో నడిపించాలి. వారి అంతర్దృష్టి మరియు అవగాహన ఏ లోపాలు ముఖ్యమో వెల్లడిస్తాయి; అలాగే వర్క్ఫ్లోలో తర్వాత ఏ భాగాలపై దృష్టి పెట్టడం విలువైనదో తెలియజేస్తాయి.
- ప్రొడక్షన్ ఆధారాన్ని సృష్టించేలా ఉత్పత్తిని నిర్మించండి: ఉత్పత్తి కేవలం ఇన్పుట్లు మరియు అవుట్పుట్లకంటే ఎక్కువను పట్టుకోవాలి; అది సోర్స్ మెటీరియల్ నుంచి, ఎక్స్ట్రాక్ట్ చేసిన ఫీల్డ్లు మరియు provenance నుంచి, దిగువ సమర్పణ మరియు నిపుణుల సవరణ వరకు పూర్తి మార్గాన్ని పట్టుకోవాలి.
- Codex-నడిచే మెరుగుదల లూప్ను సృష్టించండి: ప్రొడక్షన్ సమస్యలు కనిపించేలా మరియు నిర్మితంగా మారిన తర్వాత, అవి కనుగొనికలు, అనుకూల evals, మరియు పరిమిత ఇంజినీరింగ్ పనులుగా మారవచ్చు. తర్వాత Codex పరిశీలించడంలో, మార్పులను ప్రతిపాదించడంలో, లక్ష్యిత మరియు regression evalsపై వాటిని ధృవీకరించడంలో, మరియు పూర్తిగా మాన్యువల్ iteration cycle కంటే వేగంగా ఉత్పత్తిని ముందుకు తీసుకెళ్లడంలో సహాయపడగలదు.
క్రింద ఉన్న అద్దె ఆస్తుల ఉదాహరణ ఆ లూప్ ఆచరణలో ఎలా పనిచేస్తుందో చూపిస్తుంది; ఒక ప్రాక్టిషనర్ సవరణ ఎలా నిర్మిత కనుగొనికగా, తర్వాత eval లక్ష్యంగా, చివరకు Codex-పరిమిత ఇంజినీరింగ్ పనిగా మారుతుందో మీకు వివరిస్తుంది.
అద్దె ఆస్తి ఆదాయం వ్యక్తిగత పన్ను రిటర్న్లోని Schedule Eలో నివేదించబడుతుంది. ఇంజినీరింగ్ దృష్టికోణంలో, దాన్ని ఎక్స్ట్రాక్ట్ చేసే పని వివరించడానికి సులభం కానీ బాగా చేయడం కష్టం. సిస్టమ్ గందరగోళమైన సోర్స్ మెటీరియల్ను (చేతిరాత గమనికలు, ఇమెయిల్లు, స్ప్రెడ్షీట్లు, మరియు ఇతర క్లయింట్ ఫైల్లు) చదవాలి, సిస్టమ్ పన్ను ఇంజిన్కు నమ్మకంగా మ్యాప్ చేయగల అద్దె-ఆస్తి ఫీల్డ్లను ఎక్స్ట్రాక్ట్ చేయాలి, మరియు ప్రాక్టిషనర్ ఫలితాన్ని ఆమోదించడానికి లేదా సరిచేయడానికి సరిపడా ఆధారాన్ని సంరక్షించాలి. క్రింద ఉన్న సరళీకృత ఉదాహరణ ఆ సోర్స్ ఫైల్లు మరియు ఎక్స్ట్రాక్ట్ చేసిన అవుట్పుట్లు ఎలా ఉండవచ్చో చూపిస్తుంది.
అద్దె ఆస్తి సోర్స్ ప్యాకేజ్ను, అవి దిగువ పన్ను ఇంజిన్ భావనలకు మ్యాప్ చేయబడే ముందు, సూచనలతో కూడిన ఫీల్డ్లుగా సాధారణీకరిస్తారు.
ఏజెంట్ అంచనా వేసిన విలువ మరియు ఫైల్ చేసిన పన్ను రిటర్న్లోని వాస్తవ విలువ మధ్య తేడా నిజమైన ఎక్స్ట్రాక్షన్ లోపాన్ని సూచించవచ్చు, కానీ అది ప్రాక్టిషనర్ అభిరుచి, పన్ను ఇంజిన్లో గత సంవత్సరం రిటర్న్ నుంచి తీసుకువచ్చిన విలువ, లేదా ఫైలింగ్ వర్క్ఫ్లోలో వేరే చోట చేర్చబడిన లేదా మార్చబడిన విలువ కూడా కావచ్చు. ఏ చర్యలకు ప్రాక్టిషనర్ సవరణ అవసరమైందో లేదా సమర్పణను అడ్డుకున్నాయో గుర్తించేందుకు, ఆ సందర్భాలను వేరు చేయడంలో ప్రాక్టిషనర్లు మాకు సహాయపడ్డారు.
ఈ సవరణలను మేము వివరంగా చూడగలిగినందున, సమీక్ష ప్రక్రియను వైఫల్యం తర్వాత ముగిసే దశ నుంచి నిరంతర అభ్యాస చక్రంగా మార్చాము. నిపుణుల చర్యలను నిర్మిత డేటాగా పట్టుకునేలా మేము వర్క్ఫ్లోను రూపొందించాము. ఇప్పుడు, Tax AI ఏమి ప్రతిపాదించిందో, ప్రాక్టిషనర్ ఏమి మార్చాడో, చివరకు ఫైల్ చేసిన రిటర్న్లో ఏమి చేరిందో ఖచ్చితంగా నమోదు చేయడం ద్వారా ప్రతి జోక్యం ఉత్పత్తి's మెరుగుదల లూప్కు ఇంధనం అందిస్తుంది.
అద్దె ఆస్తుల వంటి క్లిష్టమైన వర్క్ఫ్లో కోసం, సోర్స్ ఫైల్లు మరియు ఫైల్ చేసిన రిటర్న్ మధ్య ఏమి జరుగుతుందో సిస్టమ్ సంరక్షించాలి. ఆ మార్గంలో, పత్రాలు క్రమబద్ధీకరించబడతాయి, విభజించబడతాయి, వర్గీకరించబడతాయి; అద్దె-ఆస్తి ఫీల్డ్లు సోర్స్ మెటీరియల్కు తిరిగి సూచనలతో ఎక్స్ట్రాక్ట్ చేయబడతాయి; ఆ విలువలు పన్ను ఇంజిన్లోకి మ్యాప్ చేయబడతాయి; మరియు ఫైలింగ్కు ముందు ప్రాక్టిషనర్లు వాటిని ఇంకా సరిచేయవచ్చు. ఆ ఉత్పత్తి-స్థాయి ట్రేస్లు వైఫల్యం ఎక్కడ జరిగిందో పరిశీలించడం సాధ్యమయ్యేలా చేస్తాయి. ప్రాక్టిషనర్ సవరణలను ఉపయోగకరమైన మూల్యాంకన లక్ష్యాలుగా మార్చడానికి, సిస్టమ్ వాటిని మూడు దశల్లో ప్రాసెస్ చేస్తుంది:
- తేడాను పట్టుకోండి: Tax AI అవుట్పుట్ను ఫైల్ చేసిన రిటర్న్తో పోల్చి, ఆశించిన విలువ, అంచనా విలువ, మరియు ఆ తేడా అమలు చేయదగినదిగా కనిపిస్తుందా అనే విషయాన్ని పట్టుకునే ఫీల్డ్-స్థాయి సమీక్ష వరుసలను ఉత్పత్తి చేస్తారు.
- సంబంధిత వైఫల్యాలను సమూహీకరించండి: పునరావృతమయ్యే ఉత్పత్తి వైఫల్యాలను ఆశించిన వర్క్ఫ్లో శబ్దం నుంచి వేరు చేయడానికి, సమానమైన సమీక్ష వరుసలను సమూహీకరిస్తారు. ఉదాహరణకు, పునరావృతమయ్యే ప్రాక్టిషనర్ సవరణలు Tax AI తరచుగా fair-rental-day ఫీల్డ్లను మిస్ అవుతుందని, “other expenses”ను తప్పుగా నిర్వహిస్తుందని, లేదా అదే సోర్స్ ప్యాకేజ్లోని అనేక అద్దె ఆస్తులను గందరగోళపరుస్తుందని చూపవచ్చు.
- పునరావృత నమూనాలను eval లక్ష్యాలుగా మార్చండి: ఒకసారి సమీక్షించి కొలిచిన తర్వాత, పునరావృత కనుగొనికలు Codex మెరుగుపరచడానికి స్పష్టమైన eval లక్ష్యాలుగా మారుతాయి.
అద్దె ఆస్తి సమీక్ష వరుసలు పునరావృతమయ్యే ఉత్పత్తి వైఫల్యాలను ఆశించిన శబ్దం నుంచి వేరు చేసి, తర్వాత అమలు చేయగల సందర్భాలను Codex ఎక్కాల్సిన కొండలా ఉండే మూల్యాంకన లక్ష్యాలుగా మారుస్తాయి.
మూడవ స్తంభం ఈ కొత్త evalsపై చర్య తీసుకోగల ఇంజినీరింగ్ లూప్ను సృష్టించడం. ఇక్కడే Codex కేంద్రంగా మారుతుంది.
మన eval పైప్లైన్ Tax AI నిరంతరం "fair rental days" ఫీల్డ్ను మిస్ అవుతుందని, అదే సమయంలో ప్రాక్టిషనర్లు దాన్ని నమ్మకంగా నింపుతున్నారని గుర్తించిందని ఊహించండి. ఈ కనుగొనిక ఇప్పటికే ప్రతినిధి సోర్స్ ప్యాకేజ్లు మరియు ఆశించిన అవుట్పుట్లతో కూడిన లక్ష్యిత eval సెట్గా ప్యాక్ చేయబడినందున, Codex ఉత్పత్తి స్కాఫోల్డ్లోనే మూల కారణాన్ని నేరుగా పరిశీలించగలదు.
Codex కేవలం తక్కువ స్థాయి తుది అవుట్పుట్తో మాత్రమే పని చేయడం లేదు. ఇది trace, eval, repo, మరియు skillsను కలిసి పరిశీలిస్తుంది:
- పైప్లైన్ను పరిశీలించండి: సమస్య మద్దతు లేని ఫీల్డ్నా, మిస్ అయిన ఎక్స్ట్రాక్షన్ నమూనా, సోర్స్-ఎంపిక సమస్య, mapper లోటు, లేదా grader సమస్యనా అని నిర్ణయించడానికి సోర్స్ ప్యాకేజ్లు, extraction schemas, mapper ప్రవర్తన, మరియు code pathsను పరిశీలించండి.
- లక్ష్యిత పరిష్కారాలను అమలు చేయండి: extraction schemaను విస్తరించండి, అద్దె-ఆస్తి పత్రాల కోసం సోర్స్ ఎంపికను మెరుగుపరచండి, tax-engine mapperను నవీకరించండి, లేదా ఆశించిన వర్క్ఫ్లో శబ్దాన్ని వైఫల్యంగా లెక్కిస్తున్నట్లయితే graderను మెరుగుపరచండి.
- ధృవీకరించి ప్రతిపాదించండి: లక్ష్యిత evalను మళ్లీ నడపండి, విస్తృత regression suitesను నడపండి, మరియు ఇంజినీరింగ్ సమీక్ష కోసం అభ్యర్థి పుల్ రిక్వెస్ట్ను చూపించండి.
- లూప్ను ముగించండి: పునరావృతమయ్యే ప్రాక్టిషనర్ సవరణను కొలవగల ఇంజినీరింగ్ పనిగా మార్చండి. ఆధారం అస్పష్టంగా ఉన్నా లేదా సురక్షితంగా ఆటోమేట్ చేయలేనప్పటికీ, ఆ సందర్భాన్ని బలవంతంగా లూప్లో నెట్టకుండా మళ్లీ ఉత్పత్తి బృందానికి పంపిస్తారు.
ఎండ్-టు-ఎండ్ స్వీయ-మెరుగుదల లూప్: ప్రొడక్షన్ ట్రేస్లు పునరావృతమయ్యే ఫీల్డ్-స్థాయి సవరణలను బయటపెడతాయి; అవి ట్రేస్, evals, repo, మరియు skillsతో పాటు Codex పరిశీలించగల వైఫల్య సంకేతాలుగా మారుతాయి. అమలు చేయగల నమూనాలు పరిమిత evals మరియు అభ్యర్థి ఉత్పత్తి మార్పులుగా మారుతాయి; అస్పష్టమైన సందర్భాలు సమీక్ష కోసం మళ్లీ ఇంజినీర్లకు పంపబడతాయి. షిప్ చేసిన ప్రతి మెరుగుదల తదుపరి చక్రానికి కొత్త ప్రొడక్షన్ ఆధారాన్ని సృష్టిస్తుంది.
అద్దె ఆస్తి ఉదాహరణ మరింత విస్తృతంగా మళ్లీ ఉపయోగించగల నమూనాకు ప్రతీక: ఏజెంట్ సామర్థ్యాలను మెరుగుపరచడానికి ప్రొడక్షన్ ఆర్టిఫాక్ట్లు మరియు ట్రేస్లను ఉపయోగించడం. ప్రొడక్షన్ డేటా నుంచి సమీక్షించిన కనుగొనికలు, సోర్స్ ట్రేస్లు, ఆశించిన tax-engine అవుట్పుట్, సంబంధిత కోడ్ ఉదాహరణలు, మరియు eval కమాండ్లను ఇన్పుట్ల సమితిగా ఇచ్చినప్పుడు, Codex వారాలు మరియు నెలల వ్యవధిలో పనితీరు మరియు ఖచ్చితత్వాన్ని గణనీయంగా మెరుగుపరచగలదు. ఇది harness engineering మరియు Symphony పై మా పనిలో వివరించిన సూత్రాలపై ఆధారపడుతుంది; ఇవి పనులను Codexకు స్పష్టంగా ఎలా చూపించాలి, పరిమిత సందర్భం మరియు టూల్లను ఎలా అందించాలి, మరియు ధృవీకరణతో పాటు మానవ సమీక్షను వాతావరణంలో భాగంగా ఎలా ఉంచాలి అనే విషయాలను వివరిస్తాయి.
ఆ ఆధారం స్వయంచాలకంగా Codex పనిగా మారదు. ఒక ప్రాక్టిషనర్ సవరణ ఎక్స్ట్రాక్షన్ లోపం, మ్యాపింగ్ సమస్య, మద్దతు లేని ఉత్పత్తి ప్రవర్తన, పన్ను నిర్ణయం, లేదా ఆశించిన వర్క్ఫ్లో శబ్దాన్ని ప్రతిబింబించవచ్చు. పునరావృత తేడాలను సమీక్షించి, అమలు చేయగల కనుగొనికగా సమూహీకరించిన తర్వాత మాత్రమే, సిస్టమ్ వాటిని స్పష్టమైన విజయ ప్రమాణంతో కూడిన పరిమిత పనిగా మారుస్తుంది.
మేము ఈ ఆటోమేషన్ను ఉత్పత్తి యొక్క పరిమిత పొరకు వర్తింపజేస్తాము. ఈ పొర ఎక్స్ట్రాక్షన్ను నిర్వహించి, సోర్స్ పత్రాలను పన్ను వర్క్ఫ్లోలలోకి మ్యాప్ చేస్తుంది. ఆర్కిటెక్చర్, ఉత్పత్తి నిర్ణయాలు, మరియు షిప్పింగ్కు ఇంజినీర్లు బాధ్యత వహిస్తూనే ఉంటారు. ప్రాక్టిషనర్లు వారు ఇప్పటికే చేసే పనిద్వారానే మెరుగుదల లూప్ను నడిపిస్తారు: ఎక్స్ట్రాక్ట్ చేసిన విలువలను సరిచేయడం, రిటర్న్లను సమీక్షించడం, మరియు తుది ఫైలింగ్లను ఆమోదించడం.
Codexకు ఫలితం అస్పష్టమైన హెచ్చరిక కాదు; ఆధారం, సవరించగల ఉత్పత్తి ఉపరితలాలు, మరియు స్పష్టమైన ధృవీకరణ గేట్లతో కూడిన పరిమిత ఇంజినీరింగ్ పని. ప్రతినిధి అద్దె ఆస్తి పనికి సంబంధించిన సందర్భాన్ని ఇలా సంక్షిప్తంగా చెప్పవచ్చు:
అదే లూప్ అద్దె ఆస్తులను మించి కూడా వర్తిస్తుంది. అద్దె ఆస్తులు 90% precision మరియు recall చేరడానికి సుమారు ఆరు వారాలు మరియు గణనీయమైన ఇంజినీరింగ్ పర్యవేక్షణ తీసుకున్నాయి, కానీ ఆ పని మళ్లీ ఉపయోగించగల abstractions, review artifacts, eval conventions, మరియు implementation patternsను ఉత్పత్తి చేసింది; ఇవి Schedule C మరియు Schedule A వంటి సమానంగా క్లిష్టమైన షెడ్యూల్లకు మద్దతు ఇవ్వడం సులభం చేశాయి.
Tax AI స్వీయ-మెరుగుదల ఏజెంట్లను నిర్మించే మార్గాన్ని నిరూపిస్తుంది. ప్రాక్టిషనర్లు సేవను అందించడం ద్వారా అధిక-విలువ గల ఫీడ్బ్యాక్ సంకేతాలను సృష్టిస్తారు. ఉత్పత్తి వర్క్ఫ్లోలు ఆ సంకేతాలను నిర్మిత ఆధారంగా సంరక్షిస్తాయి. Eval మద్దతు ఉన్న ఇంజినీరింగ్ సిస్టమ్లు మెరుగుదలలు ప్రొడక్షన్కు చేరే ముందు వాటిని ధృవీకరిస్తాయి, మరియు ఏజెంట్-ఆధారిత లూప్ సిస్టమ్ను నిరంతర స్వీయ-మెరుగుదల ప్రవాహంలో ఉంచుతుంది.
Thrive Holdings నిర్మాణం ఈ వాతావరణాన్ని నిర్దిష్ట పరిశ్రమల్లో పునరావృతం చేయడానికి మాకు అనుమతిస్తుంది. Holdings యజమాని కూడా, Operator కూడా కావడంతో, మా సంయుక్త ఇంజినీరింగ్ బృందాలు Crete వంటి వ్యాపారాల లోపల నుంచే ప్రాక్టిషనర్లు మరియు ప్రొడక్షన్ డేటాతో నేరుగా పని చేయగలుగుతున్నాయి; విక్రేతగా కాదు, భాగస్వాములుగా. దీని అర్థం సాంకేతికత, ఉత్పత్తి, మరియు సేవ అన్నీ ఒకే చోట ఉండటం వల్ల మేము వేగంగా కదలి అసాధారణ ఉత్పత్తులను నిర్మించగలుగుతున్నాము.
గత సంవత్సరం పన్ను సిద్ధీకరణపై 180 గంటలు ఖర్చు చేసిన ఒక సీనియర్ అకౌంటెంట్, ఈ సంవత్సరం దానిపై కేవలం 15 గంటలు మాత్రమే ఖర్చు చేసింది. ఆ సమయాన్ని ఆమె తన ప్రతి క్లయింట్కు ఫోన్ చేసి, వారి రిటర్న్లను వారికి వివరించడానికి కొంతవరకు వినియోగించింది; ఏడాది క్రితం సాధ్యం కాని అధిక-స్పర్శ సేవా స్థాయి అది. మిగిలిన సమయాన్ని ఆమె కొత్త క్లయింట్లను తీసుకోవడానికి మరియు కొత్త సేవా ఆఫర్లకు విస్తరించడానికి ఉపయోగించింది.
కలిసి, మా బృందాలు ఇప్పుడు Thrive Holdings(కొత్త విండోలో తెరుచుకుంటుంది) అంతటా ఇతర డొమైన్లలో వర్క్ఫ్లోలను నిర్మించడానికి Tax AI నుంచి వచ్చిన ఇదే మూడు-భాగాల రూపకల్పనను బ్లూప్రింట్గా ఉపయోగిస్తున్నాయి; బుక్కీపింగ్ మరియు ఆడిట్ వంటి అకౌంటింగ్ వర్క్ఫ్లోలు, అలాగే IT హెల్ప్ డెస్క్ ఆటోమేషన్ వంటి ఆపరేషనల్ వర్క్ఫ్లోలు. డొమైన్లు మరియు పరిశ్రమల అంతటా, స్వీయ-మెరుగుదల ఏజెంట్ల విస్తృత వాగ్దానం నిలుస్తుంది. ఉత్తమ ఏజెంట్లు కాలక్రమేణా మరింత సామర్థ్యవంతంగా, మరింత నమ్మదగినవిగా, మరింత విలువైనవిగా మారడం నేర్చుకునేలా మనుషులచే నడిపించబడతాయి.
ఈ ప్రాజెక్టుపై పని చేసిన OpenAI బృందం గురించి మరింత తెలుసుకోవాలంటే, సంప్రదించండి.


