27 మే, 2026

Codex‌తో స్వీయ-మెరుగుదల పన్ను ఏజెంట్‌ల నిర్మాణం

టెక్నికల్ స్టాఫ్ సభ్యులచే: Aravind Srinivasan & Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo & John de Wasseige (OpenAI)

లోడ్ అవుతోంది…

ప్రాక్టిషనర్ నైపుణ్యాన్ని Codex-ఆధారిత లూప్‌తో కలిపి, Thrive Holdings మరియు OpenAI Crete అకౌంటెంట్ల కోసం Tax AIను ఎలా సహ-అభివృద్ధి చేశాయో

వాస్తవ ప్రపంచ సిస్టమ్‌లు ల్యాబ్‌లో ప్రవర్తించే విధంగా కాకుండా ప్రొడక్షన్‌లో భిన్నంగా ప్రవర్తిస్తాయి; అమలు ముందు ఊహించడం కష్టమైన రీతుల్లో విఫలమవుతాయి. బృందాలు తరచుగా ఆ వైఫల్యాలను ప్రారంభం తర్వాతే గుర్తిస్తాయి; ఆపై edge cases‌ను పరిశీలించడం, ప్రాంప్ట్‌లను సర్దుబాటు చేయడం, మరియు ప్రొడక్షన్ ఫీడ్‌బ్యాక్‌ను దీర్ఘకాలిక ఉత్పత్తి మెరుగుదలలుగా మార్చడంలో వారాలు గడుపుతాయి. ఫీడ్‌బ్యాక్ లూప్ మాన్యువల్‌గా మరియు నెమ్మదిగా ఉంటుంది; ఒక ఇంజినీర్ దాన్ని ముందుకు తీసుకెళ్లినప్పుడే అది మెరుగుపడుతుంది. కానీ నేడు, ఆలోచనాత్మకంగా రూపొందించిన eval మౌలిక వసతులు, ప్రాక్టిషనర్లు మరియు వాస్తవ ప్రపంచ వాతావరణాలకు నేర ప్రాప్యత, మరియు Codex యొక్క అగ్రశ్రేణి ఏజెంటిక్ సామర్థ్యాలతో, మీరు స్వీయ-మెరుగుదల ఏజెంట్‌లను నిర్మించవచ్చు.

ఈ పోస్టులో, ఈ రకమైన ఏజెంట్‌ను నిర్మించడానికి మేము Codex‌ను ఎలా ఉపయోగించామో వివరిస్తాము. గత ఆరు నెలల్లో, OpenAI forward deployed ఇంజినీర్లు మరియు పరిశోధకులు, అలాగే Thrive Holdings ఇంజినీర్లు కలిసి, పెరుగుతున్న క్లిష్టమైన పన్ను రిటర్న్‌లను సిద్ధం చేయడంలో సహాయపడేందుకు Crete⁠(కొత్త విండోలో తెరుచుకుంటుంది) యొక్క 30+ అకౌంటింగ్ సంస్థల నెట్‌వర్క్‌తో పాటు, వాటికోసం Tax AIను నిర్మించారు. ప్రతి వైఫల్యాన్ని కనుగొని సరిచేయడానికి ఇంజినీర్లపై ఆధారపడటానికి బదులుగా, Tax AI ప్రొడక్షన్ వినియోగాన్ని స్వయంచాలక మెరుగుదలకు ఇంధనం అందించే నిర్మిత సంకేతాలుగా మార్చడానికి Codex‌ను ఉపయోగిస్తుంది.

Crete ప్రాక్టిషనర్లు ప్రతి సీజన్‌లో పదివేలల పన్ను రిటర్న్‌లను సిద్ధం చేస్తారు; దీనికి లక్షలాది మూల పత్రాలపై పని చేయాల్సి ఉంటుంది. మధ్యస్థ నుంచి పెద్ద క్లిష్టత గల ఫైలింగ్‌లకు, డేటా ఎంట్రీ ఒక్కటే ప్రతి రిటర్న్‌కు ఎనిమిది గంటలు పట్టవచ్చు; ఇందులో గందరగోళమైన డేటా సోర్స్‌లు, గత సంవత్సరం పత్రాలు, మరియు మాన్యువల్ ఎక్స్‌ట్రాక్షన్, లెక్కింపు ఉంటాయి. పన్ను సీజన్‌లో అత్యంత బిజీగా ఉండే సమయంలో పన్ను సిద్ధీకరణ ఒక ముఖ్య bottleneck అని వారు మాకు సూచించారు.

ఈ సమస్యను పరిష్కరించడానికి, ఈ పన్ను సీజన్‌లో పైలట్‌లో పాల్గొన్న Crete సంస్థల అంతటా Tax AI 7,000 పన్ను రిటర్న్‌లను ప్రాసెస్ చేసింది. ఈ సిస్టమ్ 1040 మరియు 1041 పన్ను రిటర్న్‌ల సిద్ధీకరణలో సమయం ఎక్కువ తీసుకునే ప్రక్రియలో పెద్ద భాగాన్ని ఆటోమేట్ చేస్తుంది; కానీ సామర్థ్య లాభాల కంటే మరింత ఆకర్షణీయమైన విషయం ఏమిటంటే, మూడు నెలల క్రితం మొదట అమలు చేసిన వెర్షన్‌తో పోలిస్తే ఈ సిస్టమ్ కొలవదగిన రీతిలో మెరుగ్గా ఉంది.

కొలవదగిన స్వీయ-మెరుగుదల

Tax AIలో, ప్రాక్టిషనర్లు ఏవైనా క్లయింట్-నిర్దిష్ట గమనికలతో పాటు సోర్స్ ఫైల్‌లను అప్‌లోడ్ చేస్తారు. తర్వాత Tax AI సమీక్షకు సిద్ధంగా ఉన్న పన్ను ఇంజిన్ సమర్పణను సృష్టిస్తుంది. ఇది ప్రాక్టిషనర్లకు పన్ను సిద్ధీకరణలో వారి సమయం సుమారు మూడో వంతు ఆదా చేస్తుంది, 97% వరకు ఖచ్చితత్వంతో రిటర్న్‌లను డ్రాఫ్ట్ చేస్తుంది, మరియు థ్రూపుట్‌ను సుమారు 50% పెంచుతుంది; దీంతో వారు క్లయింట్‌లతో గడపడానికి మరింత సమయం పొందుతారు.

తర్వాత సవరణ అవసరం లేకుండా Tax AI ఒక రిటర్న్‌ను ఎంత ఖచ్చితంగా పూర్తి చేయగలదో అర్థం చేసుకోవడం ద్వారా ఈ మెరుగుదలను మేము పరిమాణాత్మకంగా కొలవగలము. 75%, 90%, లేదా 100% సరైన ఫీల్డ్ పూర్తి స్థాయికి ఎంత శాతం రిటర్న్‌లు చేరుతున్నాయో చూసి మేము ఖచ్చితత్వాన్ని కొలుస్తాము. ప్రారంభంలో, కేవలం నాలుగో వంతు రిటర్న్‌లు మాత్రమే 75% సరైన ఫీల్డ్ పూర్తి స్థాయిలో ఉండేవి; కానీ ఆరు వారాల్లో 86% ఆ స్థాయిని చేరాయి. 90% మరియు 100% సరైన ఫీల్డ్ పూర్తి స్థాయిల వద్ద సిస్టమ్ ఇంకా వేగంగా వృద్ధి చూపించింది. వివిధ రిటర్న్‌లకు ఇంకా ఎంత ప్రాక్టిషనర్ ఫాలో-అప్ అవసరమో ఈ పరిమితులు మాకు ఆచరణాత్మక దృశ్యాన్ని ఇస్తాయి.

ప్రారంభంలో, Tax AI W-2లు మరియు 1099లు వంటి సరళమైన పనిని నిర్వహించింది. సీజన్ కొనసాగేకొద్దీ, అది K-1లు, షెడ్యూల్‌లు, మరియు మరింత కఠినమైన edge cases ఉన్న క్లిష్టమైన రిటర్న్‌లలోకి ప్రవేశించింది. ప్రతి కొత్త సామర్థ్యం, దాని ముందు దానికంటే ప్రతి రిటర్న్‌కు ఎక్కువ సమయం ఆదా చేసింది; ఎందుకంటే అది తీసుకున్న పనులు మరింత కఠినమైనవి మరియు మాన్యువల్‌గా చేయడానికి ఎక్కువ సమయం పట్టేవి. ఈరోజు కూడా మేము నిరంతర పురోగతిని చూస్తూనే ఉన్నాము.

తర్వాత, 1) నిపుణ ప్రాక్టిషనర్ ఫీడ్‌బ్యాక్, 2) ప్రొడక్షన్ ట్రేస్‌లు (ఇన్‌పుట్‌ల నుంచి తుది అవుట్‌పుట్ వరకు నిర్మిత చరిత్ర), మరియు 3) నిరంతర, వేగవంతమైన ఉత్పత్తి అభివృద్ధిని సాధించేందుకు అనుకూల evals ఆధారంగా ఉన్న Codex-నడిచే iteration loop అనే మూడు కీలక స్తంభాలపై ఆధారపడి, మా బృందాలు Tax AIను స్వీయ-మెరుగుదలగా ఎలా సహ-ఇంజినీర్ చేశాయో వివరిస్తాము. ప్రాక్టిషనర్ నైపుణ్యం మొత్తం సిస్టమ్ నాణ్యతను మరియు దానిలో నడిచే డేటాను ఆకృతీకరించడంలో కీలకమైన డొమైన్‌లలో ఉన్న ఇతర నిర్మాణకర్తలకు మా అనుభవం ఉపయోగపడుతుందని మేము ఆశిస్తున్నాము.

Tax AI మరింత క్లిష్టమైన ఫైలింగ్‌లకు విస్తరించడంతో, 75%, 90%, మరియు పూర్తి పూర్తికి చేరిన స్కోర్ చేసిన రిటర్న్‌ల వాటా పన్ను సీజన్ అంతటా పెరుగుతూ వచ్చింది.

సమస్య

పన్ను సిద్ధీకరణలోని మరింత కఠినమైన భాగాలైన K-1లు, అద్దె రియల్ ఎస్టేట్ షెడ్యూల్‌లు, మరియు అనేక సోర్స్ ఫైల్‌లలో విలువలను సరిపోల్చాల్సిన పన్ను ఫారమ్‌లలోకి మేము వెళ్లినప్పుడు, అసలు సవాలు ఉత్పత్తి క్లిష్టమైన ప్రొడక్షన్ వైఫల్యాలను కనిపించేలా, అర్థమయ్యేలా, మరియు అమలు చేయదగినవిగా చేయగలదా అన్నదే అని స్పష్టమైంది.

ఉత్పత్తి ప్రారంభ దశల్లో, ఎక్కువ భాగం సవరణ మాన్యువల్‌గా ఉండేది. ప్రాక్టిషనర్లు సిస్టమ్ లోపాలను సరిచేయగలిగేవారు, కానీ ఉత్పత్తి పూర్తి సందర్భాన్ని పట్టుకోలేదు: ఫైలింగ్‌కు ముందు మార్చిన విలువ నిజమైన ఎక్స్‌ట్రాక్షన్ లోపం, మ్యాపింగ్ సమస్య, లేని ఉత్పత్తి మద్దతు, లేదా ఆశించిన వర్క్‌ఫ్లో శబ్దాన్ని ప్రతిబింబించవచ్చు. ఆ సందర్భాలను వేరు చేయడానికి ఇంకా ఇంజినీరింగ్ బృందం నుంచి ఫాలో-అప్ అవసరమయ్యేది. ఇంజినీర్లు కోడింగ్ ఏజెంట్‌లను ఉపయోగించగలిగారు, కానీ మెరుగుదల లూప్‌లో AIను అర్థవంతంగా ఉపయోగించేలా సిస్టమ్ ఇంకా రూపకల్పన చేయబడలేదు. ఎక్కాల్సిన సరైన కొండను గుర్తించే సంకేతం మాకు లేదు.

మా విధానం: మూడు-భాగాల లూప్

అది మమ్మల్ని సిస్టమ్‌ను మూడు స్తంభాల చుట్టూ రూపకల్పన చేయడానికి దారితీసింది:

ప్రాక్టిషనర్లకు దగ్గరగా ఉండండి: పని చేసే వ్యక్తులే ఉత్పత్తి ఏమి నేర్చుకోవాలో నడిపించాలి. వారి అంతర్దృష్టి మరియు అవగాహన ఏ లోపాలు ముఖ్యమో వెల్లడిస్తాయి; అలాగే వర్క్‌ఫ్లోలో తర్వాత ఏ భాగాలపై దృష్టి పెట్టడం విలువైనదో తెలియజేస్తాయి.
ప్రొడక్షన్ ఆధారాన్ని సృష్టించేలా ఉత్పత్తిని నిర్మించండి: ఉత్పత్తి కేవలం ఇన్‌పుట్‌లు మరియు అవుట్‌పుట్‌లకంటే ఎక్కువను పట్టుకోవాలి; అది సోర్స్ మెటీరియల్ నుంచి, ఎక్స్‌ట్రాక్ట్ చేసిన ఫీల్డ్‌లు మరియు provenance నుంచి, దిగువ సమర్పణ మరియు నిపుణుల సవరణ వరకు పూర్తి మార్గాన్ని పట్టుకోవాలి.
Codex-నడిచే మెరుగుదల లూప్‌ను సృష్టించండి: ప్రొడక్షన్ సమస్యలు కనిపించేలా మరియు నిర్మితంగా మారిన తర్వాత, అవి కనుగొనికలు, అనుకూల evals, మరియు పరిమిత ఇంజినీరింగ్ పనులుగా మారవచ్చు. తర్వాత Codex పరిశీలించడంలో, మార్పులను ప్రతిపాదించడంలో, లక్ష్యిత మరియు regression evals‌పై వాటిని ధృవీకరించడంలో, మరియు పూర్తిగా మాన్యువల్ iteration cycle కంటే వేగంగా ఉత్పత్తిని ముందుకు తీసుకెళ్లడంలో సహాయపడగలదు.

క్రింద ఉన్న అద్దె ఆస్తుల ఉదాహరణ ఆ లూప్ ఆచరణలో ఎలా పనిచేస్తుందో చూపిస్తుంది; ఒక ప్రాక్టిషనర్ సవరణ ఎలా నిర్మిత కనుగొనికగా, తర్వాత eval లక్ష్యంగా, చివరకు Codex-పరిమిత ఇంజినీరింగ్ పనిగా మారుతుందో మీకు వివరిస్తుంది.

అద్దె ఆస్తి ఉదాహరణ

అద్దె ఆస్తి ఆదాయం వ్యక్తిగత పన్ను రిటర్న్‌లోని Schedule Eలో నివేదించబడుతుంది. ఇంజినీరింగ్ దృష్టికోణంలో, దాన్ని ఎక్స్‌ట్రాక్ట్ చేసే పని వివరించడానికి సులభం కానీ బాగా చేయడం కష్టం. సిస్టమ్ గందరగోళమైన సోర్స్ మెటీరియల్‌ను (చేతిరాత గమనికలు, ఇమెయిల్‌లు, స్ప్రెడ్‌షీట్‌లు, మరియు ఇతర క్లయింట్ ఫైల్‌లు) చదవాలి, సిస్టమ్ పన్ను ఇంజిన్‌కు నమ్మకంగా మ్యాప్ చేయగల అద్దె-ఆస్తి ఫీల్డ్‌లను ఎక్స్‌ట్రాక్ట్ చేయాలి, మరియు ప్రాక్టిషనర్ ఫలితాన్ని ఆమోదించడానికి లేదా సరిచేయడానికి సరిపడా ఆధారాన్ని సంరక్షించాలి. క్రింద ఉన్న సరళీకృత ఉదాహరణ ఆ సోర్స్ ఫైల్‌లు మరియు ఎక్స్‌ట్రాక్ట్ చేసిన అవుట్‌పుట్‌లు ఎలా ఉండవచ్చో చూపిస్తుంది.

అద్దె ఆస్తి సోర్స్ ప్యాకేజ్‌ను, అవి దిగువ పన్ను ఇంజిన్ భావనలకు మ్యాప్ చేయబడే ముందు, సూచనలతో కూడిన ఫీల్డ్‌లుగా సాధారణీకరిస్తారు.

1. ఒక ప్రాక్టిషనర్ సవరణ ఒక వైఫల్యాన్ని బయటపెడుతుంది

ఏజెంట్ అంచనా వేసిన విలువ మరియు ఫైల్ చేసిన పన్ను రిటర్న్‌లోని వాస్తవ విలువ మధ్య తేడా నిజమైన ఎక్స్‌ట్రాక్షన్ లోపాన్ని సూచించవచ్చు, కానీ అది ప్రాక్టిషనర్ అభిరుచి, పన్ను ఇంజిన్‌లో గత సంవత్సరం రిటర్న్ నుంచి తీసుకువచ్చిన విలువ, లేదా ఫైలింగ్ వర్క్‌ఫ్లోలో వేరే చోట చేర్చబడిన లేదా మార్చబడిన విలువ కూడా కావచ్చు. ఏ చర్యలకు ప్రాక్టిషనర్ సవరణ అవసరమైందో లేదా సమర్పణను అడ్డుకున్నాయో గుర్తించేందుకు, ఆ సందర్భాలను వేరు చేయడంలో ప్రాక్టిషనర్లు మాకు సహాయపడ్డారు.

ఈ సవరణలను మేము వివరంగా చూడగలిగినందున, సమీక్ష ప్రక్రియను వైఫల్యం తర్వాత ముగిసే దశ నుంచి నిరంతర అభ్యాస చక్రంగా మార్చాము. నిపుణుల చర్యలను నిర్మిత డేటాగా పట్టుకునేలా మేము వర్క్‌ఫ్లోను రూపొందించాము. ఇప్పుడు, Tax AI ఏమి ప్రతిపాదించిందో, ప్రాక్టిషనర్ ఏమి మార్చాడో, చివరకు ఫైల్ చేసిన రిటర్న్‌లో ఏమి చేరిందో ఖచ్చితంగా నమోదు చేయడం ద్వారా ప్రతి జోక్యం ఉత్పత్తి's మెరుగుదల లూప్‌కు ఇంధనం అందిస్తుంది.

2. ఉత్పత్తి ట్రేస్‌లు సవరణలను evals‌గా మారుస్తాయి

అద్దె ఆస్తుల వంటి క్లిష్టమైన వర్క్‌ఫ్లో కోసం, సోర్స్ ఫైల్‌లు మరియు ఫైల్ చేసిన రిటర్న్ మధ్య ఏమి జరుగుతుందో సిస్టమ్ సంరక్షించాలి. ఆ మార్గంలో, పత్రాలు క్రమబద్ధీకరించబడతాయి, విభజించబడతాయి, వర్గీకరించబడతాయి; అద్దె-ఆస్తి ఫీల్డ్‌లు సోర్స్ మెటీరియల్‌కు తిరిగి సూచనలతో ఎక్స్‌ట్రాక్ట్ చేయబడతాయి; ఆ విలువలు పన్ను ఇంజిన్‌లోకి మ్యాప్ చేయబడతాయి; మరియు ఫైలింగ్‌కు ముందు ప్రాక్టిషనర్లు వాటిని ఇంకా సరిచేయవచ్చు. ఆ ఉత్పత్తి-స్థాయి ట్రేస్‌లు వైఫల్యం ఎక్కడ జరిగిందో పరిశీలించడం సాధ్యమయ్యేలా చేస్తాయి. ప్రాక్టిషనర్ సవరణలను ఉపయోగకరమైన మూల్యాంకన లక్ష్యాలుగా మార్చడానికి, సిస్టమ్ వాటిని మూడు దశల్లో ప్రాసెస్ చేస్తుంది:

తేడాను పట్టుకోండి: Tax AI అవుట్‌పుట్‌ను ఫైల్ చేసిన రిటర్న్‌తో పోల్చి, ఆశించిన విలువ, అంచనా విలువ, మరియు ఆ తేడా అమలు చేయదగినదిగా కనిపిస్తుందా అనే విషయాన్ని పట్టుకునే ఫీల్డ్-స్థాయి సమీక్ష వరుసలను ఉత్పత్తి చేస్తారు.
సంబంధిత వైఫల్యాలను సమూహీకరించండి: పునరావృతమయ్యే ఉత్పత్తి వైఫల్యాలను ఆశించిన వర్క్‌ఫ్లో శబ్దం నుంచి వేరు చేయడానికి, సమానమైన సమీక్ష వరుసలను సమూహీకరిస్తారు. ఉదాహరణకు, పునరావృతమయ్యే ప్రాక్టిషనర్ సవరణలు Tax AI తరచుగా fair-rental-day ఫీల్డ్‌లను మిస్ అవుతుందని, “other expenses”ను తప్పుగా నిర్వహిస్తుందని, లేదా అదే సోర్స్ ప్యాకేజ్‌లోని అనేక అద్దె ఆస్తులను గందరగోళపరుస్తుందని చూపవచ్చు.
పునరావృత నమూనాలను eval లక్ష్యాలుగా మార్చండి: ఒకసారి సమీక్షించి కొలిచిన తర్వాత, పునరావృత కనుగొనికలు Codex మెరుగుపరచడానికి స్పష్టమైన eval లక్ష్యాలుగా మారుతాయి.

అద్దె ఆస్తి సమీక్ష వరుసలు పునరావృతమయ్యే ఉత్పత్తి వైఫల్యాలను ఆశించిన శబ్దం నుంచి వేరు చేసి, తర్వాత అమలు చేయగల సందర్భాలను Codex ఎక్కాల్సిన కొండలా ఉండే మూల్యాంకన లక్ష్యాలుగా మారుస్తాయి.

3. ఈ కనుగొనిక Codex ఎక్కాల్సిన కొండగా మారుతుంది

మూడవ స్తంభం ఈ కొత్త evals‌పై చర్య తీసుకోగల ఇంజినీరింగ్ లూప్‌ను సృష్టించడం. ఇక్కడే Codex కేంద్రంగా మారుతుంది.

మన eval పైప్‌లైన్ Tax AI నిరంతరం "fair rental days" ఫీల్డ్‌ను మిస్ అవుతుందని, అదే సమయంలో ప్రాక్టిషనర్లు దాన్ని నమ్మకంగా నింపుతున్నారని గుర్తించిందని ఊహించండి. ఈ కనుగొనిక ఇప్పటికే ప్రతినిధి సోర్స్ ప్యాకేజ్‌లు మరియు ఆశించిన అవుట్‌పుట్‌లతో కూడిన లక్ష్యిత eval సెట్‌గా ప్యాక్ చేయబడినందున, Codex ఉత్పత్తి స్కాఫోల్డ్‌లోనే మూల కారణాన్ని నేరుగా పరిశీలించగలదు.

Codex కేవలం తక్కువ స్థాయి తుది అవుట్‌పుట్‌తో మాత్రమే పని చేయడం లేదు. ఇది trace, eval, repo, మరియు skills‌ను కలిసి పరిశీలిస్తుంది:

పైప్‌లైన్‌ను పరిశీలించండి: సమస్య మద్దతు లేని ఫీల్డ్‌నా, మిస్ అయిన ఎక్స్‌ట్రాక్షన్ నమూనా, సోర్స్-ఎంపిక సమస్య, mapper లోటు, లేదా grader సమస్యనా అని నిర్ణయించడానికి సోర్స్ ప్యాకేజ్‌లు, extraction schemas, mapper ప్రవర్తన, మరియు code paths‌ను పరిశీలించండి.
లక్ష్యిత పరిష్కారాలను అమలు చేయండి: extraction schema‌ను విస్తరించండి, అద్దె-ఆస్తి పత్రాల కోసం సోర్స్ ఎంపికను మెరుగుపరచండి, tax-engine mapper‌ను నవీకరించండి, లేదా ఆశించిన వర్క్‌ఫ్లో శబ్దాన్ని వైఫల్యంగా లెక్కిస్తున్నట్లయితే grader‌ను మెరుగుపరచండి.
ధృవీకరించి ప్రతిపాదించండి: లక్ష్యిత eval‌ను మళ్లీ నడపండి, విస్తృత regression suites‌ను నడపండి, మరియు ఇంజినీరింగ్ సమీక్ష కోసం అభ్యర్థి పుల్ రిక్వెస్ట్‌ను చూపించండి.
లూప్‌ను ముగించండి: పునరావృతమయ్యే ప్రాక్టిషనర్ సవరణను కొలవగల ఇంజినీరింగ్ పనిగా మార్చండి. ఆధారం అస్పష్టంగా ఉన్నా లేదా సురక్షితంగా ఆటోమేట్ చేయలేనప్పటికీ, ఆ సందర్భాన్ని బలవంతంగా లూప్‌లో నెట్టకుండా మళ్లీ ఉత్పత్తి బృందానికి పంపిస్తారు.

ఎండ్-టు-ఎండ్ స్వీయ-మెరుగుదల లూప్: ప్రొడక్షన్ ట్రేస్‌లు పునరావృతమయ్యే ఫీల్డ్-స్థాయి సవరణలను బయటపెడతాయి; అవి ట్రేస్, evals, repo, మరియు skills‌తో పాటు Codex పరిశీలించగల వైఫల్య సంకేతాలుగా మారుతాయి. అమలు చేయగల నమూనాలు పరిమిత evals మరియు అభ్యర్థి ఉత్పత్తి మార్పులుగా మారుతాయి; అస్పష్టమైన సందర్భాలు సమీక్ష కోసం మళ్లీ ఇంజినీర్లకు పంపబడతాయి. షిప్ చేసిన ప్రతి మెరుగుదల తదుపరి చక్రానికి కొత్త ప్రొడక్షన్ ఆధారాన్ని సృష్టిస్తుంది.

ఈ లూప్‌ను నిర్మించడానికి Codex‌ను ఎలా ఉపయోగించాలి

అద్దె ఆస్తి ఉదాహరణ మరింత విస్తృతంగా మళ్లీ ఉపయోగించగల నమూనాకు ప్రతీక: ఏజెంట్ సామర్థ్యాలను మెరుగుపరచడానికి ప్రొడక్షన్ ఆర్టిఫాక్ట్‌లు మరియు ట్రేస్‌లను ఉపయోగించడం. ప్రొడక్షన్ డేటా నుంచి సమీక్షించిన కనుగొనికలు, సోర్స్ ట్రేస్‌లు, ఆశించిన tax-engine అవుట్‌పుట్, సంబంధిత కోడ్ ఉదాహరణలు, మరియు eval కమాండ్‌లను ఇన్‌పుట్‌ల సమితిగా ఇచ్చినప్పుడు, Codex వారాలు మరియు నెలల వ్యవధిలో పనితీరు మరియు ఖచ్చితత్వాన్ని గణనీయంగా మెరుగుపరచగలదు. ఇది harness engineering మరియు Symphony పై మా పనిలో వివరించిన సూత్రాలపై ఆధారపడుతుంది; ఇవి పనులను Codex‌కు స్పష్టంగా ఎలా చూపించాలి, పరిమిత సందర్భం మరియు టూల్‌లను ఎలా అందించాలి, మరియు ధృవీకరణతో పాటు మానవ సమీక్షను వాతావరణంలో భాగంగా ఎలా ఉంచాలి అనే విషయాలను వివరిస్తాయి.

ఆ ఆధారం స్వయంచాలకంగా Codex పనిగా మారదు. ఒక ప్రాక్టిషనర్ సవరణ ఎక్స్‌ట్రాక్షన్ లోపం, మ్యాపింగ్ సమస్య, మద్దతు లేని ఉత్పత్తి ప్రవర్తన, పన్ను నిర్ణయం, లేదా ఆశించిన వర్క్‌ఫ్లో శబ్దాన్ని ప్రతిబింబించవచ్చు. పునరావృత తేడాలను సమీక్షించి, అమలు చేయగల కనుగొనికగా సమూహీకరించిన తర్వాత మాత్రమే, సిస్టమ్ వాటిని స్పష్టమైన విజయ ప్రమాణంతో కూడిన పరిమిత పనిగా మారుస్తుంది.

మేము ఈ ఆటోమేషన్‌ను ఉత్పత్తి యొక్క పరిమిత పొరకు వర్తింపజేస్తాము. ఈ పొర ఎక్స్‌ట్రాక్షన్‌ను నిర్వహించి, సోర్స్ పత్రాలను పన్ను వర్క్‌ఫ్లోలలోకి మ్యాప్ చేస్తుంది. ఆర్కిటెక్చర్, ఉత్పత్తి నిర్ణయాలు, మరియు షిప్పింగ్‌కు ఇంజినీర్లు బాధ్యత వహిస్తూనే ఉంటారు. ప్రాక్టిషనర్లు వారు ఇప్పటికే చేసే పనిద్వారానే మెరుగుదల లూప్‌ను నడిపిస్తారు: ఎక్స్‌ట్రాక్ట్ చేసిన విలువలను సరిచేయడం, రిటర్న్‌లను సమీక్షించడం, మరియు తుది ఫైలింగ్‌లను ఆమోదించడం.

Codex‌కు ఫలితం అస్పష్టమైన హెచ్చరిక కాదు; ఆధారం, సవరించగల ఉత్పత్తి ఉపరితలాలు, మరియు స్పష్టమైన ధృవీకరణ గేట్లతో కూడిన పరిమిత ఇంజినీరింగ్ పని. ప్రతినిధి అద్దె ఆస్తి పనికి సంబంధించిన సందర్భాన్ని ఇలా సంక్షిప్తంగా చెప్పవచ్చు:

ప్లెయిన్ టెక్స్ట్

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

పరిమిత Codex పని వాతావరణం, వ్రాయగల worktree [1]ను చదవడానికి మాత్రమే ఉన్న ప్రొడక్షన్ సందర్భం [5] నుంచి వేరు చేస్తుంది. worktree‌లో Codex పరిశీలించగల లేదా సవరించగల పరిమిత ఉత్పత్తి ఉపరితలం [2], విజయాన్ని నిర్వచించే లక్ష్యిత మరియు regression evals [3], మరియు పనిని ఎలా నడపాలి, గత నిర్ణయాలను ఎలా గౌరవించాలి అనే విషయాలను సంకేతీకరించే మళ్లీ ఉపయోగించగల skills/docs [4] ఉంటాయి. చదవడానికి మాత్రమే ఉన్న సందర్భం ప్రొడక్షన్ trace, సోర్స్ పత్రాలు, Tax AI అంచనా, తుది రిటర్న్, మరియు tax-engine ఫీల్డ్ డాక్యుమెంటేషన్‌ను అందిస్తుంది; అందువల్ల Codex ఆధారాన్ని మార్చకుండా వైఫల్యాన్ని పరిశీలించగలదు.

కొత్త డొమైన్‌లకు విస్తరణ

అదే లూప్ అద్దె ఆస్తులను మించి కూడా వర్తిస్తుంది. అద్దె ఆస్తులు 90% precision మరియు recall చేరడానికి సుమారు ఆరు వారాలు మరియు గణనీయమైన ఇంజినీరింగ్ పర్యవేక్షణ తీసుకున్నాయి, కానీ ఆ పని మళ్లీ ఉపయోగించగల abstractions, review artifacts, eval conventions, మరియు implementation patterns‌ను ఉత్పత్తి చేసింది; ఇవి Schedule C మరియు Schedule A వంటి సమానంగా క్లిష్టమైన షెడ్యూల్‌లకు మద్దతు ఇవ్వడం సులభం చేశాయి.

Tax AI స్వీయ-మెరుగుదల ఏజెంట్‌లను నిర్మించే మార్గాన్ని నిరూపిస్తుంది. ప్రాక్టిషనర్లు సేవను అందించడం ద్వారా అధిక-విలువ గల ఫీడ్‌బ్యాక్ సంకేతాలను సృష్టిస్తారు. ఉత్పత్తి వర్క్‌ఫ్లోలు ఆ సంకేతాలను నిర్మిత ఆధారంగా సంరక్షిస్తాయి. Eval మద్దతు ఉన్న ఇంజినీరింగ్ సిస్టమ్‌లు మెరుగుదలలు ప్రొడక్షన్‌కు చేరే ముందు వాటిని ధృవీకరిస్తాయి, మరియు ఏజెంట్-ఆధారిత లూప్ సిస్టమ్‌ను నిరంతర స్వీయ-మెరుగుదల ప్రవాహంలో ఉంచుతుంది.

Thrive Holdings నిర్మాణం ఈ వాతావరణాన్ని నిర్దిష్ట పరిశ్రమల్లో పునరావృతం చేయడానికి మాకు అనుమతిస్తుంది. Holdings యజమాని కూడా, Operator కూడా కావడంతో, మా సంయుక్త ఇంజినీరింగ్ బృందాలు Crete వంటి వ్యాపారాల లోపల నుంచే ప్రాక్టిషనర్లు మరియు ప్రొడక్షన్ డేటాతో నేరుగా పని చేయగలుగుతున్నాయి; విక్రేతగా కాదు, భాగస్వాములుగా. దీని అర్థం సాంకేతికత, ఉత్పత్తి, మరియు సేవ అన్నీ ఒకే చోట ఉండటం వల్ల మేము వేగంగా కదలి అసాధారణ ఉత్పత్తులను నిర్మించగలుగుతున్నాము.

గత సంవత్సరం పన్ను సిద్ధీకరణపై 180 గంటలు ఖర్చు చేసిన ఒక సీనియర్ అకౌంటెంట్, ఈ సంవత్సరం దానిపై కేవలం 15 గంటలు మాత్రమే ఖర్చు చేసింది. ఆ సమయాన్ని ఆమె తన ప్రతి క్లయింట్‌కు ఫోన్ చేసి, వారి రిటర్న్‌లను వారికి వివరించడానికి కొంతవరకు వినియోగించింది; ఏడాది క్రితం సాధ్యం కాని అధిక-స్పర్శ సేవా స్థాయి అది. మిగిలిన సమయాన్ని ఆమె కొత్త క్లయింట్‌లను తీసుకోవడానికి మరియు కొత్త సేవా ఆఫర్‌లకు విస్తరించడానికి ఉపయోగించింది.

కలిసి, మా బృందాలు ఇప్పుడు Thrive Holdings⁠(కొత్త విండోలో తెరుచుకుంటుంది) అంతటా ఇతర డొమైన్‌లలో వర్క్‌ఫ్లోలను నిర్మించడానికి Tax AI నుంచి వచ్చిన ఇదే మూడు-భాగాల రూపకల్పనను బ్లూప్రింట్‌గా ఉపయోగిస్తున్నాయి; బుక్‌కీపింగ్ మరియు ఆడిట్ వంటి అకౌంటింగ్ వర్క్‌ఫ్లోలు, అలాగే IT హెల్ప్ డెస్క్ ఆటోమేషన్ వంటి ఆపరేషనల్ వర్క్‌ఫ్లోలు. డొమైన్‌లు మరియు పరిశ్రమల అంతటా, స్వీయ-మెరుగుదల ఏజెంట్‌ల విస్తృత వాగ్దానం నిలుస్తుంది. ఉత్తమ ఏజెంట్‌లు కాలక్రమేణా మరింత సామర్థ్యవంతంగా, మరింత నమ్మదగినవిగా, మరింత విలువైనవిగా మారడం నేర్చుకునేలా మనుషులచే నడిపించబడతాయి.

ఈ ప్రాజెక్టుపై పని చేసిన OpenAI బృందం గురించి మరింత తెలుసుకోవాలంటే, సంప్రదించండి.

రచయిత

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo, John de Wasseige

చదవడం కొనసాగించండి

అన్నీ చూడండి

Core dump epidemiology: fixing an 18-year-old bug

ఇంజనీరింగ్30 జూన్, 2026

Windows లో Codex ను ప్రారంభించడానికి సురక్షితమైన, ప్రభావవంతమైన sandbox నిర్మాణం

ఇంజనీరింగ్13 మే, 2026

గాబ్లిన్లు ఎక్కడి నుంచి వచ్చాయి

ఇంజనీరింగ్5 మే, 2026