27 Mayıs 2026

Codex ile kendini iyileştiren vergi ajanları oluşturma

Teknik Ekip Üyeleri: Aravind Srinivasan ve Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo ve John de Wasseige (OpenAI)

Yükleniyor...

Thrive Holdings ve OpenAI’ın, uygulayıcı uzmanlığını Codex odaklı bir döngüyle birleştirerek Crete muhasebecileri için Tax AI’ı nasıl birlikte geliştirdiği

Gerçek dünya sistemleri üretimde laboratuvardakinden farklı davranır ve dağıtımdan önce öngörülmesi zor şekillerde bozulur. Ekipler bu hataları çoğu zaman yayına alımdan sonra keşfeder; ardından haftalarını uç durumları inceleyerek, komutları ayarlayarak ve üretim geri bildirimini kalıcı ürün iyileştirmelerine çevirerek geçirir. Geri bildirim döngüsü manueldir ve yavaştır; yalnızca bir mühendis onu ilerlettiğinde iyileşir. Ama bugün, özenle tasarlanmış eval altyapısı, uygulayıcılara ve gerçek dünya ortamlarına doğrudan erişim ve Codex’in sınırdaki otonom ajan yetenekleriyle, kendini iyileştiren ajanlar oluşturabilirsiniz.

Bu yazıda, bu tür bir ajanı oluşturmak için Codex’i nasıl kullandığımızı ele alacağız. Geçtiğimiz altı ay boyunca, OpenAI’ın sahaya konuşlandırılmış mühendisleri ve araştırmacıları, Thrive Holdings’in mühendisleriyle birlikte, giderek daha karmaşık vergi beyannamelerinin hazırlanmasına yardımcı olmak için Crete⁠(yeni bir pencerede açılır)’in 30’dan fazla muhasebe firmasından oluşan ağıyla birlikte ve onlar için Tax AI’ı geliştirmek üzere iş birliği yaptı. Tax AI, her hatayı bulup düzeltmek için mühendislere güvenmek yerine, üretim kullanımını otonom iyileştirmeyi besleyen yapılandırılmış sinyallere dönüştürmek için Codex’i kullanır.

Crete uygulayıcıları her sezon on binlerce vergi beyannamesi hazırlar; bu da altta yatan milyonlarca belge üzerinde çalışmayı gerektirir. Orta ila yüksek karmaşıklıktaki beyanlarda, yalnızca veri girişi bile beyanname başına sekiz saat sürebilir; bu süreç çoğu zaman dağınık veri kaynaklarını, önceki yıl belgelerini ve manuel çıkarım ile hesaplamayı içerir. Bizi, vergi sezonunun en yoğun döneminde vergi hazırlığını önemli bir darboğaz olarak görmeye yönlendirdiler.

Bu sorunu çözmek için Tax AI, bu vergi sezonunda pilot programa katılan Crete firmalarında 7.000 vergi beyannamesi işledi. Sistem, 1040 ve 1041 vergi beyannamelerinin hazırlanmasındaki zaman yoğun sürecin büyük bölümünü otomatikleştiriyor; ancak verimlilik kazanımlarından da etkileyici olan, sistemin kendisinin üç ay önce ilk kez dağıtılan sürümden ölçülebilir biçimde daha iyi olmasıdır.

Ölçülebilir kendini iyileştirme

Tax AI’da uygulayıcılar, kaynak dosyaları müşteri özelindeki notlarla birlikte yükler. Tax AI ardından incelemeye hazır bir vergi motoru gönderimi oluşturur. Bu, uygulayıcılara vergi hazırlığında zamanlarının yaklaşık üçte birini kazandırır, beyannameleri %97’ye varan doğrulukla taslaklar ve işlem kapasitesini yaklaşık %50 artırarak müşterilerle zaman geçirmeleri için daha fazla alan yaratır.

Bu iyileşmeyi, Tax AI’ın daha sonra düzeltme gerektirmeden bir beyannameyi ne kadar doğru tamamlayabildiğini anlayarak nicelendirebiliriz. Doğruluğu, beyannamelerin ne kadarının %75, %90 veya %100 doğru alan tamamlama düzeyine ulaştığını kontrol ederek ölçüyoruz. Lansmanda beyannamelerin yalnızca dörtte biri %75 doğru alan tamamlama düzeyindeydi; ancak altı hafta içinde %86’sı bu eşiğe ulaştı. Sistem, %90 ve %100 doğru alan tamamlama düzeylerinde daha da hızlı büyüme gösterdi. Bu eşikler, farklı beyannamelerin hâlâ ne kadar uygulayıcı takibi gerektirdiğine dair bize pratik bir görünüm sunar.

Başlangıçta Tax AI, W-2 ve 1099’lar gibi daha basit işleri ele alıyordu. Sezon ilerledikçe K-1’ler, çizelgeler ve daha zor uç durumlar içeren daha karmaşık beyannamelere geçti. Üstlendiği görevler manuel olarak yapılması daha zor ve daha zaman alıcı olduğundan, her yeni yetenek beyanname başına bir öncekinden daha fazla zaman kazandırdı. Bugün de süregelen ilerleme görmeye devam ediyoruz.

Sırada, ekiplerimizin Tax AI’ı üç kritik sütuna dayanarak nasıl kendini iyileştiren hâle getirdiğini inceleyeceğiz: 1) uzman uygulayıcı geri bildirimi, 2) üretim izleri (girdilerden nihai çıktıya kadar yapılandırılmış bir geçmiş) ve 3) sürekli, daha hızlı ürün geliştirmeyi mümkün kılmak için özelleştirilmiş eval'lere dayanan Codex odaklı bir yineleme döngüsü. Deneyimimizin, uygulayıcı uzmanlığının genel sistemin ve içinden geçen verinin kalitesini şekillendirmede kilit olduğu diğer alanlardaki geliştiriciler için yararlı olmasını umuyoruz.

Tax AI daha karmaşık beyanlara genişledikçe, puanlanan beyannamelerin %75, %90 ve tam tamamlanmaya ulaşan payı vergi sezonu boyunca artmaya devam etti.

Sorun

Vergi hazırlığının daha zor bölümlerine ilerledikçe (K-1’ler, kiralık gayrimenkul çizelgeleri ve değerlerin birden fazla kaynak dosya arasında uzlaştırılması gereken vergi formları), asıl zorluğun ürünün karmaşık üretim hatalarını görünür, anlaşılır ve eyleme dönüştürülebilir kılıp kılamayacağı olduğu açıkça ortaya çıktı.

Ürünün ilk günlerinde düzeltmelerin çoğu manueldi. Uygulayıcılar sistem hatalarını düzeltebiliyordu, ancak ürün tam bağlamı yakalamıyordu: beyan öncesinde değiştirilen bir değer gerçek bir çıkarım hatasını, bir eşleme sorununu, eksik ürün desteğini veya beklenen iş akışı gürültüsünü yansıtabilir. Bu vakaları ayıklamak hâlâ mühendislik ekibinin takibini gerektiriyordu. Mühendisler kodlama ajanlarını kullanabiliyordu, ancak sistem henüz yapay zekâyı bir iyileştirme döngüsü içinde anlamlı biçimde kullanacak şekilde tasarlanmamıştı. Tırmanılması gereken doğru tepeyi belirleyecek sinyale sahip değildik.

Yaklaşımımız: üç parçalı bir döngü

Bu da bizi sistemi üç sütun etrafında tasarlamaya yöneltti:

Uygulayıcılara yakın kalın: İşi yapan kişilerin, ürünün ne öğrendiğini yönlendirmesi gerekir. Onların sezgisi ve anlayışı hangi hataların önemli olduğunu ortaya çıkarır ve iş akışının hangi bölümlerine sırada odaklanmaya değer olduğunu belirlemeye yardımcı olur.
Ürünü, üretim kanıt üretecek şekilde kurun: Ürün yalnızca girdileri ve çıktıları değil; kaynak materyalden çıkarılan alanlara ve kökene, oradan aşağı akış gönderimine ve uzman düzeltmesine kadar tüm yolu yakalamalıdır.
Codex odaklı bir iyileştirme döngüsü oluşturun: Üretim sorunları görünür ve yapılandırılmış hâle geldiğinde, bulgulara, özelleştirilmiş eval'lere ve kapsamı belirlenmiş mühendislik görevlerine dönüşebilir. Codex daha sonra araştırmaya, değişiklik önermeye, bunları hedefli ve regresyon eval'lerine karşı doğrulamaya ve ürünü tamamen manuel bir yineleme döngüsünden daha hızlı ileri taşımaya yardımcı olabilir.

Aşağıdaki kiralık mülk örneği, bu döngünün pratikte nasıl çalıştığını gösterir; bir uygulayıcı düzeltmesinin nasıl yapılandırılmış bir bulguya, ardından bir eval hedefine ve son olarak Codex kapsamındaki bir mühendislik görevine dönüştüğünü adım adım açıklar.

Kiralık mülk örneği

Kiralık mülk geliri, bireysel vergi beyannamesinin Schedule E bölümünde raporlanır. Mühendislik açısından, bunu çıkarma görevi tanımlaması kolay ama iyi yapılması zor bir iştir. Sistemin dağınık kaynak materyali (el yazısı notlar, e-postalar, elektronik tablolar ve diğer müşteri dosyaları) okuması, sistemin vergi motoruna güvenle eşleyebileceği kiralık mülk alanlarını çıkarması ve bir uygulayıcının sonucu onaylayabilmesi veya düzeltebilmesi için yeterli kanıtı koruması gerekir. Aşağıdaki basitleştirilmiş örnek, bu kaynak dosyaların ve çıkarılmış çıktıların nasıl görünebileceğini gösterir.

*Bir kiralık mülk kaynak paketi, aşağı akış vergi motoru kavramlarına eşlenmeden önce alıntılanmış alanlara normalize edilir.*

1. Bir uygulayıcı düzeltmesi bir hatayı ortaya çıkarır

otonom ajan tarafından tahmin edilen değer ile beyan edilen vergi beyannamesindeki gerçek değer arasındaki fark, gerçek bir çıkarım hatasını yansıtabilir; ancak bu fark bir uygulayıcı tercihi, vergi motorunda önceki yıl beyannamesinden devreden bir değer ya da beyan iş akışının başka bir yerinde eklenen veya değiştirilen bir değer de olabilir. Uygulayıcılar, hangi eylemlerin uygulayıcı düzeltmesi gerektirdiğini veya bir gönderimi engellediğini belirleyebilmemiz için bu vakaları ayırt etmemize yardımcı oldu.

Bu düzeltmeleri ayrıntılı olarak görebildiğimiz için, inceleme sürecini nihai bir başarısızlık sonrası adımdan sürekli bir öğrenme döngüsüne dönüştürdük. Uzman eylemlerini yapılandırılmış veri olarak yakalayacak iş akışını tasarladık. Artık her müdahale, Tax AI’ın tam olarak ne önerdiğini, uygulayıcının neyi değiştirdiğini ve sonunda beyan edilen beyannamede neyin yer aldığını kaydederek ürünün iyileştirme döngüsünü besliyor.

2. Ürün izleri düzeltmeleri eval'lere dönüştürür

Kiralık mülkler gibi karmaşık bir iş akışında sistemin, kaynak dosyalar ile beyan edilen beyanname arasında olanları koruması gerekir. Bu yol boyunca belgeler düzenlenir, bölünür ve sınıflandırılır; kiralık mülk alanları, kaynak materyale geri giden alıntılarla çıkarılır; bu değerler vergi motoruna eşlenir; ve uygulayıcılar beyan öncesinde bunları yine de düzeltebilir. Bu ürün düzeyindeki izler, bir hatanın nerede meydana geldiğini araştırmayı mümkün kılar. Uygulayıcı düzeltmelerini yararlı değerlendirme hedeflerine dönüştürmek için sistem bunları üç adımda işler:

Farkı yakalayın: Tax AI’ın çıktısı, beklenen değeri, tahmin edilen değeri ve farkın eyleme dönüştürülebilir görünüp görünmediğini yakalayan alan düzeyinde inceleme satırları üretmek için beyan edilen beyannameyle karşılaştırılır.
İlgili hataları gruplayın: Benzer inceleme satırları, yinelenen ürün hatalarını beklenen iş akışı gürültüsünden ayırmak için gruplanır. Örneğin, tekrarlanan uygulayıcı düzeltmeleri Tax AI’ın sık sık “adil kiralama günleri” alanlarını kaçırdığını, “diğer giderleri” yanlış ele aldığını veya aynı kaynak paketi içindeki birden fazla kiralık mülkü karıştırdığını gösterebilir.
Tekrarlanan örüntüleri değerlendirme hedeflerine dönüştürün: İncelenip ölçüldükten sonra, tekrarlanan bulgular Codex’in iyileştirmesi için net değerlendirme hedeflerine dönüşür.

Kiralık mülk inceleme satırları, yinelenen ürün hatalarını beklenen gürültüden ayırır; ardından eyleme dönüştürülebilir vakaları, Codex’e tırmanacağı bir tepe veren değerlendirme hedeflerine dönüştürür.

3. Bulgu, Codex için tırmanılacak bir tepeye dönüşür

Üçüncü sütun, bu yeni eval'ler üzerinde harekete geçebilecek bir mühendislik döngüsü oluşturmaktır. Codex’in merkezi hâle geldiği yer burasıdır.

Diyelim ki eval işlem hattımız, Tax AI’ın “adil kiralama günleri” alanını tutarlı biçimde kaçırdığını, uygulayıcıların ise bunu güvenilir şekilde doldurduğunu işaretliyor. Bu bulgu, temsilî kaynak paketleri ve beklenen çıktılarla birlikte hedefli bir eval kümesine zaten paketlenmiş olduğundan, Codex kök nedeni doğrudan ürün iskeleti içinde araştırabilir.

Codex yalnızca vasat bir nihai çıktıyla çalışmıyor. İzi, eval'i, depoyu ve becerileri birlikte inceler:

İşlem hattını araştırın: Sorunun desteklenmeyen bir alan, kaçırılmış bir çıkarım örüntüsü, bir kaynak seçimi sorunu, bir eşleyici açığı ya da bir notlayıcı sorunu olup olmadığını belirlemek için kaynak paketlerini, çıkarım şemalarını, eşleyici davranışını ve kod yollarını inceleyin.
Hedefli düzeltmeler uygulayın: Çıkarım şemasını genişletin, kiralık mülk belgeleri için kaynak seçimini iyileştirin, vergi motoru eşleyicisini güncelleyin veya beklenen iş akışı gürültüsü hata olarak sayılıyorsa notlayıcıyı iyileştirin.
Doğrulayın ve önerin: Hedefli eval'i yeniden çalıştırın, daha geniş regresyon paketlerini çalıştırın ve mühendislik incelemesi için aday bir çekme isteği ortaya çıkarın.
Döngüyü kapatın: Tekrarlayan bir uygulayıcı düzeltmesini ölçülebilir bir mühendislik görevine dönüştürün. Kanıt belirsizse veya güvenli biçimde otomatikleştirilemiyorsa, vaka döngüye zorla sokulmak yerine yeniden ürün ekibine yönlendirilir.

Uçtan uca kendini iyileştirme döngüsü: üretim izleri, tekrarlanan alan düzeyi düzeltmeleri ortaya çıkarır; bunlar da Codex’in iz, eval'ler, depo ve becerilerle birlikte inceleyebileceği hata sinyallerine dönüşür. Eyleme dönüştürülebilir örüntüler sınırlı eval'lere ve aday ürün değişikliklerine dönüşür; belirsiz durumlar inceleme için yeniden mühendislere yönlendirilir. Yayınlanan her iyileştirme, bir sonraki döngü için yeni üretim kanıtı oluşturur.

Bu döngüyü kurmak için Codex nasıl kullanılır

Kiralık mülk örneği, üretim artefaktları ve izleri kullanarak bir otonom ajanın yeteneklerini iyileştirmeye yönelik daha geniş, yeniden kullanılabilir bir örüntünün simgesidir. Üretim verilerinden gözden geçirilmiş bulgular, kaynak izleri, beklenen vergi motoru çıktısı, ilgili kod örnekleri ve eval komutları bir girdi kümesi olarak verildiğinde, Codex haftalar ve aylar içinde performans ve doğrulukta anlamlı iyileştirmeler sağlayabilir. Bu, harness engineering ve Symphony üzerine çalışmalarımızda açıklanan ilkelerin üzerine kuruludur; bu çalışmalar görevlerin Codex için nasıl okunur hâle getirileceğini, kapsamı belirlenmiş bağlam ve araçların nasıl sağlanacağını ve doğrulama ile insan incelemesinin ortamın bir parçası olarak nasıl tutulacağını anlatır.

Bu kanıt otomatik olarak bir Codex görevine dönüşmez. Bir uygulayıcı düzeltmesi, bir çıkarım hatasını, bir eşleme sorununu, desteklenmeyen ürün davranışını, vergi muhakemesini veya beklenen iş akışı gürültüsünü yansıtabilir. Yalnızca tekrarlanan farklar gözden geçirilip eyleme dönüştürülebilir bir bulgu altında gruplandıktan sonra sistem bunları net bir başarı koşuluna sahip sınırlı bir göreve dönüştürür.

Bu otomasyonu ürünün sınırlı bir katmanına uyguluyoruz. Bu katman çıkarım yapar ve kaynak belgeleri vergi iş akışlarına eşler. Mühendisler mimari, ürün kararları ve yayına alma konusunda sorumlu olmaya devam eder. Uygulayıcılar, zaten yaptıkları iş üzerinden iyileştirme döngüsünü yönlendirir: çıkarılan değerleri düzeltmek, beyannameleri incelemek ve nihai beyanları onaylamak.

Codex için sonuç, belirsiz bir uyarı değil; kanıt, düzenlenebilir ürün yüzeyleri ve açık doğrulama kapıları içeren kapsamı belirlenmiş bir mühendislik görevidir. Temsilî bir kiralık mülk görevinin bağlamı şu şekilde özetlenebilir:

Düz Metin

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

Sınırları belirlenmiş bir Codex görev ortamı, yazılabilir worktree’yi [1] salt okunur üretim bağlamından [5] ayırır. Worktree, Codex’in inceleyebileceği veya değiştirebileceği kapsamı belirlenmiş ürün yüzeyini [2], başarıyı tanımlayan hedefli ve regresyon eval'lerini [3] ve görevin nasıl yürütüleceğini ve önceki kararlara nasıl uyulacağını kodlayan yeniden kullanılabilir becerileri/belgeleri [4] içerir. Salt okunur bağlam; üretim izini, kaynak belgeleri, Tax AI tahminini, son hâline getirilmiş beyannameyi ve vergi motoru alan belgelerini sağlar; böylece Codex, alttaki kanıtı değiştirmeden hatayı araştırabilir.

Yeni alanlara genişleme

Aynı döngü kiralık mülklerin ötesinde de geçerlidir. Kiralık mülklerin %90 kesinlik ve geri çağırıma ulaşması yaklaşık altı hafta ve önemli mühendislik gözetimi aldı; ancak bu çalışma, Schedule C ve Schedule A gibi benzer derecede karmaşık çizelgeleri desteklemeyi kolaylaştıran yeniden kullanılabilir soyutlamalar, inceleme artefaktları, eval kuralları ve uygulama örüntüleri üretti.

Tax AI, kendini iyileştiren otonom ajanlar oluşturmanın bir yolunu kanıtlıyor. Uygulayıcılar, hizmeti sunarken yüksek değerli geri bildirim sinyalleri üretir. Ürün iş akışları bu sinyalleri yapılandırılmış kanıt olarak korur. Eval destekli mühendislik sistemleri, iyileştirmeleri üretime ulaşmadan önce doğrular ve otonom ajan destekli bir döngü sistemi sürekli bir kendini iyileştirme akışında tutar.

Thrive Holdings’in yapısı, bu ortamı belirli sektörlerde çoğaltmamıza olanak tanıyor. Holdings hem sahip hem de operatör olduğundan, birleşik mühendislik ekiplerimiz Crete gibi işletmelerin içinden uygulayıcılar ve üretim verileriyle satıcı olarak değil, ortak olarak doğrudan çalışabiliyor. Bu da teknolojinin, ürünün ve hizmetin daha hızlı hareket etmemize ve olağanüstü ürünler oluşturmamıza yardımcı olmak için tek çatı altında toplandığı anlamına geliyor.

Geçen yıl vergi hazırlığına 180 saat harcayan kıdemli bir muhasebeci, bu yıl buna yalnızca 15 saat harcadı. Bu zamanın bir kısmını her bir müşterisini arayıp beyannamelerini onlarla birlikte gözden geçirmeye ayırdı; bu, bir yıl önce mümkün olmayan kadar yüksek temaslı bir hizmet düzeyiydi. Kalan zamanı ise yeni müşteriler almak ve yeni hizmet tekliflerine genişlemek için kullandı.

Ekiplerimiz artık birlikte, Tax AI’daki aynı üç parçalı tasarımı Thrive Holdings⁠(yeni bir pencerede açılır) genelinde diğer alanlarda iş akışları kurmak için bir plan olarak kullanıyor; defter tutma ve denetim gibi muhasebe iş akışları ile BT yardım masası otomasyonu gibi operasyonel iş akışları buna dâhil. Alanlar ve sektörler genelinde, kendini iyileştiren otonom ajanların daha geniş vaadi geçerliliğini koruyor. En iyi otonom ajanlar, zamanla daha yetkin, daha güvenilir ve daha değerli hâle gelmeyi öğrenmeleri için insanlar tarafından yönlendirilir.

Bu projede çalışan OpenAI ekibi hakkında daha fazla bilgi edinmek için iletişime geçin.

Yazar

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo, John de Wasseige

Okumaya devam et

Tümünü görüntüle

Core dump epidemiyolojisi: 18 yıllık bir hatayı düzeltmek

Mühendislik30 Haz 2026

Windows’ta Codex’i etkinleştirmek için güvenli ve etkili bir sandbox oluşturulması

Mühendislik13 May 2026

Goblinler nereden çıktı

Mühendislik5 May 2026