Sich selbst verbessernde Steuer-Agenten mit Codex entwickeln
Von Mitgliedern des technischen Personals: Aravind Srinivasan und Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo und John de Wasseige (OpenAI)
Wie Thrive Holdings und OpenAI Tax AI für die Buchhalter:innen von Crete gemeinsam entwickelten, indem sie Fachwissen aus der Praxis mit einer von Codex gesteuerten Schleife verbanden
Systeme in der realen Welt verhalten sich in der Produktion anders als bei Tests und scheitern auf Arten, die sich vor dem Einsatz nur schwer vorhersehen lassen. Teams entdecken diese Fehler oft erst nach dem Start und verbringen dann Wochen damit, Randfälle zu prüfen, Prompts anzupassen und Feedback aus der Produktion in dauerhafte Produktverbesserungen zu übersetzen. Die Feedback-Schleife ist manuell und langsam und verbessert sich nur, wenn Entwickler:innen sie voranbringen. Doch heute kannst du mit durchdacht gestalteter Evaluierungsinfrastruktur, direktem Zugang zu Fachkräften und realen Umgebungen sowie den führenden agentischen Fähigkeiten von Codex Agenten entwickeln, die sich selbst verbessern.
In diesem Beitrag zeigen wir, wie wir mit Codex einen solchen Agenten gebaut haben. In den vergangenen sechs Monaten arbeiteten von OpenAI entsandte Softwareingenieur:innen und Forschende gemeinsam mit den Entwickler:innen von Thrive Holdings daran, Tax AI zusammen mit und für das Netzwerk von über 30 Buchhaltungsfirmen von Crete(wird in einem neuen Fenster geöffnet) zu entwickeln, um bei der Erstellung zunehmend komplexer Steuererklärungen zu helfen. Statt sich darauf zu verlassen, dass Entwickler:innen jeden Fehler finden und beheben, nutzt Tax AI Codex, um die Nutzung in der Produktion in strukturierte Signale zu verwandeln, die autonome Verbesserungen antreiben.
Die Fachkräfte bei Crete erstellen jede Saison Zehntausende Steuererklärungen, was die Bearbeitung von Millionen zugrunde liegender Dokumente erfordert. Bei Einreichungen mittlerer bis hoher Komplexität kann allein die Dateneingabe pro Erklärung acht Stunden dauern und umfasst oft unübersichtliche Datenquellen, Vorjahresdokumente sowie manuelle Extraktion und Berechnung. Sie machten uns darauf aufmerksam, dass die Steuererstellung während der geschäftigsten Phase der Steuersaison einen erheblichen Engpass darstellt.
Um dieses Problem zu lösen, verarbeitete Tax AI in dieser Steuersaison 7.000 Steuererklärungen in den Crete-Firmen, die am Pilotprojekt teilnahmen. Das System automatisiert einen großen Teil des zeitintensiven Prozesses zur Erstellung von 1040- und 1041-Steuererklärungen. Noch überzeugender als die Effizienzgewinne ist jedoch, dass das System messbar besser ist als die Version, die vor drei Monaten erstmals eingesetzt wurde.
In Tax AI laden Fachkräfte Quelldateien zusammen mit allen kundenspezifischen Notizen hoch. Tax AI erstellt dann eine Einreichung für die Steuersoftware, die zur Prüfung bereit ist. Es spart Fachkräften etwa ein Drittel ihrer Zeit für die Steuererstellung, entwirft Erklärungen mit bis zu 97 % Genauigkeit und erhöht den Durchsatz um etwa 50 %, sodass mehr Zeit für Kund:innen bleibt.
Wir können diese Verbesserung quantifizieren, indem wir verstehen, wie genau Tax AI eine Steuererklärung abschließen kann, ohne dass später Korrekturen nötig sind. Wir messen die Genauigkeit, indem wir prüfen, welcher Anteil der Steuererklärungen 75 %, 90 % oder 100 % korrekte Feldausfüllung erreicht. Zum Start erreichte nur ein Viertel der Steuererklärungen 75 % korrekte Feldausfüllung, doch innerhalb von sechs Wochen waren es 86 %. Auf den Stufen 90 % und 100 % korrekter Feldausfüllung wuchs das System noch schneller. Diese Schwellenwerte geben uns einen praktischen Blick darauf, wie viel Nacharbeit durch Fachkräfte verschiedene Steuererklärungen noch erfordern.
Anfangs übernahm Tax AI einfachere Aufgaben wie W-2s und 1099s. Im Verlauf der Saison ging es dann zu komplexeren Steuererklärungen mit K-1s, Schedules und schwierigeren Randfällen über. Jede neue Fähigkeit sparte pro Steuererklärung mehr Zeit als die vorherige, weil die übernommenen Aufgaben schwieriger und manuell zeitaufwendiger waren. Auch heute sehen wir weiterhin Fortschritte.
Als Nächstes zeigen wir, wie unsere Teams Tax AI gemeinsam so entwickelt haben, dass es sich selbst verbessert – gestützt auf drei zentrale Säulen: 1) Feedback von Fachkräften, 2) Produktions-Traces (eine strukturierte Historie von den Eingaben bis zur finalen Ausgabe) und 3) eine von Codex gesteuerte Iterationsschleife auf Basis maßgeschneiderter Evaluierungen, um kontinuierliche und schnellere Produktentwicklung zu ermöglichen. Wir hoffen, dass unsere Erfahrungen für andere Teams nützlich sind, die in Bereichen entwickeln, in denen Fachwissen aus der Praxis entscheidend dafür ist, die Qualität des Gesamtsystems und der darin laufenden Daten zu prägen.
Als Tax AI auf komplexere Steuererklärungen ausgeweitet wurde, stieg der Anteil bewerteter Erklärungen, die 75 %, 90 % und vollständige Fertigstellung erreichten, im Verlauf der Steuersaison weiter an.
Als wir uns schwierigeren Teilen der Steuererstellung zuwandten – K-1s, Mietimmobilien-Schedules und Steuerformulare, bei denen Werte über mehrere Quelldateien hinweg abgeglichen werden mussten –, wurde offensichtlich, dass die eigentliche Herausforderung darin lag, ob das Produkt komplexe Fehler in der Produktion aufzeigen, erklären und umsetzbar machen konnte.
In den frühen Tagen des Produkts erfolgte der Großteil der Korrekturen manuell. Fachkräfte konnten Systemfehler korrigieren, doch das Produkt erfasste nicht den vollständigen Kontext: Ein geänderter Wert vor der Einreichung konnte auf einen echten Extraktionsfehler, ein Mapping-Problem, fehlende Produktunterstützung oder erwartete Workflow-Störungen zurückgehen. Diese Fälle auseinanderzuhalten erforderte weiterhin Nacharbeit durch das Entwicklungsteam. Softwareingenieur:innen konnten Coding-Agenten nutzen, aber das System war noch nicht so gestaltet, dass KI innerhalb einer Verbesserungsschleife sinnvoll eingesetzt werden konnte. Uns fehlte das Signal, um das richtige anzugehende Problem zu identifizieren.
Das führte dazu, dass wir das System um drei Säulen herum entwarfen:
- Nahe an Fachkräften bleiben: Die Menschen, die die Arbeit leisten, müssen steuern, was das Produkt lernt. Ihre Intuition und ihr Verständnis zeigen, welche Fehler wichtig sind, und helfen dabei, zu bestimmen, auf welche Teile des Workflows wir uns als Nächstes konzentrieren sollten.
- Das Produkt so bauen, dass Produktion Evidenz erzeugt: Das Produkt muss mehr als nur Eingaben und Ausgaben erfassen; es muss den gesamten Weg vom Quellmaterial über extrahierte Felder und Herkunftsnachweise bis zur nachgelagerten Einreichung und Korrektur durch Expert:innen erfassen.
- Eine von Codex gesteuerte Verbesserungsschleife schaffen: Sobald Probleme in der Produktion sichtbar und strukturiert sind, können daraus Befunde, maßgeschneiderte Evaluierungen und abgegrenzte Entwicklungsaufgaben werden. Codex kann dann helfen, Untersuchungen durchzuführen, Änderungen vorzuschlagen, sie anhand Ziel- und Regressionsevaluierungen zu validieren und das Produkt schneller voranzubringen als ein rein manueller Iterationszyklus.
Das Beispiel mit Mietobjekten unten zeigt, wie diese Schleife in der Praxis funktioniert, und führt dich dadurch, wie aus einer Korrektur durch Fachkräfte ein strukturierter Befund, dann ein Evaluierungsziel und schließlich eine für Codex abgegrenzte Entwicklungsaufgabe wird.
Einkünfte aus Mietobjekten werden in Schedule E einer persönlichen Steuererklärung angegeben. Aus technischer Sicht ist die Aufgabe, sie zu extrahieren, einfach zu beschreiben, aber schwer gut umzusetzen. Das System muss unübersichtliches Quellmaterial lesen (handschriftliche Notizen, E-Mails, Tabellen und andere Kundendateien), die Felder zu Mietobjekten extrahieren, die das System sicher auf die Steuersoftware abbilden kann, und genügend Evidenz bewahren, damit eine Fachkraft das Ergebnis freigeben oder korrigieren kann. Das vereinfachte Beispiel unten zeigt, wie diese Quelldateien und extrahierten Ausgaben aussehen könnten.
Ein Quellpaket für Mietobjekte wird in zitierte Felder normalisiert, bevor diese auf nachgelagerte Konzepte der Steuersoftware abgebildet werden.
Eine Abweichung zwischen dem vom Agenten vorhergesagten Wert und dem tatsächlichen Wert aus der eingereichten Steuererklärung kann auf einen echten Extraktionsfehler hindeuten, sie kann aber auch eine Präferenz der Fachkraft, ein aus der Steuererklärung des Vorjahres in die Steuersoftware übernommener Wert oder ein Wert sein, der an anderer Stelle im Einreichungsworkflow eingeführt oder geändert wurde. Fachkräfte halfen uns, diese Fälle zu unterscheiden, damit wir erkennen konnten, welche Aktionen eine Korrektur durch Fachkräfte erforderten oder eine Einreichung blockierten.
Weil wir diese Korrekturen im Detail sehen konnten, wandelten wir den Prüfprozess von einem abschließenden Schritt nach dem Fehler in einen kontinuierlichen Lernzyklus um. Wir haben den Workflow so gestaltet, dass Expertenaktionen als strukturierte Daten erfasst werden. Jetzt speist jede Intervention die Verbesserungsschleife des Produkts, indem genau erfasst wird, was Tax AI vorgeschlagen hat, was die Fachkraft geändert hat und was letztlich in die eingereichte Erklärung eingeflossen ist.
Bei einem komplexen Workflow wie Mietobjekten muss das System bewahren, was zwischen den Quelldateien und der eingereichten Steuererklärung geschieht. Auf diesem Weg werden Dokumente organisiert, aufgeteilt und klassifiziert; Felder zu Mietobjekten werden mit Zitaten zurück zum Quellmaterial extrahiert; diese Werte werden in die Steuersoftware übertragen; und Fachkräfte können sie vor der Einreichung weiterhin korrigieren. Diese Traces auf Produktebene machen es möglich zu untersuchen, wo ein Fehler aufgetreten ist. Um Korrekturen durch Fachkräfte in nützliche Evaluierungsziele zu verwandeln, verarbeitet das System sie in drei Schritten:
- Die Abweichung erfassen: Die Ausgabe von Tax AI wird mit der eingereichten Steuererklärung verglichen, um Prüfzeilen auf Feldebene zu erzeugen, die den erwarteten Wert, den vorhergesagten Wert und die Frage erfassen, ob die Abweichung umsetzbar erscheint.
- Zusammenhängende Fehler gruppieren: Ähnliche Prüfzeilen werden gruppiert, um wiederkehrende Produktfehler von erwarteten Workflow-Störungen zu trennen. Wiederholte Korrekturen durch Fachkräfte können zum Beispiel zeigen, dass Tax AI Felder zu „fair rental days“ oft nicht ausfüllt, „other expenses“ falsch behandelt oder mehrere Mietobjekte innerhalb desselben Quellpakets verwechselt.
- Wiederholte Muster in Evaluierungsziele verwandeln: Nach Prüfung und Messung werden wiederholte Befunde zu klaren Evaluierungszielen für die Verbesserung von Codex.
Prüfzeilen für Mietobjekte trennen wiederkehrende Produktfehler von zu erwartenden Störungen und machen die umsetzbaren Fälle zu Evaluierungszielen, die Codex ein anzugehendes Problem aufzeigen.
Die dritte Säule ist der Aufbau einer Entwicklungsschleife, die auf diese neuen Evaluierungen reagieren kann. Hier spielt Codex eine zentrale Rolle.
Angenommen, unsere Evaluierungspipeline markiert, dass Tax AI das Feld „fair rental days“ konsequent nicht ausfüllt, während Fachkräfte es zuverlässig ausfüllen. Weil dieser Befund bereits in ein Ziel-Evaluierungsset mit repräsentativen Quellpaketen und erwarteten Ausgaben verpackt wurde, kann Codex die Grundursache direkt innerhalb des Produktgerüsts untersuchen.
Codex arbeitet nicht nur mit einer mangelhaften Endausgabe. Es prüft Trace, Evaluierung, Repository und Fähigkeiten zusammen:
- Die Pipeline untersuchen: Quellpakete, Extraktionsschemas, Mapper-Verhalten und Codepfade prüfen, um festzustellen, ob das Problem ein nicht unterstütztes Feld, ein übersehenes Extraktionsmuster, ein Problem bei der Quellauswahl, eine Lücke im Mapper oder ein Problem im Grader ist.
- Gezielte Korrekturen umsetzen: Das Extraktionsschema erweitern, die Quellauswahl für Mietobjekt-Dokumente verbessern, den Mapper der Steuersoftware aktualisieren oder den Grader verfeinern, wenn erwartete Workflow-Störungen als Fehler gezählt werden.
- Validieren und vorschlagen: Die Zielevaluierung erneut ausführen, breit gefasstere Regressionssuites laufen lassen und einen möglichen Pull Request zur technischen Prüfung bereitstellen.
- Die Schleife schließen: Eine wiederkehrende Korrektur durch Fachkräfte in eine messbare Entwicklungsaufgabe verwandeln. Wenn die Evidenz mehrdeutig ist oder sich nicht sicher automatisieren lässt, geht der Fall an das Produktteam zurück, statt zwangsläufig durch die Schleife geroutet zu werden.
Die End-to-End-Schleife der Selbstverbesserung: Produktions-Traces machen wiederholte Korrekturen auf Feldebene sichtbar, die zu Fehlersignalen werden, die Codex zusammen mit Trace, Evaluierung, Repository und Fähigkeiten prüfen kann. Umsetzbare Muster werden zu abgegrenzten Evaluierungen und möglichen Produktänderungen; mehrdeutige Fälle gehen zur Prüfung an Entwickler:innen zurück. Jede ausgelieferte Verbesserung schafft neue Produktionsevidenz für den nächsten Zyklus.
Das Beispiel Mietobjekte steht sinnbildlich für ein breiteres wiederverwendbares Muster: Produktionsartefakte und Traces zu nutzen, um die Fähigkeiten eines Agenten zu verbessern. Ausgehend von geprüften Befunden aus Produktionsdaten, Quell-Traces, erwarteter Ausgabe der Steuersoftware, relevanten Codebeispielen und Evaluierungsbefehlen als Eingabeset kann Codex Leistung und Genauigkeit über Wochen und Monate hinweg spürbar verbessern. Dies baut auf den Prinzipien auf, die wir in unserer Arbeit zu Harness Engineering und Symphony beschrieben haben. Dort wird erläutert, wie Aufgaben für Codex lesbar gemacht werden, wie abgegrenzter Kontext und Tools bereitgestellt werden und wie Validierung und menschliche Prüfung Teil der Umgebung bleiben.
Diese Evidenz wird nicht automatisch zu einer Codex-Aufgabe. Eine Korrektur durch Fachkräfte kann einen Extraktionsfehler, ein Mapping-Problem, nicht unterstütztes Produktverhalten, steuerliches Ermessen oder erwartete Workflow-Störungen widerspiegeln. Erst nachdem wiederholte Abweichungen geprüft und zu einem umsetzbaren Befund gruppiert wurden, verwandelt das System sie in eine abgegrenzte Aufgabe mit klarer Erfolgsbedingung.
Wir wenden diese Automatisierung auf eine abgegrenzte Schicht des Produkts an. Diese Schicht führt Extraktion aus und ordnet Quelldokumente Steuer-Workflows zu. Softwareingenieur:innen bleiben für Architektur, Produktentscheidungen und Auslieferung verantwortlich. Fachkräfte steuern die Verbesserungsschleife durch die Arbeit, die sie ohnehin leisten: extrahierte Werte korrigieren, Steuererklärungen prüfen und endgültige Einreichungen freigeben.
Für Codex ist das Ergebnis kein vager Hinweis, sondern eine abgegrenzte Entwicklungsaufgabe mit Evidenz, bearbeitbaren Produktoberflächen und expliziten Validierungsschranken. Der Kontext für eine repräsentative Mietobjekt-Aufgabe lässt sich wie folgt zusammenfassen:
Dieselbe Schleife gilt auch über Mietobjekte hinaus. Für Mietobjekte dauerte es etwa sechs Wochen und erhebliche technische Begleitung war nötig, um 90 % Präzision und Recall zu erreichen. Diese Arbeit erzeugte jedoch wiederverwendbare Abstraktionen, Prüfartefakte, Evaluierungskonventionen und Implementierungsmuster, die die Unterstützung ähnlich komplexer Anhänge wie Schedule C und Schedule A erleichterten.
Tax AI zeigt einen Weg zum Aufbau sich selbst verbessernder Agenten. Fachkräfte erzeugen hochwertige Feedback-Signale, indem sie die Dienstleistung erbringen. Produkt-Workflows bewahren diese Signale als strukturierte Evidenz. Durch Evaluierungen gestützte Entwicklungssysteme validieren Verbesserungen, bevor sie die Produktion erreichen, und eine Agenten-gestützte Schleife hält das System in einem kontinuierlichen Fluss der Selbstverbesserung.
Die Struktur von Thrive Holdings erlaubt es uns, diese Umgebung in bestimmten Branchen zu replizieren. Holdings ist zugleich Eigentümer und Betreiber, sodass unsere kombinierten Entwicklungsteams direkt mit Fachkräften und Produktionsdaten innerhalb von Unternehmen wie Crete arbeiten können – nicht als Anbieter, sondern als Partner. Das bedeutet, dass Technologie, Produkt und Dienstleistung unter einem Dach zusammenkommen, damit wir schneller vorankommen und außergewöhnliche Produkte entwickeln können.
Eine leitende Buchhalterin, die im vergangenen Jahr 180 Stunden für die Steuererstellung aufgewendet hatte, brauchte dafür in diesem Jahr nur 15 Stunden. Einen Teil dieser Zeit nutzte sie dafür, jede:n ihrer Kund:innen anzurufen und die Steuererklärung mit ihnen durchzugehen – ein Maß an persönlicher Betreuung, das vor einem Jahr nicht möglich war. Den Rest dieser Zeit nutzte sie, um neue Kund:innen zu gewinnen und neue Serviceangebote auszubauen.
Gemeinsam nutzen unsere Teams nun denselben dreiteiligen Aufbau von Tax AI als Blaupause für Workflows in anderen Bereichen von Thrive Holdings(wird in einem neuen Fenster geöffnet); für Accounting-Workflows wie Buchhaltung und Audit sowie operative Workflows wie die Automatisierung von IT-Helpdesks. Über Bereiche und Branchen hinweg hat das größere Versprechen sich selbst verbessernder Agenten Bestand. Die besten Agenten werden von Menschen gesteuert, damit sie mit der Zeit leistungsfähiger, vertrauenswürdiger und wertvoller werden.
Wenn du mehr über das OpenAI-Team erfahren möchtest, das an diesem Projekt gearbeitet hat, nimm Kontakt auf.


