Ir al contenido principal
OpenAI

27 de mayo de 2026

Ingeniería

Crear agentes fiscales auto-mejorables con Codex

Por miembros del personal técnico: Aravind Srinivasan y Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo y John de Wasseige (OpenAI)

Cargando…

Cómo Thrive Holdings y OpenAI codesarrollaron Tax AI para los contables de Crete fusionando la experiencia de los profesionales con un bucle impulsado por Codex

Los sistemas del mundo real se comportan de forma distinta en producción que en un laboratorio, y fallan de maneras difíciles de anticipar antes del despliegue. Los equipos suelen descubrir esos fallos tras el lanzamiento y luego pasan semanas inspeccionando casos límite, ajustando prompts y traduciendo el feedback de producción en mejoras duraderas del producto. El bucle de feedback es manual y lento, y solo mejora cuando un ingeniero lo hace avanzar. Pero hoy, con una infraestructura de evaluación bien diseñada, acceso directo a profesionales y entornos reales, y las capacidades agénticas de vanguardia de Codex, puedes crear agentes que se auto-mejoran.

En esta publicación, desglosaremos cómo usamos Codex para crear este tipo de agente. Durante los últimos seis meses, ingenieros e investigadores de despliegue avanzado de OpenAI, junto con ingenieros de Thrive Holdings, colaboraron para crear Tax AI junto con y para la red de más de 30 firmas contables de Crete(se abre en una ventana nueva), con el fin de ayudar a preparar declaraciones fiscales cada vez más complejas. En lugar de depender de ingenieros para encontrar y corregir cada fallo, Tax AI usa Codex para convertir el uso en producción en señales estructuradas que impulsan una mejora autónoma.

Los profesionales de Crete preparan decenas de miles de declaraciones fiscales cada temporada, lo que exige trabajar con millones de documentos subyacentes. En presentaciones de complejidad media a alta, solo la introducción de datos puede llevar ocho horas por declaración, a menudo con fuentes de datos desordenadas, documentos del año anterior y extracción y cálculo manuales. Nos señalaron la preparación fiscal como un cuello de botella importante durante el tramo más intenso de la temporada fiscal.

Para resolver este problema, Tax AI procesó 7 000 declaraciones fiscales en las firmas de Crete que participaron en el piloto esta temporada fiscal. El sistema automatiza gran parte del proceso intensivo en tiempo de preparar declaraciones fiscales 1040 y 1041, pero aún más convincente que las ganancias de eficiencia es que el propio sistema es mediblemente mejor que la versión desplegada por primera vez hace tres meses.

Auto-mejora medible

En Tax AI, los profesionales cargan archivos fuente junto con cualquier nota específica del cliente. Tax AI crea entonces una presentación para el motor fiscal, lista para revisión. Les ahorra a los profesionales alrededor de un tercio del tiempo de preparación fiscal, redacta declaraciones con hasta un 97 % de precisión y aumenta el rendimiento en torno a un 50 %, creando más margen para dedicar tiempo a los clientes. 

Podemos cuantificar esta mejora entendiendo con qué precisión Tax AI puede completar una declaración sin necesitar correcciones posteriores. Medimos la precisión comprobando qué proporción de declaraciones alcanza un 75 %, 90 % o 100 % de campos correctos completados. En el lanzamiento, solo una cuarta parte de las declaraciones alcanzaba un 75 % de campos correctos completados, pero en seis semanas el 86 % llegó a esa marca. El sistema mostró un crecimiento aún más rápido en los niveles del 90 % y el 100 % de campos correctos completados. Estos umbrales nos ofrecen una visión práctica de cuánto seguimiento profesional requieren todavía las distintas declaraciones. 

Al principio, Tax AI se ocupaba de trabajos más sencillos, como W-2 y 1099. A medida que avanzó la temporada, pasó a declaraciones más complejas con K-1, anexos y casos límite más difíciles. Cada nueva capacidad ahorró más tiempo por declaración que la anterior porque las tareas que asumía eran más difíciles y consumían más tiempo si se hacían manualmente. Seguimos viendo progresos continuos hoy en día.

A continuación, explicaremos cómo nuestros equipos codesarrollaron Tax AI para que se auto-mejore apoyándose en tres pilares críticos: 1) feedback de profesionales expertos, 2) trazas de producción (un historial estructurado desde las entradas hasta la salida final) y 3) un bucle de iteración impulsado por Codex basado en evaluaciones a medida para permitir un desarrollo continuo y más rápido del producto. Esperamos que nuestra experiencia sea útil para otros creadores en dominios donde la experiencia profesional es clave para dar forma a la calidad del sistema general y de los datos que lo recorren.

A medida que Tax AI se amplió a declaraciones más complejas, la proporción de declaraciones evaluadas que alcanzaron el 75 %, el 90 % y la finalización completa siguió aumentando durante la temporada fiscal.

El problema

A medida que avanzábamos hacia partes más difíciles de la preparación fiscal (K-1, anexos de inmuebles en alquiler y formularios fiscales en los que los valores debían conciliarse entre varios archivos fuente), se hizo evidente que el verdadero reto era si el producto podía hacer visibles, comprensibles y accionables los fallos complejos de producción.

En los primeros días del producto, la mayor parte de la corrección era manual. Los profesionales podían corregir errores del sistema, pero el producto no capturaba todo el contexto: un valor cambiado antes de la presentación podía reflejar un verdadero error de extracción, un problema de mapeo, falta de soporte del producto o ruido esperado del flujo de trabajo. Aclarar esos casos seguía requiriendo seguimiento por parte del equipo de ingeniería. Los ingenieros podían usar agentes de programación, pero el sistema aún no estaba diseñado para usar la IA de forma significativa dentro de un bucle de mejora. No teníamos la señal para identificar la meta correcta.

Nuestro enfoque: un bucle de tres partes

Eso nos llevó a diseñar el sistema en torno a tres pilares:

  1. Mantenerse cerca de los profesionales: las personas que hacen el trabajo deben guiar lo que aprende el producto. Su intuición y comprensión revelan qué errores importan y ayudan a orientar en qué partes del flujo de trabajo merece la pena centrarse después.
  2. Construir el producto para que producción genere evidencia: el producto tiene que capturar más que entradas y salidas; necesita capturar todo el recorrido desde el material fuente, pasando por los campos extraídos y su procedencia, hasta la presentación posterior y la corrección experta.
  3. Crear un bucle de mejora impulsado por Codex: una vez que los problemas de producción son visibles y están estructurados, pueden convertirse en hallazgos, evaluaciones a medida y tareas de ingeniería acotadas. Codex puede entonces ayudar a investigar, proponer cambios, validarlos frente a evaluaciones específicas y de regresión, y hacer avanzar el producto más rápido que un ciclo de iteración puramente manual. 

El ejemplo de propiedades en alquiler que aparece a continuación muestra cómo funciona ese bucle en la práctica, guiándote por cómo una corrección de un profesional se convierte en un hallazgo estructurado, luego en un objetivo de evaluación y, por último, en una tarea de ingeniería acotada para Codex.

Ejemplo de propiedades en alquiler

Los ingresos por propiedades en alquiler se declaran en el Schedule E de una declaración fiscal individual. Desde una perspectiva de ingeniería, la tarea de extraerlos es sencilla de describir, pero difícil de hacer bien. El sistema tiene que leer material fuente desordenado (notas manuscritas, correos electrónicos, hojas de cálculo y otros archivos del cliente), extraer los campos de propiedades en alquiler que el sistema puede mapear con confianza al motor fiscal y conservar suficiente evidencia para que un profesional pueda aprobar o corregir el resultado. El ejemplo simplificado de abajo muestra cómo podrían ser esos archivos fuente y las salidas extraídas.

«»

Un paquete fuente de propiedades en alquiler se normaliza en campos citados antes de mapearse a conceptos posteriores del motor fiscal.

1. Una corrección del profesional revela un fallo

Una diferencia entre el valor predicho por el agente y el valor real de la declaración fiscal presentada puede reflejar un verdadero error de extracción, pero también podría ser una preferencia del profesional, un valor arrastrado de una declaración del año anterior en el motor fiscal o un valor introducido o modificado en otra parte del flujo de presentación. Los profesionales nos ayudaron a distinguir esos casos para poder identificar qué acciones requerían una corrección del profesional o bloqueaban una presentación.

Como podíamos ver estas correcciones en detalle, transformamos el proceso de revisión de un paso terminal posterior al fallo en un ciclo de aprendizaje continuo. Diseñamos el flujo de trabajo para capturar las acciones expertas como datos estructurados. Ahora, cada intervención alimenta el bucle de mejora del producto al registrar exactamente qué propuso Tax AI, qué modificó el profesional y qué acabó incluyéndose en la declaración presentada.

2. Las trazas del producto convierten las correcciones en evaluaciones

En un flujo de trabajo complejo como el de propiedades en alquiler, el sistema tiene que preservar lo que ocurre entre los archivos fuente y la declaración presentada. A lo largo de ese recorrido, los documentos se organizan, dividen y clasifican; los campos de propiedades en alquiler se extraen con citas al material fuente; esos valores se mapean al motor fiscal; y los profesionales aún pueden corregirlos antes de la presentación. Esas trazas a nivel de producto permiten investigar dónde se produjo un fallo. Para convertir las correcciones de los profesionales en objetivos de evaluación útiles, el sistema las procesa en tres pasos:

  • Capturar la diferencia: la salida de Tax AI se compara con la declaración presentada para generar filas de revisión a nivel de campo que recogen el valor esperado, el valor predicho y si la diferencia parece accionable.
  • Agrupar fallos relacionados: las filas de revisión similares se agrupan para separar los fallos recurrentes del producto del ruido esperado del flujo de trabajo. Por ejemplo, correcciones repetidas de los profesionales pueden mostrar que Tax AI suele omitir los campos de «días de alquiler a valor de mercado», gestiona mal «otros gastos» o confunde varias propiedades en alquiler dentro del mismo paquete fuente.
  • Convertir patrones repetidos en objetivos de evaluación: una vez revisados y medidos, los hallazgos repetidos se convierten en objetivos de evaluación claros para que Codex mejore.
«»

Las filas de revisión de propiedades en alquiler separan los fallos recurrentes del producto del ruido esperado y luego convierten los casos accionables en objetivos de evaluación que le dan a Codex una meta que alcanzar.

3. El hallazgo se convierte en una meta para Codex

El tercer pilar consiste en crear un bucle de ingeniería capaz de actuar sobre estas nuevas evaluaciones. Aquí es donde Codex pasa a ser central.

Supongamos que nuestro pipeline de evaluación detecta que Tax AI omite sistemáticamente el campo "fair rental days", mientras que los profesionales lo rellenan de forma fiable. Como este hallazgo ya se ha empaquetado en un conjunto de evaluación específico, con paquetes fuente representativos y salidas esperadas, Codex puede investigar la causa raíz directamente dentro del andamiaje del producto.

Codex no trabaja solo con una salida final deficiente. Inspecciona conjuntamente la traza, la evaluación, el repositorio y las skills:

  • Investigar el pipeline: inspeccionar paquetes fuente, esquemas de extracción, comportamiento del mapper y rutas de código para determinar si el problema es un campo no compatible, un patrón de extracción omitido, un problema de selección de fuentes, una carencia del mapper o un problema del grader.
  • Implementar correcciones específicas: ampliar el esquema de extracción, mejorar la selección de fuentes para documentos de propiedades en alquiler, actualizar el mapper del motor fiscal o refinar el grader si el ruido esperado del flujo de trabajo se está contando como fallo.
  • Validar y proponer: volver a ejecutar la evaluación específica, ejecutar suites de regresión más amplias y mostrar una Pull request candidata para revisión de ingeniería.
  • Cerrar el bucle: convertir una corrección recurrente del profesional en una tarea de ingeniería medible. Si la evidencia es ambigua o no puede automatizarse de forma segura, el caso se devuelve al equipo de producto en lugar de forzarlo a pasar por el bucle.
«»

El bucle integral de auto-mejora: las trazas de producción muestran correcciones repetidas a nivel de campo, que se convierten en señales de fallo que Codex puede inspeccionar junto con la traza, las evaluaciones, el repositorio y las skills. Los patrones accionables se convierten en evaluaciones acotadas y posibles cambios de producto; los casos ambiguos se devuelven a los ingenieros para su revisión. Cada mejora lanzada crea nuevas pruebas de producción para el siguiente ciclo.

Cómo usar Codex para construir este bucle

El ejemplo de propiedades en alquiler es emblemático de un patrón reutilizable más amplio: usar artefactos y trazas de producción para mejorar las capacidades de un agente. A partir de hallazgos revisados de datos de producción, trazas fuente, salida esperada del motor fiscal, ejemplos de código relevantes y comandos de evaluación como conjunto de entradas, Codex puede mejorar materialmente el rendimiento y la precisión a lo largo de semanas y meses. Esto se basa en los principios descritos en nuestro trabajo sobre ingeniería de harness y Symphony, que explican cómo hacer que las tareas sean legibles para Codex, proporcionar contexto y herramientas acotados y mantener la validación y la revisión humana como parte del entorno. 

Esa evidencia no se convierte automáticamente en una tarea para Codex. Una corrección del profesional puede reflejar un error de extracción, un problema de mapeo, un comportamiento del producto no compatible, un juicio fiscal o ruido esperado del flujo de trabajo. Solo después de que las diferencias repetidas se hayan revisado y agrupado en un hallazgo accionable, el sistema las convierte en una tarea acotada con una condición de éxito clara.

Aplicamos esta automatización a una capa acotada del producto. Esta capa realiza la extracción y mapea documentos fuente a flujos de trabajo fiscales. Los ingenieros siguen siendo responsables de la arquitectura, las decisiones de producto y el lanzamiento. Los profesionales guían el bucle de mejora a través del trabajo que ya realizan: corregir valores extraídos, revisar declaraciones y aprobar presentaciones finales.

Para Codex, el resultado no es una alerta vaga, sino una tarea de ingeniería acotada con evidencia, superficies de producto editables y puertas de validación explícitas. El contexto de una tarea representativa de propiedades en alquiler puede resumirse así:

Texto plano

1
/candidates/FIND-RENTAL-0042/
2
3
├── repo/ [1]
4
│ └── branch: codex/fix-rental-0042
5
│ │
6
│ ├── AGENTS.md
7
│ │
8
│ ├── tasks/FIND-RENTAL-0042/
9
│ │ ├── task.yaml
10
│ │ ├── EXEC_PLAN.md
11
│ │ └── RESULTS.md
12
│ │
13
│ ├── app/tax-ai/rental-income/ [2]
14
│ │ ├── agent.ts
15
│ │ ├── schema.ts
16
│ │ ├── provenance.ts
17
│ │ └── mapper.ts
18
│ │
19
│ ├── evals/ [3]
20
│ │ ├── datasets/fair-rental-days.yaml
21
│ │ ├── suites/fair-rental-days.yaml
22
│ │ ├── suites/rental-income-regression.yaml
23
│ │ └── graders/rental-income.yaml
24
│ │
25
│ ├── skills/ [4]
26
│ │ ├── eval-runner/
27
│ │ └── tax-field-docs/
28
│ │
29
│ └── docs/ [4]
30
│ ├── architecture/
31
│ └── task-environments/
32
33
└── scoped-tools/ [5]
34
├── production-trace
35
├── source-artifacts
36
└── tax-engine-docs

Un entorno de tareas acotado de Codex separa el worktree editable [1] del contexto de producción de solo lectura [5]. El worktree contiene la superficie de producto acotada que Codex puede inspeccionar o modificar [2], las evaluaciones específicas y de regresión que definen el éxito [3], y skills/documentación reutilizables que codifican cómo ejecutar la tarea y respetar decisiones previas [4]. El contexto de solo lectura proporciona la traza de producción, los documentos fuente, la predicción de Tax AI, la declaración finalizada y la documentación de campos del motor fiscal, para que Codex pueda investigar el fallo sin alterar la evidencia subyacente.

Expandirse a nuevos dominios

El mismo bucle se aplica más allá de las propiedades en alquiler. Las propiedades en alquiler tardaron unas seis semanas y una supervisión de ingeniería considerable en alcanzar un 90 % de precisión y exhaustividad, pero ese trabajo produjo abstracciones reutilizables, artefactos de revisión, convenciones de evaluación y patrones de implementación que facilitaron dar soporte a anexos de complejidad similar, como el Schedule C y el Schedule A.

Tax AI demuestra un camino para crear agentes que se auto-mejoran. Los profesionales generan señales de feedback de alto valor al prestar el servicio. Los flujos de trabajo del producto preservan esas señales como evidencia estructurada. Los sistemas de ingeniería respaldados por evaluaciones validan las mejoras antes de que lleguen a producción, y un bucle impulsado por agentes mantiene el sistema en un flujo continuo de auto-mejora. 

La estructura de Thrive Holdings nos permite replicar este entorno en sectores específicos. Holdings es a la vez propietario y operador, por lo que nuestros equipos de ingeniería combinados pueden trabajar directamente con profesionales y datos de producción desde dentro de empresas como Crete, no como proveedor, sino como socios. Esto significa que la tecnología, el producto y el servicio están todos bajo un mismo techo para ayudarnos a movernos más rápido y crear productos excepcionales.

Una contable sénior que el año pasado dedicó 180 horas a la preparación fiscal este año solo dedicó 15 horas. Dedicó parte de ese tiempo a llamar a todos sus clientes y repasar con ellos sus declaraciones, un nivel de servicio muy personalizado que hace un año no era posible. El resto de ese tiempo lo utilizó para asumir nuevos clientes y ampliar la oferta de servicios.

Juntos, nuestros equipos están usando ahora el mismo diseño en tres partes de Tax AI como plano para crear flujos de trabajo en otros dominios de Thrive Holdings(se abre en una ventana nueva); flujos de trabajo contables como la teneduría de libros y la auditoría, y flujos operativos como la automatización del help desk de TI. En todos los dominios e industrias, se mantiene la promesa más amplia de los agentes que se auto-mejoran. Los mejores agentes son guiados por personas para aprender a ser más capaces, más fiables y más valiosos con el tiempo.

Para saber más sobre el equipo de OpenAI que trabajó en este proyecto, ponte en contacto.

Autor

Aravind Srinivasan, Samay Shamdasani, Arthur Fernandes Araujo y John de Wasseige