27 de mayo de 2026

Crear agentes fiscales auto-mejorables con Codex

Por miembros del personal técnico: Aravind Srinivasan y Samay Shamdasani (Thrive Holdings), Arthur Fernandes Araujo y John de Wasseige (OpenAI)

Cargando...

Cómo Thrive Holdings y OpenAI codesarrollaron Tax AI para los contadores de Crete al fusionar la experiencia de los profesionales con un ciclo impulsado por Codex

Los sistemas del mundo real se comportan de manera diferente en producción que en un laboratorio, y fallan de formas difíciles de anticipar antes del despliegue. Los equipos suelen descubrir esas fallas después del lanzamiento y luego pasan semanas inspeccionando casos límite, ajustando prompts y traduciendo la retroalimentación de producción en mejoras duraderas del producto. El ciclo de retroalimentación es manual y lento, y solo mejora cuando un ingeniero lo hace avanzar. Pero hoy, con una infraestructura de evaluación diseñada cuidadosamente, acceso directo a profesionales y entornos del mundo real, y las capacidades agentivas de frontera de Codex, puedes construir agentes que se auto-mejoran.

En esta publicación, explicaremos cómo usamos Codex para construir este tipo de agente. Durante los últimos seis meses, ingenieros e investigadores desplegados en campo por OpenAI, junto con ingenieros de Thrive Holdings, colaboraron para construir Tax AI junto con y para la red de más de 30 firmas contables de Crete⁠(se abre en una nueva ventana), con el fin de ayudar a preparar declaraciones fiscales cada vez más complejas. En lugar de depender de ingenieros para encontrar y corregir cada falla, Tax AI usa Codex para convertir el uso en producción en señales estructuradas que impulsan la mejora autónoma.

Los profesionales de Crete preparan decenas de miles de declaraciones fiscales cada temporada, lo que requiere trabajar con millones de documentos subyacentes. Para presentaciones de complejidad media a alta, solo la captura de datos puede tomar ocho horas por declaración, a menudo con fuentes de datos desordenadas, documentos del año anterior y extracción y cálculo manuales. Ellos nos señalaron la preparación de impuestos como un cuello de botella importante durante el tramo más ocupado de la temporada fiscal.

Para resolver este problema, Tax AI procesó 7 000 declaraciones fiscales en las firmas de Crete que participaron en el piloto esta temporada fiscal. El sistema automatiza gran parte del proceso intensivo en tiempo de preparar declaraciones fiscales 1040 y 1041, pero aún más convincente que las ganancias de eficiencia es que el propio sistema es mediblemente mejor que la versión que se desplegó por primera vez hace tres meses.

Auto-mejora medible

En Tax AI, los profesionales cargan archivos fuente junto con cualquier nota específica del cliente. Luego, Tax AI crea una presentación para el motor fiscal, lista para revisión. Les ahorra a los profesionales alrededor de un tercio de su tiempo de preparación de impuestos, redacta declaraciones con hasta 97 % de precisión y aumenta el rendimiento en alrededor de 50 %, creando más espacio para que pasen tiempo con los clientes.

Podemos cuantificar esta mejora entendiendo con qué precisión Tax AI puede completar una declaración sin necesitar corrección posterior. Medimos la precisión verificando qué proporción de declaraciones alcanza 75 %, 90 % o 100 % de finalización correcta de campos. En el lanzamiento, solo una cuarta parte de las declaraciones alcanzaba 75 % de finalización correcta de campos, pero en seis semanas, 86 % llegó a esa marca. El sistema mostró un crecimiento aún más rápido en los niveles de 90 % y 100 % de finalización correcta de campos. Estos umbrales nos dan una visión práctica de cuánto seguimiento del profesional siguen requiriendo distintas declaraciones.

Al principio, Tax AI manejaba trabajo más simple, como W-2 y 1099. A medida que avanzó la temporada, pasó a declaraciones más complejas con K-1, anexos y casos límite más difíciles. Cada nueva capacidad ahorró más tiempo por declaración que la anterior porque las tareas que asumía eran más difíciles y consumían más tiempo si se hacían manualmente. Seguimos viendo progreso continuo hoy.

A continuación, explicaremos cómo nuestros equipos co-diseñaron Tax AI para que se auto-mejore apoyándose en tres pilares críticos: 1) retroalimentación de profesionales expertos, 2) trazas de producción (un historial estructurado desde las entradas hasta la salida final), y 3) un ciclo de iteración impulsado por Codex basado en evaluaciones a medida para permitir un desarrollo continuo y más rápido del producto. Esperamos que nuestra experiencia sea útil para otros creadores en dominios donde la experiencia de los profesionales es clave para dar forma a la calidad del sistema general y de los datos que lo recorren.

A medida que Tax AI se expandió a declaraciones más complejas, la proporción de declaraciones evaluadas que alcanzaron 75 %, 90 % y finalización total siguió aumentando durante la temporada fiscal.

El problema

A medida que avanzábamos hacia partes más difíciles de la preparación de impuestos (K-1, anexos de bienes raíces en alquiler y formularios fiscales donde los valores debían conciliarse entre múltiples archivos fuente), se hizo evidente que el verdadero desafío era si el producto podía hacer visibles, comprensibles y accionables las fallas complejas de producción.

En los primeros días del producto, la mayor parte de la corrección era manual. Los profesionales podían corregir errores del sistema, pero el producto no capturaba el contexto completo: un valor cambiado antes de presentar podía reflejar una omisión real de extracción, un problema de mapeo, falta de soporte del producto o ruido esperado del flujo de trabajo. Resolver esos casos seguía requiriendo seguimiento del equipo de ingeniería. Los ingenieros podían usar agentes de codificación, pero el sistema aún no estaba diseñado para usar IA de manera significativa dentro de un ciclo de mejora. No teníamos la señal para identificar la meta correcta.

Nuestro enfoque: un ciclo de tres partes

Eso nos llevó a diseñar el sistema en torno a tres pilares:

Mantenerse cerca de los profesionales: las personas que hacen el trabajo deben orientar lo que aprende el producto. Su intuición y comprensión revelan qué errores importan y ayudan a informar en qué partes del flujo de trabajo vale la pena enfocarse después.
Construir el producto para que producción cree evidencia: el producto tiene que capturar más que solo entradas y salidas; necesita capturar el recorrido completo desde el material fuente, pasando por los campos extraídos y su procedencia, hasta la presentación posterior y la corrección experta.
Crear un ciclo de mejora impulsado por Codex: una vez que los problemas de producción son visibles y estructurados, pueden convertirse en hallazgos, evaluaciones a medida y tareas de ingeniería acotadas. Luego, Codex puede ayudar a investigar, proponer cambios, validarlos frente a evaluaciones dirigidas y de regresión, y hacer avanzar el producto más rápido que un ciclo de iteración puramente manual.

El ejemplo de propiedades en alquiler a continuación muestra cómo funciona ese ciclo en la práctica, guiándote por cómo una corrección del profesional se convierte en un hallazgo estructurado, luego en un objetivo de evaluación y, por último, en una tarea de ingeniería acotada para Codex.

Ejemplo de propiedad en alquiler

Los ingresos por propiedades en alquiler se reportan en el Schedule E de una declaración fiscal individual. Desde una perspectiva de ingeniería, la tarea de extraerlos es simple de describir pero difícil de hacer bien. El sistema tiene que leer material fuente desordenado (notas escritas a mano, correos electrónicos, hojas de cálculo y otros archivos del cliente), extraer los campos de propiedades en alquiler que el sistema puede mapear con confianza al motor fiscal y preservar suficiente evidencia para que un profesional pueda aprobar o corregir el resultado. El ejemplo simplificado a continuación muestra cómo podrían verse esos archivos fuente y salidas extraídas.

*Un paquete fuente de propiedad en alquiler se normaliza en campos citados antes de mapearse a conceptos posteriores del motor fiscal.*

1. Una corrección del profesional revela una falla

Una diferencia entre el valor predicho por el agente y el valor real de la declaración presentada podría reflejar una omisión real en la extracción, pero también podría ser una preferencia del profesional, un valor arrastrado de una declaración del año anterior en el motor fiscal, o un valor introducido o modificado en otra parte del flujo de presentación. Los profesionales nos ayudaron a distinguir esos casos para poder identificar qué acciones requerían una corrección del profesional o bloqueaban una presentación.

Como podíamos ver estas correcciones en detalle, transformamos el proceso de revisión de un paso terminal posterior a la falla en un ciclo continuo de aprendizaje. Diseñamos el flujo de trabajo para capturar las acciones expertas como datos estructurados. Ahora, cada intervención alimenta el ciclo de mejora del producto al registrar exactamente qué propuso Tax AI, qué modificó el profesional y qué terminó incluyéndose en la declaración presentada.

2. Las trazas del producto convierten correcciones en evaluaciones

Para un flujo de trabajo complejo como el de propiedades en alquiler, el sistema tiene que preservar lo que ocurre entre los archivos fuente y la declaración presentada. A lo largo de ese recorrido, los documentos se organizan, dividen y clasifican; los campos de propiedades en alquiler se extraen con citas al material fuente; esos valores se mapean al motor fiscal; y los profesionales aún pueden corregirlos antes de presentar. Esas trazas a nivel de producto hacen posible investigar dónde ocurrió una falla. Para convertir las correcciones de los profesionales en objetivos de evaluación útiles, el sistema las procesa en tres pasos:

Capturar la diferencia: la salida de Tax AI se compara con la declaración presentada para producir filas de revisión a nivel de campo que capturan el valor esperado, el valor predicho y si la diferencia parece accionable.
Agrupar fallas relacionadas: las filas de revisión similares se agrupan para separar las fallas recurrentes del producto del ruido esperado del flujo de trabajo. Por ejemplo, correcciones repetidas de los profesionales podrían mostrar que Tax AI suele omitir los campos de “días de alquiler justo”, maneja mal “otros gastos” o confunde varias propiedades en alquiler dentro del mismo paquete fuente.
Convertir patrones repetidos en objetivos de evaluación: una vez revisados y medidos, los hallazgos repetidos se convierten en objetivos de evaluación claros para que Codex mejore.

Las filas de revisión de propiedades en alquiler separan las fallas recurrentes del producto del ruido esperado y luego convierten los casos accionables en objetivos de evaluación que le dan a Codex una meta que alcanzar.

3. El hallazgo se convierte en una meta para Codex

El tercer pilar es crear un ciclo de ingeniería capaz de actuar sobre estas nuevas evaluaciones. Aquí es donde Codex se vuelve central.

Supongamos que nuestro pipeline de evaluación señala que Tax AI omite de forma consistente el campo “días de alquiler justo”, mientras que los profesionales lo completan de manera confiable. Como este hallazgo ya se empaquetó en un conjunto de evaluación dirigido, con paquetes fuente representativos y salidas esperadas, Codex puede investigar la causa raíz directamente dentro del andamiaje del producto.

Codex no trabaja solo con una salida final deficiente. Inspecciona juntos la traza, la evaluación, el repositorio y las habilidades:

Investigar el pipeline: inspeccionar paquetes fuente, esquemas de extracción, comportamiento del mapeador y rutas de código para determinar si el problema es un campo no compatible, un patrón de extracción omitido, un problema de selección de fuente, una brecha del mapeador o un problema del calificador.
Implementar correcciones dirigidas: ampliar el esquema de extracción, mejorar la selección de fuente para documentos de propiedades en alquiler, actualizar el mapeador del motor fiscal o refinar el calificador si el ruido esperado del flujo de trabajo se está contando como falla.
Validar y proponer: volver a ejecutar la evaluación dirigida, ejecutar suites de regresión más amplias y mostrar una Pull request candidata para revisión de ingeniería.
Cerrar el ciclo: convertir una corrección recurrente del profesional en una tarea de ingeniería medible. Si la evidencia es ambigua o no puede automatizarse de forma segura, el caso regresa al equipo de producto en lugar de forzarse a pasar por el ciclo.

El ciclo integral de auto-mejora: las trazas de producción muestran correcciones repetidas a nivel de campo, que se convierten en señales de falla que Codex puede inspeccionar junto con la traza, las evaluaciones, el repositorio y las habilidades. Los patrones accionables se convierten en evaluaciones acotadas y cambios potenciales del producto; los casos ambiguos regresan a los ingenieros para revisión. Cada mejora implementada crea nueva evidencia de producción para el siguiente ciclo.

Cómo usar Codex para construir este ciclo

El ejemplo de propiedades en alquiler es emblemático de un patrón reutilizable más amplio: usar artefactos y trazas de producción para mejorar las capacidades de un agente. Dados hallazgos revisados de datos de producción, trazas fuente, salida esperada del motor fiscal, ejemplos de código relevantes y comandos de evaluación como conjunto de entradas, Codex puede mejorar de forma material el desempeño y la precisión a lo largo de semanas y meses. Esto se basa en los principios descritos en nuestro trabajo sobre ingeniería de harness y Symphony, que explican cómo hacer que las tareas sean legibles para Codex, proporcionar contexto y herramientas acotados, y mantener la validación y la revisión humana como parte del entorno.

Esa evidencia no se convierte automáticamente en una tarea para Codex. Una corrección del profesional puede reflejar una omisión de extracción, un problema de mapeo, un comportamiento del producto no compatible, criterio fiscal o ruido esperado del flujo de trabajo. Solo después de que las diferencias repetidas se hayan revisado y agrupado en un hallazgo accionable, el sistema las convierte en una tarea acotada con una condición de éxito clara.

Aplicamos esta automatización a una capa acotada del producto. Esta capa realiza la extracción y mapea documentos fuente a flujos de trabajo fiscales. Los ingenieros siguen siendo responsables de la arquitectura, las decisiones de producto y la entrega. Los profesionales orientan el ciclo de mejora mediante el trabajo que ya realizan: corregir valores extraídos, revisar declaraciones y aprobar presentaciones finales.

Para Codex, el resultado no es una alerta vaga sino una tarea de ingeniería acotada con evidencia, superficies editables del producto y compuertas de validación explícitas. El contexto de una tarea representativa de propiedades en alquiler puede resumirse así:

Texto plano

1/candidates/FIND-RENTAL-0042/
2│
3├── repo/                                                   [1]
4│   └── branch: codex/fix-rental-0042
5│       │
6│       ├── AGENTS.md
7│       │
8│       ├── tasks/FIND-RENTAL-0042/
9│       │   ├── task.yaml
10│       │   ├── EXEC_PLAN.md
11│       │   └── RESULTS.md
12│       │
13│       ├── app/tax-ai/rental-income/                          [2]
14│       │   ├── agent.ts
15│       │   ├── schema.ts
16│       │   ├── provenance.ts
17│       │   └── mapper.ts
18│       │
19│       ├── evals/                                          [3]
20│       │   ├── datasets/fair-rental-days.yaml
21│       │   ├── suites/fair-rental-days.yaml
22│       │   ├── suites/rental-income-regression.yaml
23│       │   └── graders/rental-income.yaml
24│       │
25│       ├── skills/                                         [4]
26│       │   ├── eval-runner/
27│       │   └── tax-field-docs/
28│       │
29│       └── docs/                                           [4]
30│           ├── architecture/
31│           └── task-environments/
32│
33└── scoped-tools/                                           [5]
34    ├── production-trace
35    ├── source-artifacts
36    └── tax-engine-docs

Un entorno de tareas acotadas de Codex separa el worktree editable [1] del contexto de producción de solo lectura [5]. El worktree contiene la superficie de producto acotada que Codex puede inspeccionar o modificar [2], las evaluaciones dirigidas y de regresión que definen el éxito [3], y habilidades/documentos reutilizables que codifican cómo ejecutar la tarea y respetar decisiones previas [4]. El contexto de solo lectura proporciona la traza de producción, los documentos fuente, la predicción de Tax AI, la declaración finalizada y la documentación de campos del motor fiscal, para que Codex pueda investigar la falla sin mutar la evidencia subyacente.

Expansión a nuevos dominios

El mismo ciclo se aplica más allá de las propiedades en alquiler. Las propiedades en alquiler tomaron unas seis semanas y una supervisión de ingeniería considerable para alcanzar 90 % de precisión y recall, pero ese trabajo produjo abstracciones reutilizables, artefactos de revisión, convenciones de evaluación y patrones de implementación que facilitaron admitir anexos de complejidad similar, como el Schedule C y el Schedule A.

Tax AI demuestra una ruta para construir agentes que se auto-mejoran. Los profesionales generan señales de retroalimentación de alto valor al prestar el servicio. Los flujos de trabajo del producto preservan esas señales como evidencia estructurada. Los sistemas de ingeniería respaldados por evaluaciones validan las mejoras antes de que lleguen a producción, y un ciclo impulsado por agentes mantiene el sistema en un flujo continuo de auto-mejora.

La estructura de Thrive Holdings nos permite replicar este entorno en industrias específicas. Holdings es tanto propietario como operador, por lo que nuestros equipos de ingeniería combinados pueden trabajar directamente con profesionales y datos de producción desde dentro de empresas como Crete, no como proveedor sino como socios. Esto significa que la tecnología, el producto y el servicio están bajo un mismo techo para ayudarnos a avanzar más rápido y construir productos excepcionales.

Una contadora senior que el año pasado dedicó 180 horas a la preparación de impuestos este año dedicó solo 15 horas. Parte de ese tiempo lo dedicó a llamar a cada uno de sus clientes y guiarlos por sus declaraciones, un nivel de servicio muy personalizado que no era posible hace un año. El resto de ese tiempo lo usó para asumir nuevos clientes y ampliar la oferta de servicios.

En conjunto, nuestros equipos ahora usan el mismo diseño de tres partes de Tax AI como plano para construir flujos de trabajo en otros dominios de Thrive Holdings⁠(se abre en una nueva ventana); flujos contables como teneduría de libros y auditoría, y flujos operativos como la automatización de la mesa de ayuda de TI. En todos los dominios e industrias, se mantiene la promesa más amplia de los agentes que se auto-mejoran. Los mejores agentes son guiados por personas para aprender a volverse más capaces, más confiables y más valiosos con el tiempo.

Para obtener más información sobre el equipo de OpenAI que trabajó en este proyecto, ponte en contacto.