Ir al contenido principal
OpenAI

9 de enero de 2026

Datadog usa Codex para revisar código a nivel de sistema

Con Codex, Datadog incorpora el contexto de todo el sistema en cada revisión de código para prevenir incidentes y proteger la confianza de los clientes.

Cargando…

Datadog(se abre en una ventana nueva) opera una de las plataformas de observabilidad más utilizadas en el mundo y ayuda a las empresas a supervisar, resolver problemas y proteger sistemas distribuidos complejos. Cuando algo falla, los clientes dependen de que Datadog detecte los problemas rápidamente, lo que significa que la fiabilidad debe integrarse mucho antes de que el código llegue siquiera a producción.

Para los equipos de ingeniería de Datadog, eso convierte la revisión de código en un momento de alto riesgo. No se trata solo de detectar errores, sino de entender cómo los cambios repercuten en sistemas interconectados; un área donde el análisis estático tradicional y las herramientas basadas en reglas suelen quedarse cortos.

Para afrontar este desafío, el equipo de Experiencia en Desarrollo de IA (AI DevX) de Datadog recurrió a Codex, el agente de programación de OpenAI, que aporta un razonamiento a nivel de sistema a la revisión de código y detecta riesgos que los humanos no pueden identificar fácilmente a gran escala.

«El ahorro de tiempo es real e importante», afirma Brad Carter, responsable del equipo de AI DevX de Datadog. «Pero prevenir incidentes es mucho más relevante a nuestra escala».

Incorporar contexto a nivel de sistema en la revisión de código con Codex

Tradicionalmente, la revisión de código efectiva en Datadog dependía en gran medida de los ingenieros sénior: aquellas personas que conocen el código base, su historia y las compensaciones arquitectónicas lo suficientemente bien como para detectar riesgos sistémicos.

Pero ese tipo de contexto profundo es difícil de escalar y las primeras herramientas de revisión de código con IA no resolvieron este problema; muchas se comportaban como comprobaciones de código avanzadas, señalando problemas superficiales pero ignorando los matices sistémicos más amplios. Los ingenieros de Datadog a menudo consideraban que las sugerencias eran demasiado superficiales o generaban demasiado ruido, por lo que terminaban ignorándolas.

Datadog comenzó a probar Codex, el agente de programación de OpenAI, y lo integró en los flujos de trabajo de desarrollo en vivo. En uno de los repositorios más grandes y utilizados de la empresa, Codex revisaba cada pull request automáticamente. Los ingenieros reaccionaron a los comentarios de Codex con pulgares arriba o abajo y compartieron comentarios informales entre los distintos equipos. Muchos señalaron que valía la pena leer los comentarios de Codex, a diferencia de las herramientas anteriores que generaban sugerencias superficiales o con demasiado ruido.

Validar la revisión de IA frente a incidentes reales

Para comprobar si la revisión asistida por IA podía hacer algo más que señalar problemas de estilo, Datadog construyó un entorno de simulación de incidentes.

En lugar de usar escenarios hipotéticos, el equipo recurrió a incidentes históricos. Reconstruyeron los pull requests que habían contribuido a dichos incidentes, ejecutaron Codex en cada uno como si fuera parte de la revisión original y luego preguntaron a los ingenieros responsables de esos incidentes si los comentarios de Codex habrían marcado la diferencia.

El resultado: Codex detectó más de 10 casos, aproximadamente el 22 % de los incidentes analizados por Datadog, en los que los ingenieros confirmaron que los comentarios de Codex habrían marcado la diferencia; una cifra superior a la de cualquier otra herramienta evaluada.

Dado que estos pull requests ya habían superado la revisión de código, la prueba de simulación demostró que Codex detectó riesgos que los revisores no habían visto en su momento, complementando el juicio humano en lugar de reemplazarlo.

Ofrecer comentarios consistentes y de alta calidad

El análisis de Datadog demostró que Codex señalaba de forma constante problemas que no son obvios analizando solo el resumen de las diferencias inmediatas y que no pueden ser detectados mediante reglas deterministas.

Los ingenieros describieron los comentarios de Codex como algo más que simple «ruido de bot»:

  • Codex señaló interacciones con módulos que no fueron modificados en el resumen de las diferencias.
  • Identificó la falta de cobertura de pruebas en áreas de acoplamiento entre servicios.
  • Destacó cambios en el contrato de la API que implicaban riesgos para los sistemas dependientes.
«Para mí, un comentario de Codex es como el ingeniero más listo con el que he trabajado y que tiene tiempo infinito para encontrar errores. Ve conexiones que mi cerebro no puede captar todas a la vez».
—Brad Carter, director de ingeniería en Datadog

Esa capacidad de vincular los comentarios de la revisión con resultados reales de fiabilidad fue lo que hizo que Codex destacara en la evaluación de Datadog. A diferencia de las herramientas de análisis estático, Codex compara la intención de los pull requests con los cambios de código enviados, razonando sobre todo el código base y sus dependencias para ejecutar código y pruebas que validen el comportamiento.

«Fue la primera que realmente pareció considerar las diferencias dentro del contexto más amplio del programa», afirma Carter. «Fue algo novedoso y revelador.»

Para muchos ingenieros, ese cambio transformó por completo su forma de interactuar con la revisión por IA. «Empecé a tratar los comentarios de Codex como comentarios reales de revisión de código», afirma Ted Wexler, ingeniero de software sénior de Datadog. «No como algo que leería por encima o ignoraría, sino como algo que merece atención».

Permitir que los ingenieros se centren en el diseño y no en la detección

Después de la evaluación, Datadog implementó Codex de manera más amplia en su equipo de ingeniería. Hoy en día, más de 1000 ingenieros lo usan de manera regular.

Los comentarios se reciben mayoritariamente de forma orgánica, más que a través de métricas formales dentro de la herramienta. Los ingenieros publican en Slack sobre hallazgos útiles, comentarios constructivos y momentos en los que Codex les ayudó a pensar de forma diferente sobre un problema.

Aunque el ahorro de tiempo es considerable, los equipos destacaron una y otra vez un cambio más significativo en la forma de trabajar.

«Codex cambió mi forma de entender cómo debería ser una revisión de código. No se trata de replicar a nuestros mejores revisores humanos. Se trata de encontrar fallos críticos y casos límite que a los humanos nos cuesta ver cuando revisamos cambios de forma aislada».
—Brad Carter, director de ingeniería en Datadog

Redefinir la revisión de código en torno al riesgo, no a la velocidad

El impacto más profundo para Datadog fue un cambio en la propia definición de la revisión de código. En lugar de tratar la revisión como un simple control para detectar errores u optimizar los tiempos de entrega, el equipo ahora ve a Codex como un sistema central de fiabilidad que actúa como un socio:

  • Detectar riesgos que van más allá de lo que los revisores individuales pueden abarcar en contexto
  • Destacar las interacciones entre módulos y entre servicios
  • Aumentar la confianza para realizar lanzamientos a gran escala
  • Permitir que los revisores humanos se centren en la arquitectura y el diseño

Este cambio se alinea con la forma en que los líderes de Datadog definen las prioridades de ingeniería, donde la fiabilidad y la confianza importan tanto como la velocidad, si no más.

«Somos la plataforma en la que las empresas confían cuando todo lo demás falla», afirma Carter. «Prevenir incidentes fortalece la confianza que nuestros clientes depositan en nosotros».