Datadog usa Codex para la revisión de código a nivel de sistema
Con Codex, Datadog aporta un contexto integral del sistema en cada revisión de código para prevenir incidentes y proteger la confianza de los clientes.
Datadog(se abre en una nueva ventana) opera una de las plataformas de observabilidad más utilizadas en el mundo, y ayuda a las empresas a monitorear, resolver problemas y proteger sistemas distribuidos complejos. Cuando algo falla, los clientes dependen de que Datadog detecte los problemas rápidamente, lo que significa que la confiabilidad debe integrarse mucho antes de que el código llegue siquiera a producción.
Para los equipos de ingeniería de Datadog, esto convierte la revisión de código en un momento de alto riesgo. No se trata solo de detectar errores, sino de entender cómo los cambios repercuten en sistemas interconectados; un área donde el análisis estático tradicional y las herramientas basadas en reglas suelen quedarse cortos.
Para afrontar este desafío, el equipo de Experiencia en Desarrollo de IA (AI DevX) de Datadog recurrió a Codex, el agente de programación de OpenAI, que aporta un razonamiento a nivel de sistema a la revisión de código y detecta riesgos que los humanos no pueden identificar fácilmente a gran escala.
“El ahorro de tiempo es real e importante”, afirma Brad Carter, responsable del equipo de AI DevX de Datadog. “Pero prevenir incidentes es mucho más convincente a nuestra escala”.
Tradicionalmente, la revisión de código efectiva en Datadog dependía en gran medida de los ingenieros sénior: aquellas personas que conocen el código base, su historia y las compensaciones arquitectónicas lo suficientemente bien como para detectar riesgos sistémicos.
Pero ese tipo de contexto profundo es difícil de escalar, y las primeras herramientas de revisión de código con IA no resolvieron este problema; muchas se comportaban como comprobaciones de código avanzadas, señalando problemas superficiales pero ignorando los matices sistémicos más amplios. Los ingenieros de Datadog a menudo consideraban que las sugerencias eran demasiado superficiales o generaban demasiado ruido, por lo que terminaban ignorándolas.
Datadog comenzó a probar Codex, el agente de programación de OpenAI, y lo integró en los flujos de trabajo de desarrollo en vivo. En uno de los repositorios más grandes y utilizados de la empresa, Codex revisaba cada pull request automáticamente. Los ingenieros reaccionaron a los comentarios de Codex con pulgares arriba o abajo y compartieron comentarios informales entre los distintos equipos. Muchos señalaron que valía la pena leer los comentarios de Codex, a diferencia de las herramientas anteriores que generaban sugerencias superficiales o con demasiado ruido.
Para comprobar si la revisión asistida por IA podía hacer algo más que señalar problemas de estilo, Datadog construyó un entorno de simulación de incidentes.
En lugar de usar escenarios hipotéticos, el equipo recurrió a incidentes históricos. Reconstruyeron los pull requests que habían contribuido a dichos incidentes, ejecutaron Codex en cada uno como si fuera parte de la revisión original y luego preguntaron a los ingenieros responsables de esos incidentes si los comentarios de Codex habrían marcado la diferencia.
El resultado: Codex detectó más de 10 casos, aproximadamente el 22 % de los incidentes analizados por Datadog, en los que los ingenieros confirmaron que los comentarios de Codex habrían marcado la diferencia; una cifra superior a la de cualquier otra herramienta evaluada.
Dado que estos pull requests ya habían superado la revisión de código, la prueba de simulación demostró que Codex detectó riesgos que los revisores no habían visto en su momento, complementando el juicio humano en lugar de reemplazarlo.
El análisis de Datadog demostró que Codex señalaba de forma constante problemas que no son obvios analizando solo la diferencia inmediata y que no pueden ser detectados mediante reglas deterministas.
Los ingenieros describieron los comentarios de Codex como algo más que simple “ruido de bot”:
- Codex señaló interacciones con módulos que no fueron modificados en la diferencia.
- Identificó la falta de cobertura de pruebas en áreas de acoplamiento entre servicios.
- Destacó cambios en el contrato de la API que implicaban riesgos para los sistemas dependientes.
“Para mí, un comentario de Codex es como el del ingeniero más inteligente con el que he trabajado, pero que además tiene tiempo infinito para encontrar errores. Ve conexiones que mi cerebro no es capaz de retener todas a la vez”.
Esa capacidad de vincular los comentarios de la revisión con resultados reales de confiabilidad fue lo que hizo que Codex se destacara en la evaluación de Datadog. A diferencia de las herramientas de análisis estático, Codex compara la intención de los pull requests con los cambios de código enviados, razonando sobre todo el código base y sus dependencias para ejecutar código y pruebas que validen el comportamiento.
“Fue la primera que realmente pareció considerar la diferencia dentro del contexto más amplio del programa”, afirma Carter. “Fue algo novedoso y revelador”.
Para muchos ingenieros, ese cambio transformó por completo su forma de interactuar con la revisión por IA. “Empecé a tratar los comentarios de Codex como comentarios reales de revisión de código”, afirma Ted Wexler, ingeniero de software sénior de Datadog. “No como algo que leería por encima o ignoraría, sino como algo que merece atención”.
Después de la evaluación, Datadog desplegó Codex de manera más amplia en su equipo de ingeniería. Hoy en día, más de 1000 ingenieros lo usan de manera regular.
Los comentarios se reciben mayoritariamente de forma orgánica, más que a través de métricas formales dentro de la herramienta. Los ingenieros publican en Slack sobre hallazgos útiles, comentarios constructivos y momentos en los que Codex les ayudó a pensar de forma diferente sobre un problema.
Aunque el ahorro de tiempo es considerable, los equipos constantemente señalaron un cambio más profundo en cómo se realizaba el trabajo.
“Codex me hizo replantear cómo debería ser la revisión de código. No se trata de replicar a nuestros mejores revisores humanos. Se trata de encontrar fallos críticos y casos límite que a los humanos les cuesta ver cuando revisan cambios de manera aislada”.
El impacto más profundo para Datadog fue un cambio en la propia definición de la revisión de código. En lugar de tratar la revisión como un simple control para detectar errores u optimizar los tiempos de entrega, el equipo ahora ve a Codex como un sistema central de confiabilidad que actúa como un socio:
- Detectar riesgos que van más allá de lo que los revisores individuales pueden abarcar en contexto
- Destacar las interacciones entre módulos y entre servicios
- Aumentar la confianza para realizar despliegues a gran escala
- Permitir que los revisores humanos se enfoquen en la arquitectura y el diseño
Este cambio se alinea con la forma en que los líderes de Datadog definen las prioridades de ingeniería, donde la confiabilidad y la confianza importan tanto como la velocidad, si no más.
“Somos la plataforma en la que las empresas confían cuando todo lo demás falla”, afirma Carter. “Prevenir incidentes fortalece la confianza que nuestros clientes depositan en nosotros”.


