A Datadog usa o Codex para revisão de código ao nível de sistema
Com o Codex, a Datadog traz contexto de todo o sistema a cada revisão de código para prevenir incidentes e proteger a confiança dos clientes.
A Datadog(abre numa nova janela) gere uma das plataformas de observabilidade mais utilizadas do mundo, ajudando empresas a monitorizar, resolver problemas e proteger sistemas distribuídos complexos. Quando algo falha, os clientes dependem da Datadog para revelar problemas rapidamente, o que significa que a fiabilidade tem de ser incorporada muito antes de o código chegar à produção.
Para as equipas de engenharia da Datadog, isto faz da revisão de código um momento crucial. Não se trata apenas de detetar erros, mas de compreender como as mudanças se propagam através dos sistemas interligados — uma área em que a análise estática tradicional e as ferramentas baseadas em regras deixam muito a desejar.
Para enfrentar este desafio, a equipa de AI Development Experience (AI DevX) da Datadog recorreu ao Codex, o agente de programação da OpenAI, que traz raciocínio ao nível do sistema para a revisão de código e identifica riscos que os humanos dificilmente conseguem ver em grande escala.
“A poupança de tempo é real e importante”, afirma Brad Carter, que lidera a equipa AI DevX da Datadog. “Mas a prevenção de incidentes é muito mais importante à nossa escala.”
A revisão eficaz de código na Datadog dependia tradicionalmente muito dos engenheiros séniores — as pessoas que conhecem bem a base de código, a sua história e os compromissos arquitetónicos para identificar riscos sistémicos.
Mas esse tipo de contexto profundo é difícil de escalar, e as primeiras ferramentas de revisão de código com IA não resolveram este problema. Muitas comportavam-se como linters avançados, sinalizando problemas superficiais, mas ignorando nuances mais amplas do sistema. Os engenheiros da Datadog consideravam frequentemente as sugestões demasiado superficiais ou imprecisas e ignoravam-nas.
A Datadog começou a testar o Codex, o agente de programação da OpenAI, integrando-o nos fluxos de trabalho de desenvolvimento em tempo real. Num dos maiores e mais utilizados repositórios da empresa, cada pull request era automaticamente revisto pelo Codex. Os engenheiros reagiram a comentários do Codex com polegares para cima ou para baixo e partilharam feedback informal entre as equipas. Muitos observaram que o feedback do Codex valia a pena ser lido, ao contrário das ferramentas anteriores que produziam sugestões superficiais ou confusas.
Para testar se a revisão assistida por IA poderia fazer mais do que apontar problemas de estilo, a Datadog construiu uma plataforma de reprodução de incidentes.
Em vez de usar cenários hipotéticos, a equipa recorreu a incidentes históricos. Reconstruíram os pull requests que contribuíram para os incidentes, executaram o Codex em cada um deles como se fizessem parte da revisão original e, em seguida, perguntaram aos engenheiros responsáveis por esses incidentes se o feedback do Codex teria feito alguma diferença.
Resultado: o Codex identificou mais de 10 casos, ou aproximadamente 22% dos incidentes analisados pela Datadog, em que os engenheiros confirmaram que o feedback fornecido pelo Codex teria feito a diferença — mais do que qualquer outra ferramenta avaliada.
Como estes pull requests já tinham passado pela revisão de código, o teste de reprodução mostrou que o Codex revelou riscos que os revisores não tinham detetado na altura, complementando o julgamento humano em vez de o substituir.
A análise da Datadog mostrou que o Codex sinalizava consistentemente problemas que não são óbvios apenas pela comparação imediata das diferenças e que não podem ser detetados por regras determinísticas.
Os engenheiros descreveram os comentários do Codex como mais do que “ruído de bot”:
- O Codex destacou interações com módulos que não foram modificados no diff
- Identificou lacunas na cobertura de testes em áreas de acoplamento entre serviços
- Destacou alterações nos contratos de API que acarretavam riscos para os utilizadores finais
“Para mim, um comentário do Codex parece o de um engenheiro superinteligente com quem já trabalhei e que tem tempo infinito para encontrar erros. Identifica conexões que a minha mente não consegue abarcar de forma simultânea.”
Foi essa capacidade de ligar o feedback das revisões a resultados reais de fiabilidade que fez o Codex sobressair na avaliação da Datadog. Ao contrário das ferramentas de análise estática, o Codex compara a intenção do pull request com as alterações submetidas no código, analisando toda a base de código e dependências para executar código e testes que validem o comportamento.
“Foi a primeira que efetivamente levou em conta as mudanças no código no contexto global do programa,” afirma Carter. “Isso foi algo novo e revelador.”
Para muitos engenheiros, essa mudança transformou completamente a forma como interagiam com a revisão feita por IA. “Passei a considerar os comentários do Codex como um feedback genuíno de revisão de código,” afirma Ted Wexler, Engenheiro Sénior de Software na Datadog. “Não algo que eu passasse por cima ou ignorasse, mas algo que vale a pena ter em atenção.”
Após a avaliação, a Datadog implementou o Codex de forma mais ampla na sua equipa de engenharia. Hoje mais de 1000 engenheiros usam-no regularmente.
O feedback surge, em grande parte, de forma orgânica, em vez de ser obtido através de métricas formais integradas na ferramenta. Os engenheiros partilham no Slack informações úteis, comentários construtivos e momentos em que o Codex os ajudou a pensar de forma diferente sobre um problema.
Apesar das poupanças de tempo serem importantes, as equipas referiram sobretudo uma mudança mais profunda na forma como o trabalho é feito.
“O Codex mudou a minha perspetiva sobre o que uma revisão de código deve ser. Não se trata de replicar os nossos melhores revisores humanos. Trata-se de encontrar falhas críticas e casos extremos que os humanos têm dificuldade em ver ao rever alterações isoladamente.”
O impacto mais abrangente para a Datadog foi a redefinição do conceito de revisão de código. Em vez de encarar a revisão como um ponto de controlo para detetar erros ou otimizar o tempo de ciclo, a equipa agora vê o Codex como um sistema central de fiabilidade que atua como parceiro:
- Deteta riscos que ultrapassam a capacidade de contexto dos revisores individuais
- Destaca interações entre módulos e serviços
- Reforça a confiança na implementação em larga escala
- Permite que os revisores humanos se concentrem na arquitetura e no design
Esta mudança está alinhada com a forma como os líderes da Datadog definem as prioridades de engenharia, onde a fiabilidade e a confiança são tão importantes quanto, ou até mais do que, a rapidez.
“Somos a plataforma em que as empresas confiam quando tudo o resto está a falhar”, diz Carter. “Prevenir incidentes fortalece a confiança que os nossos clientes depositam em nós.”


