Pular para o conteúdo principal
OpenAI

9 de janeiro de 2026

A Datadog usa o Codex para revisão de código em nível de sistema

Com o Codex, a Datadog traz o contexto de todo o sistema para cada revisão de código, prevenindo incidentes e protegendo a confiança do cliente.

Carregando…

A Datadog(abre em uma nova janela) opera uma das plataformas de observabilidade mais usadas do mundo, ajudando empresas a monitorar, solucionar problemas e proteger sistemas distribuídos complexos. Quando algo quebra, clientes dependem da Datadog para revelar problemas rapidamente, o que significa que a confiabilidade precisa ser incorporada muito antes de o código chegar à produção.

Para as equipes de engenharia da Datadog, isso faz da revisão de código um momento crucial. Não se trata apenas de detectar erros, mas de compreender como as mudanças se propagam por sistemas interconectados — uma área em que a análise estática tradicional e as ferramentas baseadas em regras muitas vezes deixam a desejar.

Para enfrentar esse desafio, a equipe de Experiência em Desenvolvimento de IA (AI DevX) da Datadog recorreu ao Codex, o agente de codificação da OpenAI, que traz o raciocínio em nível de sistema para a revisão de código e revela riscos que os humanos não conseguem enxergar facilmente em grande escala.

“A economia de tempo é real e importante”, afirma Brad Carter, que lidera a equipe AI DevX da Datadog. “Mas a prevenção de incidentes é muito mais importante na nossa escala.”

Adicionando contexto sistêmico à revisão de código com o Codex.

Na Datadog, a revisão de código eficaz tradicionalmente dependia muito de engenheiros seniores — as pessoas que entendem a base de código, seu histórico e as compensações arquitetônicas suficientemente bem para identificar riscos sistêmicos. 

Mas esse tipo de contexto profundo é difícil de escalar, e as primeiras ferramentas de revisão de código com IA não resolveram esse problema; muitas se comportavam como linters avançados, sinalizando problemas superficiais, mas ignorando nuances mais amplas do sistema. Os engenheiros da Datadog frequentemente consideravam as sugestões superficiais ou imprecisas demais e as ignoravam.

A Datadog começou a testar o Codex, o agente de programação da OpenAI, integrando-o aos fluxos de trabalho de desenvolvimento ao vivo. Em um dos maiores e mais utilizados repositórios da empresa, cada solicitação de pull request era revisada automaticamente pelo Codex. Os engenheiros reagiram aos comentários do Codex com votos positivos ou negativos e compartilharam feedback informal entre as equipes. Muitos observaram que o feedback do Codex valia a pena ser lido, ao contrário de ferramentas anteriores que produziam sugestões superficiais ou confusas.

Validação da análise de IA com base em incidentes reais

Para testar se a revisão assistida por IA poderia fazer mais do que apontar problemas de estilo, a Datadog construiu uma plataforma de reprodução de incidentes.

Em vez de usar cenários hipotéticos, a equipe recorreu a incidentes históricos. Eles reconstruíram as solicitações de pull que contribuíram para os incidentes, executaram o Codex em cada uma delas como se fizessem parte da revisão original e, em seguida, perguntaram aos engenheiros responsáveis por esses incidentes se o feedback do Codex teria feito alguma diferença.

Resultado: Codex identificou mais de 10 casos, ou aproximadamente 22% dos incidentes analisados pela Datadog, em que os engenheiros confirmaram que o feedback fornecido pela Codex teria feito a diferença — mais do que qualquer outra ferramenta avaliada.

Como essas solicitações de pull já haviam passado pela revisão de código, o teste de reprodução mostrou que o Codex revelou riscos que os revisores não haviam percebido na época, complementando o julgamento humano em vez de substituí-lo.

Fornecer feedback consistente e de alta qualidade.

A análise da Datadog mostrou que o Codex sinalizava consistentemente problemas que não são óbvios apenas pela comparação imediata das diferenças e que não podem ser detectados por regras determinísticas.

Os engenheiros descreveram os comentários do Codex como algo mais do que "ruído de bots":

  • O Codex apontou interações com módulos não alterados na comparação.
  • Identificou lacunas na cobertura de testes em áreas de acoplamento entre serviços.
  • Destacou alterações nos contratos de API que acarretavam riscos para os usuários finais.
“Para mim, um comentário no Codex é como se o engenheiro mais inteligente com quem já trabalhei tivesse tempo infinito para encontrar bugs. Ele enxerga conexões que meu cérebro não consegue reter todas de uma vez.”
—Brad Carter, Gerente de Engenharia da Datadog

Essa capacidade de conectar o feedback das avaliações a resultados reais de confiabilidade foi o que fez o Codex se destacar na avaliação da Datadog. Diferentemente das ferramentas de análise estática, o Codex compara a intenção da solicitação de pull request com as alterações de código enviadas, analisando toda a base de código e as dependências para executar o código e os testes a fim de validar o comportamento.

“Foi a primeira que realmente pareceu considerar a diferença no contexto mais amplo do programa”, diz Carter. “Foi algo inédito e revelador.”

Para muitos engenheiros, essa mudança alterou completamente a forma como interagiam com a revisão por IA. “Comecei a tratar os comentários do Codex como feedback de revisão de código de verdade”, diz Ted Wexler, Engenheiro de Software Sênior da Datadog. “Não é algo que eu passaria por cima ou ignoraria, mas algo a que vale a pena prestar atenção.”

Focar os engenheiros no projeto em vez da detecção.

Após a avaliação, a Datadog implementou o Codex de forma mais ampla em sua equipe de engenharia. Hoje, mais de 1.000 engenheiros o utilizam regularmente. 

O feedback surge, em grande parte, de forma orgânica, em vez de ser obtido por meio de métricas formais integradas à ferramenta. Os engenheiros publicam no Slack sobre ideias úteis, comentários construtivos e momentos em que o Codex os ajudou a pensar de forma diferente sobre um problema.

Embora a economia de tempo seja significativa, as equipes apontaram consistentemente para uma mudança mais substancial na forma como o trabalho era realizado. 

“O Codex mudou minha perspectiva sobre o que a revisão de código deveria ser.” Não se trata de replicar nossos melhores revisores humanos. Trata-se de encontrar falhas críticas e casos extremos que os humanos têm dificuldade em perceber ao analisar as alterações isoladamente.”
—Brad Carter, Gerente de Engenharia da Datadog

Redefinindo a revisão de código com foco no risco, não na velocidade.

O impacto mais amplo para a Datadog foi uma mudança na própria definição de revisão de código. Em vez de tratar a revisão como um ponto de verificação para detectar erros ou otimizar o tempo de ciclo, a equipe agora vê o Codex como um sistema de confiabilidade essencial que atua como um parceiro:

  • Revelar riscos além do que os avaliadores individuais podem avaliar no contexto.
  • Destacando as interações entre módulos e serviços.
  • Aumento da confiança no transporte marítimo em grande escala.
  • Permitir que os revisores humanos se concentrem na arquitetura e no design.

Essa mudança está alinhada com a forma como os líderes da Datadog definem as prioridades de engenharia, onde a confiabilidade e a confiança importam tanto quanto, ou até mais do que, a velocidade.

“Somos a plataforma em que as empresas confiam quando tudo o mais está falhando”, diz Carter. “Prevenir incidentes fortalece a confiança que nossos clientes depositam em nós.”