Datadog은 시스템 수준 코드 리뷰에 Codex를 사용합니다.
Datadog은 Codex를 통해 모든 코드 리뷰에 시스템 전반의 컨텍스트를 반영하여 사고를 예방하고 고객 신뢰를 보호합니다.
Datadog(새 창에서 열기)은 전 세계에서 가장 널리 사용되는 관측 가능성 플랫폼 중 하나를 운영하며, 기업이 복잡한 분산 시스템을 모니터링하고, 문제를 해결하고, 보호할 수 있도록 지원합니다. 문제가 발생하면 고객은 Datadog이 신속하게 문제를 찾아내기를 기대합니다. 따라서 코드를 프로덕션에 배포하기 훨씬 전부터 안정성을 확보해야 합니다.
Datadog의 엔지니어링 팀에게 코드 리뷰는 매우 중요한 부분입니다. 이는 단순히 실수를 잡아내는 것이 아니라, 변경 사항이 상호 연결된 시스템 전반에 어떤 파급 효과를 미치는지 이해하는 것으로, 기존의 정적 분석이나 규칙 기반 툴이 종종 한계를 보이는 영역입니다.
이러한 과제를 해결하기 위해 Datadog의 AI 개발 경험(AI DevX) 팀은 OpenAI의 코딩 에이전트인 Codex를 도입했으며, Codex는 코드 리뷰에 시스템 수준의 추론을 적용해 사람이 대규모 환경에서는 쉽게 발견하기 어려운 위험을 파악합니다.
“시간 절약은 실제적이고 중요한 문제입니다.”라고 Datadog의 AI DevX 팀을 이끄는 Brad Carter는 말합니다. “하지만 우리 규모에서는 사고 예방이 훨씬 더 중요합니다.”
Datadog에서 효과적인 코드 리뷰는 전통적으로 코드베이스와 그 역사, 아키텍처적 트레이드오프를 충분히 이해해 시스템적 위험을 포착할 수 있는 시니어 엔지니어들에게 크게 의존해 왔습니다.
하지만 이러한 깊은 맥락은 확장하기가 어렵고, 초기 AI 코드 리뷰 툴들은 이 문제를 해결하지 못했습니다. 많은 툴이 고급 린터처럼 표면적인 문제만 지적한 채, 더 넓은 시스템 차원의 미묘한 맥락은 놓쳤습니다. Datadog의 엔지니어들은 이러한 제안이 지나치게 피상적이거나 노이즈가 많다고 느껴 이를 무시하곤 했습니다.
Datadog은 OpenAI의 코딩 에이전트인 Codex를 실제 개발 워크플로에 통합해 시범 적용을 시작했습니다. 회사의 가장 크고 사용 빈도가 높은 리포지토리 중 하나에서는 모든 풀 리퀘스트가 Codex에 의해 자동으로 리뷰되었습니다. 엔지니어들은 Codex의 코멘트에 좋아요 또는 싫어요로 반응하고 팀 간에 비공식적인 피드백을 공유했습니다. 많은 엔지니어들이 이전 툴과 달리 Codex의 피드백은 읽어볼 가치가 있다고 평가했습니다.
AI 기반 리뷰가 스타일 이슈 지적을 넘어설 수 있는지 검증하기 위해 Datadog은 사고 재현 환경을 구축했습니다.
가상의 시나리오 대신, 팀은 과거의 실제 사고 사례로 돌아갔습니다. 사고에 영향을 준 풀 리퀘스트를 재구성한 뒤, 이를 원래 리뷰의 일부인 것처럼 Codex로 분석하고, 해당 사고를 담당했던 엔지니어들에게 Codex의 피드백이 도움이 되었을지 물었습니다.
그 결과 Codex는 Datadog이 검토한 사고 중 10건 이상, 약 22%에서 엔지니어들이 Codex의 피드백이 실제로 도움이 되었을 것이라고 확인한 사례를 찾아냈으며, 이는 평가된 어떤 툴보다도 높은 수치였습니다.
이 풀 리퀘스트들은 이미 코드 리뷰를 통과했기 때문에, 재현 테스트는 Codex가 당시 리뷰어들이 보지 못했던 위험을 드러내며 인간의 판단을 대체하기보다 보완한다는 점을 보여주었습니다.
Datadog의 분석에 따르면 Codex는 즉각적인 변경 사항만으로는 드러나지 않으며 결정론적 규칙으로는 잡기 어려운 문제를 일관되게 식별했습니다.
엔지니어들은 Codex의 코멘트를 단순한 ‘봇 노이즈’ 이상으로 평가했습니다.
- Codex는 변경되지 않은 모듈과의 상호작용을 지적했습니다.
- 서비스 간 결합 영역에서 누락된 테스트 커버리지를 식별했습니다.
- 하위 시스템에 위험을 초래할 수 있는 API 계약 변경을 강조했습니다.
“제게 Codex의 코멘트는 제가 함께 일해본 가장 똑똑한 엔지니어가 무한한 시간을 들여 버그를 찾는 것처럼 느껴집니다. 제 머릿속에서는 한 번에 담아낼 수 없는 연결고리를 Codex는 찾아냅니다.”
리뷰 피드백을 실제 신뢰성 결과와 연결하는 능력이 Datadog의 평가에서 Codex를 돋보이게 했습니다. 정적 분석 툴과 달리 Codex는 풀 리퀘스트의 의도를 제출된 코드 변경과 비교하고, 전체 코드베이스와 의존성을 바탕으로 추론해 코드와 테스트를 실행하며 동작을 검증합니다.
“프로그램의 더 큰 맥락에서 변경 사항을 실제로 고려하는 것처럼 보인 첫 사례였습니다.”라고 Carter는 말합니다. “그 점이 새롭고 인상적이었습니다.”
많은 엔지니어가 이러한 변화로 인해 AI 검토에 참여하는 방식이 완전히 바뀌었습니다. Datadog의 시니어 소프트웨어 엔지니어 Ted Wexler는 “Codex의 코멘트를 실제 코드 리뷰 피드백처럼 받아들이기 시작했습니다.”라고 말합니다. “대충 훑어보거나 무시할 것이 아니라, 주의를 기울일 가치가 있는 것이었습니다.”
평가 이후 Datadog은 Codex를 엔지니어링 조직 전반에 보다 폭넓게 배포했습니다. 현재 1,000명 이상의 엔지니어가 이를 정기적으로 사용하고 있습니다.
피드백은 공식적인 툴 내 지표보다도 자연스럽게 공유되는 경우가 많습니다. 엔지니어들은 Slack에 유용한 인사이트, 건설적인 코멘트, 그리고 Codex가 문제를 다르게 생각하도록 도와준 순간을 공유합니다.
시간 절감도 크지만, 팀들은 업무 방식 자체에 더 의미 있는 변화가 있었다고 일관되게 말했습니다.
“Codex는 코드 리뷰가 무엇이어야 하는지에 대한 제 생각을 바꿔놓았습니다. 이는 최고의 인간 리뷰어를 흉내 내는 것이 아닙니다. 변경 사항을 고립된 상태에서 검토할 때 인간이 보기 어려운 치명적인 결함과 엣지 케이스를 찾는 것입니다.”
Datadog에 미친 더 큰 영향은 코드 리뷰 자체의 정의가 바뀌었다는 점입니다. 팀은 이제 리뷰를 오류를 잡거나 사이클 타임을 최적화하는 체크포인트로 보기보다, 파트너로서 작동하는 핵심 신뢰성 시스템으로 Codex를 인식합니다.
- 개별 리뷰어가 맥락상 파악할 수 있는 범위를 넘어서는 위험을 드러냅니다.
- 모듈 간 및 서비스 간 상호작용을 강조합니다.
- 대규모 배포에 대한 신뢰도를 높입니다.
- 인간 리뷰어가 아키텍처와 설계에 집중할 수 있도록 합니다.
이러한 변화는 속도만큼이나, 혹은 그보다 더 중요하게 신뢰성과 신뢰를 중시하는 Datadog 리더들의 엔지니어링 우선순위와 맞닿아 있습니다.
Carter는 “모든 것이 무너질 때 기업들이 의존하는 플랫폼이 바로 우리입니다.”라고 말합니다. “사고를 예방하는 것은 고객이 우리에게 보내는 신뢰를 강화합니다.”


