メインコンテンツにスキップ
OpenAI

2026年1月9日

Datadog 社、Codex を活用してシステムレベルのコードレビューを実施

Codex を使うことで、Datadog はすべてのコードレビューにシステム全体のコンテキストを反映し、インシデントの防止と顧客からの信頼維持につなげています。

読み込んでいます...

Datadog(新しいウィンドウで開く) は、世界で最も広く利用されているオブザーバビリティプラットフォームの一つを提供しており、企業が複雑な分散システムを監視し、トラブルシューティングを行い、保護できるよう支援しています。問題が発生したとき、顧客は Datadog によって問題が迅速に可視化されることを期待しています。だからこそ、コードが本番環境に反映されるずっと前から、信頼性を組み込んでおく必要があります。

このため、Datadog のエンジニアリングチームにとって、コードレビューは非常に重要な局面となります。重要なのは、単にミスを見つけることだけではありません。変更が相互に接続されたシステム全体にどのように波及するかを理解することです。これは、従来の静的解析やルールベースのツールでは十分に対応できない領域です。

この課題に対応するため、Datadog の AI Development Experience(AI DevX)チームは、OpenAI のコーディングエージェントである OpenAI Codex を活用しました。Codex は、コードレビューにシステムレベルの推論を取り入れ、大規模な環境では人間が容易に見つけられないリスクを可視化します。

「時間短縮は実際に効果があり、重要です」と、Datadog の AI DevX チームを率いる Brad Carter 氏は述べています。「しかし、私たちの規模では、インシデントを未然に防ぐことの方がはるかに重要です。」

Codex でコードレビューにシステムレベルのコンテキストを取り入れる

Datadog における効果的なコードレビューは従来、シニアエンジニアに大きく依存していました。コードベースやその背景、アーキテクチャ上のトレードオフを深く理解しているからこそ、システム全体に及ぶリスクを見抜くことができます。

しかし、そのような深い文脈理解を大規模に活かすことは難しく、初期の AI コードレビューツールでもこの問題は解決できませんでした。その多くは高度なリンターに近く、表面的な問題を指摘する一方で、システム全体に関わるより広い影響を見落としていました。Datadog のエンジニアは、そうした提案が浅すぎる、あるいはノイズが多すぎると感じることが多く、結果として活用されないことが多くなっていました。

Datadog は、OpenAI のコーディングエージェントである Codex を実際の開発ワークフローに組み込み、試験導入を開始しました。同社最大級で、特に利用頻度の高いリポジトリの1つでは、すべての PR が Codex によって自動的にレビューされていました。エンジニアは Codex からのコメントに高評価または低評価を付け、チーム間で非公式なフィードバックを共有しました。多くのエンジニアは、以前のツールがノイズの多い、あるいは表面的な提案を提示していたのとは異なり、Codex のフィードバックには読む価値があると述べました。

実際のインシデントに照らして AI レビューを検証する

AI 支援レビューがスタイルの問題を指摘する以上のことができるかを検証するため、Datadog はインシデントを再現するためのハーネスを構築しました。

仮定のシナリオを使用する代わりに、チームは過去のインシデントに立ち返りました。チームは、インシデントにつながった PR を再現し、それぞれに対して、元のレビューの一部であるかのように Codex を適用しました。そのうえで、各インシデントを担当したエンジニアに、Codex からのフィードバックが違いを生んでいたかどうかを尋ねました。

その結果、Datadog が調査したインシデントのうち10件以上、つまり約22%で、Codex からのフィードバックが違いを生んでいたはずだとエンジニアが確認しました。これは、評価対象となった他のどのツールよりも多い件数です。

これらの PR はすでにコードレビューを通過していたため、再現テストでは、Codex が当時レビュー担当者が気づいていなかったリスクを可視化できることが示されました。つまり、Codex は人間の判断を置き換えるのではなく、補完するものだと確認されたのです。

一貫性があり、有用性の高いフィードバックを提供する

Datadog の分析によると、Codex は、その差分だけでは明らかにならず、決定論的なルールでは検出できない問題を一貫して指摘していました。

エンジニアたちは、Codex のコメントを単なる「ボットによるノイズ」以上のものだと表現しました。

  • Codex は、差分で変更されていないモジュールとの相互作用を指摘しました。
  • サービス間の結合がある領域で、テストカバレッジの不足を特定しました。
  • 後続のシステムに影響するリスクを伴う API コントラクトの変更を明らかにしました。
「Codex のコメントは、私がこれまで一緒に働いてきた中で最も優秀なエンジニアが、バグを探すために無限の時間をかけてくれているような感覚です。自分の頭では一度に捉えきれない関連性まで見抜いてくれます。」
—Datadog のエンジニアリングマネージャー、Brad Carter 氏

レビューのフィードバックを実際の信頼性向上の成果に結び付けられるその能力こそが、Datadog の評価において Codex を際立たせた要因でした。静的解析ツールとは異なり、Codex は PR の意図と加えられたコード変更を照合します。さらに、コードベース全体と依存関係を踏まえて推論し、コードとテストを実行して動作を検証します。

「差分をプログラム全体のより広い文脈で実際に捉えているように見えた、初めてのツールでした」と Carter 氏は述べています。「それは斬新で、新たな気づきを与えてくれるものでした。」多くのエンジニアにとって、その変化は AI レビューとの関わり方そのものを変えました。「Codex のコメントを、実際のコードレビューで受けるフィードバックのように扱うようになりました」と、Datadog のシニアソフトウェアエンジニアである Ted Wexler 氏は述べています。「流し読みしたり無視したりするようなものではなく、注意を払う価値のあるものです。」

エンジニアが検知ではなく設計に集中できるようにする

評価を経て、Datadog は Codex をエンジニアリング組織全体に広く導入しました。現在、1,000人を超えるエンジニアが定期的に利用しています。

フィードバックは、ツール内の正式な指標を通じてではなく、主に現場から自然に寄せられています。エンジニアは Slack で、有益な気づきや建設的なコメント、Codex がきっかけで問題を別の視点から考えられた場面を共有しています。

時間短縮の効果は大きいものの、各チームは一貫して、仕事の進め方におけるより本質的な変化を指摘していました。

「Codex によって、コードレビューのあり方に対する考えが変わりました。最高の人間レビュアーを再現することが目的ではありません。人間が変更点を個別に確認するときに見落としがちな、重大な欠陥やエッジケースを見つけることに価値があるのです。」
—Datadog のエンジニアリングマネージャー、Brad Carter 氏

スピードではなくリスクを軸にコードレビューを再定義する

Datadog にとってより大きな変化は、コードレビューそのものの定義が変わったことでした。チームは今、レビューをエラー検出やサイクルタイム最適化のためのチェックポイントとしてではなく、Codex を、信頼性を支える中核的なシステムとして捉えています。Codex は、パートナーのように機能する存在です。

  • 個々のレビュー担当者だけでは把握しきれないリスクを可視化する
  • モジュール間およびサービス間の相互作用を可視化する
  • 大規模なリリースに対する安心感を高める
  • 人間のレビュー担当者がアーキテクチャと設計に集中できるようにする

この変化は、Datadog のリーダー層がエンジニアリング上の優先事項をどのように捉えているかとも一致しています。そこでは、信頼性と信頼感が開発スピードと同じくらい、場合によってはそれ以上に重視されています。

「他のあらゆるものが機能しなくなるような状況で、企業が頼りにするプラットフォームが私たちです」と Carter 氏は述べています。「インシデントを未然に防ぐことは、顧客が当社に寄せる信頼をさらに強固にします。」