Datadog nutzt Codex für systemweite Code-Reviews
Mit Codex bringt Datadog systemweiten Kontext in jedes Code-Review, um Vorfälle zu verhindern und das Vertrauen der Kunden zu schützen.
Datadog(wird in einem neuen Fenster geöffnet) betreibt eine der weltweit am häufigsten genutzten Observability-Plattformen und hilft Unternehmen dabei, komplexe verteilte Systeme zu überwachen, Fehler zu beheben und abzusichern. Wenn etwas kaputtgeht, verlassen sich Kunden darauf, dass Datadog Probleme schnell sichtbar macht, was bedeutet, dass Zuverlässigkeit eingebaut werden muss, lange bevor Code überhaupt die Produktion erreicht.
Für die Engineering-Teams von Datadog macht das Code-Review zu einem Moment mit hohem Einsatz. Es geht nicht nur darum, Fehler zu finden, sondern darum zu verstehen, wie sich Änderungen durch miteinander verbundene Systeme ausbreiten – ein Bereich, in dem traditionelle statische Analysen und regelbasierte Tools oft an ihre Grenzen stoßen.
Um dieser Herausforderung zu begegnen, wandte sich Datadogs Team für AI Development Experience (AI DevX) an Codex, den Coding-Agenten von OpenAI, der systemweites Reasoning/Schlussfolgern in Code-Reviews einbringt und Risiken sichtbar macht, die Menschen in der Breite nicht leicht erkennen können.
„Zeitersparnis ist real und wichtig“, sagt Brad Carter, der das AI-DevX-Team von Datadog leitet. „Aber Incidents zu verhindern ist in unserem Maßstab deutlich überzeugender.“
Effektive Code-Reviews bei Datadog stützten sich traditionell stark auf Senior Engineers – also auf diejenigen, die die Codebasis, ihre Historie und die architektonischen Trade-offs gut genug verstehen, um systemische Risiken zu erkennen.
Doch diese Art von tiefem Kontext lässt sich nur schwer skalieren, und frühe KI-Code-Review-Tools lösten dieses Problem nicht; viele verhielten sich wie fortgeschrittene Linter, die oberflächliche Probleme markierten, während ihnen breitere Systemnuancen entgingen. Datadogs Engineers empfanden die Vorschläge häufig als zu oberflächlich oder zu verrauscht und ignorierten sie.
Datadog startete einen Pilotversuch mit Codex, dem Coding-Agenten von OpenAI, indem er in die laufenden Entwicklungs-Workflows integriert wurde. In einem der größten und am intensivsten genutzten Repositories des Unternehmens wurde jeder Pull Request automatisch von Codex überprüft. Engineers reagierten auf Codex-Kommentare mit Daumen hoch oder runter und teilten informelles Feedback teamübergreifend. Viele stellten fest, dass das Codex-Feedback lesenswert war, im Gegensatz zu früheren Tools, die eher verrauschte oder oberflächliche Vorschläge lieferten.
Um zu testen, ob die KI-gestützten Reviews mehr leisten können als nur Stilfragen anzusprechen, baute Datadog ein Incident-Replay-Framework.
Statt hypothetische Szenarien zu verwenden, ging das Team zu historischen Incidents zurück. Es rekonstruierte Pull Requests, die zu Incidents beigetragen hatten, ließ Codex jeden einzelnen so prüfen, als wäre er Teil des ursprünglichen Reviews gewesen, und fragte dann die Engineers, die diese Incidents verantwortet hatten, ob das Feedback von Codex einen Unterschied gemacht hätte.
Das Ergebnis: Codex fand mehr als 10 Fälle, also rund 22 % der untersuchten Incidents bei Datadog, bei denen Engineers bestätigten, dass das von Codex gelieferte Feedback einen Unterschied gemacht hätte – mehr als jedes andere bewertete Tool.
Da diese Pull Requests das Code-Review bereits bestanden hatten, zeigte der Replay-Test, dass Codex Risiken sichtbar machte, die Reviewer damals nicht gesehen hatten, und menschliches Urteilsvermögen ergänzte, statt es zu ersetzen.
Die Analyse von Datadog zeigte, dass Codex kontinuierlich Probleme markierte, die nicht allein aus dem unmittelbaren Diff ersichtlich sind und nicht durch deterministische Regeln erkannt werden können.
Engineers beschrieben Codex-Kommentare als mehr als bloßes „Bot-Rauschen“:
- Codex wies auf Interaktionen mit Modulen hin, die im Diff nicht berührt wurden.
- Es identifizierte fehlende Testabdeckung in Bereichen mit serviceübergreifender Kopplung.
- Es hob Änderungen an API-Verträgen hervor, die Risiken für nachgelagerte Prozesse darstellten.
„Für mich fühlt sich ein Codex-Kommentar an wie der klügste Ingenieur, mit dem ich je gearbeitet habe, und der unendlich viel Zeit hat, Bugs zu finden. Er sieht Zusammenhänge, die mein Gehirn nicht alle gleichzeitig halten kann.“
Diese Fähigkeit, Review-Feedback mit realen Zuverlässigkeitsergebnissen zu verknüpfen, war es, was Codex in Datadogs Evaluierung hervorhob. Anders als statische Analyse-Tools vergleicht Codex die Intention des Pull Requests mit den eingereichten Codeänderungen, führt Schlussfolgerungen über die gesamte Codebasis und ihre Abhängigkeiten hinweg durch und führt Code und Tests aus, um das Verhalten zu validieren.
„Es war das erste Tool, das den Diff tatsächlich im größeren Kontext des Programms zu betrachten schien“, sagt Carter. „Das war neuartig und augenöffnend.“
Für viele Engineers veränderte dieser Perspektivwechsel grundsätzlich, wie sie mit KI-Reviews umgingen. „Ich habe angefangen, Codex-Kommentare wie echtes Code-Review-Feedback zu behandeln“, sagt Ted Wexler, Senior Software Engineer bei Datadog. „Nicht etwas, das ich überfliege oder ignoriere, sondern etwas, dem es sich lohnt, Aufmerksamkeit zu schenken.“
Nach der Evaluierung führte Datadog Codex breiter unter Engineering-Teams ein. Heute wird Codex regelmäßig von mehr als 1.000 Engineers genutzt.
Feedback taucht dabei überwiegend organisch auf und nicht über formale In-Tool-Metriken. Engineers posten in Slack über hilfreiche Erkenntnisse, konstruktive Kommentare und Momente, in denen Codex ihnen geholfen hat, ein Problem anders zu durchdenken.
Während die Zeitersparnis erheblich ist, verwiesen die Teams konsistent auf eine tiefgreifendere Veränderung darin, wie Arbeit erledigt wird.
„Codex hat meine Vorstellung davon verändert, was Code-Review sein sollte. Es geht nicht darum, unsere besten menschlichen Reviewer zu replizieren. Es geht darum, kritische Schwachstellen und Edge Cases zu finden, die Menschen schwer erkennen, wenn sie Änderungen isoliert überprüfen.“
Die weitreichenderen Auswirkungen für Datadog waren eine Änderung darin, wie Code-Review selbst definiert wird. Anstatt das Review als Kontrollpunkt zu betrachten, um Fehler zu finden oder die Zykluszeit zu optimieren, sieht das Team Codex inzwischen als zentrales Zuverlässigkeitssystem, das als Partner fungiert:
- Sichtbarmachen von Risiken über das hinaus, was einzelne Reviewer im Kontext erfassen können
- Hervorheben von Interaktionen über Module und Services hinweg
- Mehr Sicherheit bei der Auslieferung im großen Maßstab
- Damit sich menschliche Reviewer auf Architektur und Design konzentrieren können
Dieser Wandel entspricht der Art und Weise, wie die Führungskräfte von Datadog technische Prioritäten setzen, bei denen Zuverlässigkeit und Vertrauen genauso wichtig sind wie, wenn nicht sogar wichtiger als, Geschwindigkeit.
„Wir sind die Plattform, auf die sich Unternehmen verlassen, wenn alles andere versagt“, sagt Carter. „Das Verhindern von Vorfällen stärkt das Vertrauen, das unsere Kunden in uns setzen.“


