Overslaan naar hoofdinhoud
OpenAI

9 januari 2026

Datadog gebruikt Codex voor systeembrede code reviews

Met Codex integreert Datadog systeembrede context in elke code review om incidenten te voorkomen en het vertrouwen van klanten te waarborgen.

Bezig met laden...

Datadog(opent in een nieuw venster) beheert een van 's werelds meest gebruikte observability-platforms. Hiermee helpen ze bedrijven bij het monitoren, troubleshooten en beveiligen van complexe gedistribueerde systemen. Wanneer er iets misgaat, vertrouwen klanten erop dat Datadog problemen snel signaleert. Dit betekent dat betrouwbaarheid al ingebouwd moet zijn lang voordat de code in productie gaat.

Voor de engineeringteams van Datadog maakt dit de code review tot een cruciaal moment. Het gaat niet alleen om het onderscheppen van fouten, maar om het begrijpen hoe wijzigingen doorwerken in onderling verbonden systemen. Dit is precies waar traditionele statische analyse en op regels gebaseerde tools vaak tekortschieten.

Om deze uitdaging aan te gaan, koos het AI Development Experience (AI DevX) team van Datadog voor Codex, de coding agent van OpenAI. Codex brengt redeneervermogen op systeemniveau naar de review en legt risico's bloot die voor mensen op deze schaal lastig te zien zijn.

"Tijdsbesparing is reëel en belangrijk," zegt Brad Carter, hoofd van het AI DevX-team bij Datadog. "Maar op onze schaal is het voorkomen van incidenten vele malen belangrijker."

Codex brengt systeemcontext naar code reviews

Effectieve code reviews leunden bij Datadog traditioneel zwaar op senior engineers: de mensen die de codebase, de geschiedenis en de architecturale afwegingen goed genoeg kennen om systeemrisico’s te spotten. 

Die diepgaande context is echter moeilijk schaalbaar. Vroege AI-tools voor code reviews boden geen oplossing; veel daarvan gedroegen zich als geavanceerde linters die oppervlakkige problemen markeerden maar de bredere nuances van het systeem misten. De engineers van Datadog vonden de suggesties vaak te oppervlakkig of 'ruis', waardoor ze genegeerd werden.

Datadog startte een pilot door Codex, de coding agent van OpenAI, te integreren in de actieve ontwikkelworkflows. In een van de grootste en meest gebruikte repository's van het bedrijf werd elke pull request automatisch beoordeeld door Codex. Engineers reageerden op de opmerkingen van Codex met duimpjes omhoog of omlaag en deelden informeel feedback met andere teams. Velen gaven aan dat de feedback van Codex, in tegenstelling tot eerdere tools, daadwerkelijk de moeite waard was om te lezen.

AI-reviews valideren op basis van echte incidenten

Om te testen of AI-ondersteunde reviews meer konden dan alleen stijlfouten aanwijzen, bouwde Datadog een simulatie-omgeving voor incidenten.

In plaats van hypothetische scenario's gebruikte het team historische incidenten. Ze reconstrueerden pull requests die aan de basis lagen van eerdere incidenten en lieten Codex deze opnieuw beoordelen. Daarna vroegen ze de verantwoordelijke engineers of de feedback van Codex destijds een verschil had gemaakt.

Het resultaat: Codex vond meer dan 10 gevallen (ongeveer 22% van de onderzochte incidenten) waarbij engineers bevestigden dat de feedback van Codex het verschil had gemaakt. Dit was een hogere score dan bij elke andere geteste tool.

Omdat deze pull requests de menselijke code review al hadden gepasseerd, toonde deze test aan dat Codex risico's naar boven haalde die de reviewers destijds hadden gemist. Het fungeerde als aanvulling op het menselijk oordeel, niet als vervanging.

Consistente feedback met een hoog signaalgehalte

De analyse van Datadog toonde aan dat Codex consequent problemen signaleerde die niet direct zichtbaar zijn in de diff alleen en die niet gevangen kunnen worden door vaste regels.

Engineers omschreven de opmerkingen van Codex als meer dan alleen 'bot-ruis':

  • Codex wees op interacties met modules die niet in de diff waren gewijzigd
  • Het identificeerde ontbrekende testdekking op plekken waar services aan elkaar gekoppeld zijn
  • Het belichtte wijzigingen in API-contracten die risico's vormden voor downstream processen
"Voor mij voelt een opmerking van Codex als de slimste engineer met wie ik ooit heb samengewerkt, die bovendien oneindig veel tijd heeft om bugs te vinden. Het ziet verbanden die mijn brein niet allemaal tegelijk kan vasthouden."
—Brad Carter, Engineering Manager bij Datadog

Dat vermogen om feedback te koppelen aan de betrouwbaarheid van systemen maakte Codex uniek in de evaluatie van Datadog. In tegenstelling tot statische analysetools vergelijkt Codex de intentie van de PR met de ingediende codewijzigingen. Het redeneert over de volledige codebase en afhankelijkheden om code en tests uit te voeren en zo het gedrag te valideren.

"Het was de eerste tool die de diff echt leek te bekijken in de bredere context van het programma," zegt Carter. "Dat was vernieuwend en een echte eye-opener."

Voor veel engineers veranderde dit de manier waarop ze omgingen met AI-reviews. "Ik begon opmerkingen van Codex te behandelen als feedback van een echte collega," zegt Ted Wexler, Senior Software Engineer bij Datadog. "Niet iets om snel te scannen of te negeren, maar iets waar ik echt aandacht aan moest besteden."

Focus voor engineers op design in plaats van detectie

Na deze evaluatie heeft Datadog Codex breder uitgerold binnen de organisatie. Vandaag de dag gebruiken meer dan 1.000 engineers het regelmatig. 

Feedback wordt grotendeels organisch gedeeld via Slack, waar engineers nuttige inzichten, constructieve opmerkingen en momenten waarop Codex hen hielp anders over een probleem na te denken bespreken.

Hoewel de tijdsbesparing aanzienlijk is, wezen teams vooral op een belangrijkere verandering in de manier van werken. 

"Codex heeft mijn blik op code reviews veranderd. Het doel is niet om onze beste menselijke reviewers te imiteren. Het gaat erom kritieke fouten en edge cases te vinden die mensen snel over het hoofd zien wanneer ze wijzigingen geïsoleerd beoordelen."
—Brad Carter, Engineering Manager bij Datadog

Een nieuwe kijk op code reviews: focus op risico, niet op snelheid

Voor Datadog betekende dit een fundamentele verandering in hoe ze naar code reviews kijken. In plaats van een review te zien als slechts een controlepunt voor fouten of een stap in het proces, beschouwt het team Codex nu als een cruciale pijler voor betrouwbaarheid en als een volwaardige partner. Codex helpt bij het:

  • Signaleren van risico's die voor individuele reviewers lastig in de volledige context te plaatsen zijn
  • Belichten van interacties tussen verschillende modules en services
  • Vergroten van het vertrouwen bij het uitrollen van software op grote schaal
  • Mogelijk maken dat menselijke reviewers zich kunnen focussen op architectuur en ontwerp

Deze verschuiving sluit naadloos aan bij de prioriteiten van het Datadog-management: betrouwbaarheid en vertrouwen zijn minstens zo belangrijk als snelheid.

"Wij zijn het platform waar bedrijven op vertrouwen als al het andere faalt," zegt Carter. "Het voorkomen van incidenten versterkt het vertrouwen dat klanten in ons stellen."