Gå til hovedindhold
OpenAI

9. januar 2026

Datadog bruger Codex til kodegennemgang på systemniveau

Med Codex bringer Datadog systemomfattende kontekst ind i hver eneste kodegennemgang for at forhindre hændelser og beskytte kundernes tillid.

Indlæser ...

Datadog(åbner i et nyt vindue) driver en af verdens mest udbredte observability-platforme, der hjælper virksomheder med at overvåge, fejlfinde og sikre komplekse distribuerede systemer. Når noget går i stykker, er kunderne afhængige af, at Datadog hurtigt identificerer problemer, hvilket betyder, at pålidelighed skal være indbygget længe før koden nogensinde når produktion.

For Datadogs ingeniørteams gør det kodegennemgang til et afgørende øjeblik. Det handler ikke kun om at finde fejl, men også om at forstå, hvordan ændringer påvirker sammenkoblede systemer – et område, hvor traditionelle statiske analyser og regelbaserede værktøjer ofte ikke er tilstrækkelige.

For at imødegå denne udfordring vendte Datadogs AI Development Experience (AI DevX)-team sig mod Codex, kodningsagenten fra OpenAI, som bringer ræsonnering på systemniveau ind i kodegennemgang og afdækker risici, som mennesker ikke let kan se i stor skala.

“Tidsbesparelser er reelle og vigtige,” siger Brad Carter, der leder Datadogs AI DevX-team. “Men at forebygge hændelser er langt mere afgørende på vores niveau.”

Inddragelse af systemkontekst i kodegennemgang med Codex

Effektiv kodegennemgang hos Datadog har traditionelt set været stærkt afhængig af erfarne ingeniører – personer, der forstår kodebasen, dens historie og de arkitektoniske kompromiser godt nok til at kunne spotte systemiske risici. 

Men den slags dybdegående kontekst er svær at skalere, og tidlige AI-værktøjer til kodegennemgang løste ikke dette problem; mange opførte sig som avancerede kodekontroller (linters), der markerede overfladiske problemer, mens de overså bredere systemnuancer. Datadogs ingeniører fandt ofte forslagene for overfladiske eller for støjende og ignorerede dem.

Datadog begyndte at afprøve Codex, kodningsagenten fra OpenAI, ved at integrere den i de aktive udviklingsworkflows. I et af virksomhedens største og mest anvendte lagre blev hver pull-anmodning automatisk gennemgået af Codex. Ingeniører reagerede på kommentarer fra Codex med tommelfinger op eller ned og delte uformel feedback på tværs af teams. Mange bemærkede, at Codex-feedbacken var værd at læse, i modsætning til tidligere værktøjer, der producerede støjende eller overfladiske forslag.

Validering af AI-gennemgang i forhold til reelle hændelser

For at teste, om AI-assisteret gennemgang kunne gøre mere end blot at påpege stilistiske problemer, udviklede Datadog et system til gengivelse af hændelser.

I stedet for at bruge hypotetiske scenarier gik teamet tilbage til historiske hændelser. De rekonstruerede pull-anmodninger, der havde bidraget til hændelser, kørte Codex mod hver enkelt, som om det var en del af den oprindelige gennemgang, og spurgte derefter de ingeniører, der var ansvarlige for disse hændelser, om feedback fra Codex ville have gjort en forskel.

Resultatet: Codex fandt mere end 10 tilfælde, eller cirka 22 % af de hændelser, som Datadog undersøgte, hvor ingeniører bekræftede, at den feedback, Codex leverede, ville have gjort en forskel – mere end noget andet værktøj, der blev evalueret.

Fordi disse pull-anmodninger allerede havde bestået kodegennemgangen, viste replay-testen, at Codex afdækkede risici, som anmelderne ikke havde set på det tidspunkt, hvilket supplerede menneskelig dømmekraft snarere end at erstatte den.

Levering af konsistent feedback med høj signalstyrke

Datadogs analyse viste, at Codex konsekvent markerede problemer, der ikke er åbenlyse ud fra den umiddelbare diff alene og ikke kan opfanges af deterministiske regler.

Ingeniører beskrev Codex-kommentarer som mere end “bot-støj”:

  • Codex påpegede interaktioner med moduler, der ikke blev berørt i diffen
  • Den identificerede manglende testdækning i områder med kobling på tværs af tjenester
  • Det fremhævede ændringer i API-kontrakten, der medførte risici for downstream
"For mig føles en Codex-kommentar som den smarteste ingeniør, jeg har arbejdet med, og som har uendelig tid til at finde fejl. Den ser sammenhænge, som min hjerne ikke kan rumme på én gang.
- Brad Carter, Engineering Manager hos Datadog

Det var netop denne evne til at koble feedback fra anmeldelser til reelle pålidelighedsresultater, der fik Codex til at skille sig ud i Datadogs evaluering. I modsætning til statiske analyseværktøjer sammenligner Codex hensigten med pull-anmodningen med de indsendte kodeændringer, vurderer hele kodebasen og afhængighederne for at udføre kode og tests for at validere adfærd.

“Det var den første, der faktisk så ud til at tage højde for forskellen i programmets større kontekst,” siger Carter “Det var nytænkende og tankevækkende.”

For mange ingeniører ændrede det skift fuldstændigt, hvordan de engagerede sig i AI-gennemgang. “Jeg begyndte at behandle Codex-kommentarer som ægte feedback fra en kodegennemgang,” siger Ted Wexler, senior softwareingeniør hos Datadog. “Ikke noget, jeg ville skimme eller ignorere, men noget, der er værd at lægge mærke til.”

Fokus på design frem for detektion for ingeniører

Efter evalueringen implementerede Datadog Codex mere bredt på tværs af sin ingeniørstab. I dag bruger mere end 1.000 ingeniører det regelmæssigt. 

Feedback kommer i høj grad organisk frem snarere end gennem formelle målinger i værktøjet. Ingeniører poster på Slack om nyttige indsigter, konstruktive kommentarer og øjeblikke, hvor Codex hjalp dem med at tænke anderledes om et problem.

Selvom tidsbesparelserne er betydelige, pegede teams konsekvent på et mere meningsfuldt skift i, hvordan arbejdet blev udført. 

“Codex ændrede min opfattelse af, hvad en kodegennemgang bør være. Det handler ikke om at efterligne vores bedste menneskelige anmeldere. Det handler om at finde kritiske fejl og grænsetilfælde, som mennesker har svært ved at se, når de gennemgår ændringer isoleret.
- Brad Carter, Engineering Manager hos Datadog

Omdefinering af kodegennemgang omkring risiko, ikke hastighed

Den bredere indvirkning for Datadog var en ændring i, hvordan kodegennemgang i sig selv defineres. I stedet for at betragte gennemgang som et kontrolpunkt til at fange fejl eller optimere cyklustiden, ser teamet nu Codex som et centralt pålidelighedssystem, der fungerer som en partner:

  • Risiko, der går ud over, hvad individuelle personer, der gennemgår materialet, kan håndtere i sammenhængen
  • Fremhævelse af interaktioner på tværs af moduler og tjenester
  • Øget tillid til forsendelse i stor skala
  • At give mennesker mulighed for at fokusere på arkitektur og design

Denne ændring er i tråd med Datadogs leders prioritering af tekniske opgaver, hvor pålidelighed og tillid er lige så vigtige som, hvis ikke vigtigere end, hastighed.

“Vi er den platform, som virksomheder stoler på, når alt andet bryder sammen,” siger Carter “Forebyggelse af hændelser styrker den tillid, vores kunder har til os.”