Datadog använder Codex för kodgranskning på systemnivå
Med Codex tillhandahåller Datadog systemomfattande sammanhang för varje kodgranskning för att förebygga incidenter och skydda kundernas förtroende.
Datadog(öppnas i ett nytt fönster) driver en av världens mest använda observabilitetsplattformar, som hjälper företag att övervaka, felsöka och säkra komplexa, distribuerade system. När något går sönder litar kunderna på att Datadog snabbt upptäcker problemen, vilket innebär att tillförlitligheten måste byggas in långt innan koden når produktionsstadiet.
För Datadogs teknikteam är kodgranskning ett avgörande moment. Det handlar inte bara om att upptäcka fel, utan också om att förstå hur förändringar sprider sig genom sammankopplade system – ett område där traditionell statisk analys och regelbaserade verktyg ofta inte räcker till.
För att hantera den här utmaningen vände sig Datadogs AI Development Experience (AI DevX)-team till Codex, kodagenten från OpenAI, som tillför resonemang på systemnivå till kodgranskning och upptäcker risker som är svåra för människor att se i stor skala.
”Tidsbesparingen är verklig och betydande”, säger Brad Carter, som leder Datadogs AI DevX-team. ”Men att förebygga incidenter är mycket viktigare i vår skala.”
Effektiv kodgranskning hos Datadog har traditionellt sett varit starkt beroende av seniora utvecklare – de som förstår kodbasen, historiken och arkitektoniska avvägningar tillräckligt väl för att upptäcka systemrisker.
Men den här typen av djupgående sammanhang är svåra att skala upp, och de tidiga verktygen för AI-kodgranskning löste inte detta problem. Många fungerade som avancerade linters, som flaggade ytliga problem samtidigt som de missade bredare systemnyanser. Datadogs utvecklare tyckte ofta att förslagen var för ytliga eller för störande och ignorerade dem.
Datadog började testa Codex, kodagenten från OpenAI, genom att integrera den i aktiva utvecklingsarbetsflöden. I ett av företagets största och mest använda kodförråd granskades varje pull-begäran automatiskt av Codex. Ingenjörerna svarade positivt eller negativt på kommentarer från Codex och delade informell feedback mellan teamen. Många noterade att feedbacken från Codex var värd att läsa, till skillnad från tidigare verktyg som gav störande eller ytliga förslag.
För att testa om AI-assisterad granskning kunde göra mer än bara påpeka stilistiska problem utvecklade Datadog ett system för att reproducera incidenter.
Istället för att använda hypotetiska scenarier gick teamet tillbaka till historiska händelser. De rekonstruerade pull-begäranden som hade bidragit till incidenterna kördes av Codex mot var och en av dem som om de var en del av den ursprungliga granskningen, och sedan frågades de utvecklare som var ansvariga för dessa incidenter om feedback från Codex skulle ha gjort någon skillnad.
Resultatet: Codex hittade mer än 10 fall, eller cirka 22 % av de incidenter som Datadog undersökte, där utvecklarna bekräftade att den feedback som Codex gav skulle ha gjort skillnad – mer än något annat verktyg som utvärderades.
Eftersom dessa pull-begäranden redan hade godkänts i kodgranskningen visade repristestet att Codex upptäckte risker som granskarna inte hade sett vid den tidpunkten, vilket kompletterade den mänskliga bedömningen snarare än ersatte den.
Datadogs analys visade att Codex konsekvent flaggade problem som inte är uppenbara utifrån den omedelbara skillnaden och som inte kan fångas upp av deterministiska regler.
Utvecklarna beskrev Codex-kommentarerna som mer än bara ”botbrus”:
- Codex påpekade interaktioner med moduler som inte påverkades av ändringen.
- Den identifierade bristen på testtäckning i områden med kopplingar mellan tjänster
- Det lyfte fram ändringar i API-kontrakt som medförde nedströmsrisk
”För mig känns en Codex-kommentar som den smartaste utvecklaren jag någonsin har arbetat med, som har oändligt med tid att hitta fel. Den ser flera samband som jag inte kan klarar av att tänka på samtidigt.”
Det var just denna förmåga att koppla feedback från recensioner till faktiska tillförlitlighetsresultat som gjorde att Codex stack ut i Datadogs utvärdering. Till skillnad från statiska analysverktyg jämför Codex avsikten bakom pull-begäranden med de inlämnade kodändringarna, resonerar över hela kodbasen och beroenden för att köra kod och tester för att validera beteendet.
”Det var det första verktyget som verkligen verkade se skillnaden i ett större sammanhang inom programmet”, säger Carter. ”Det var innovativt och tankeväckande.”
För många ingenjörer förändrade denna omställning helt och hållet deras sätt att arbeta med AI-granskning. ”Jag började behandla Codex-kommentarer som äkta feedback från en kodgranskning”, säger Ted Wexler, Senior Software Engineer hos Datadog ”Inte något jag skulle skumma igenom eller strunta i, utan något som är värt att uppmärksamma.”
Efter utvärderingen implementerade Datadog Codex i större utsträckning bland sina utvecklare. Idag använder fler än 1 000 utvecklare verktyget regelbundet.
Feedback kommer till stor del organiskt snarare än genom formella mätningar i verktyget. Ingenjörer skriver på Slack om användbara insikter, konstruktiva kommentarer och tillfällen då Codex hjälpt dem att se på ett problem på ett nytt sätt.
Även om tidsbesparingarna är betydande, pekade teamen konsekvent på en mer meningsfull förändring i hur arbetet utfördes.
”Codex fick mig att ändra min uppfattning om vad en kodgranskning bör vara. Det handlar inte om att efterlikna våra bästa mänskliga granskare. Det handlar om att hitta kritiska fel och gränsfall som människor ofta har svårt att upptäcka när de bedömer förändringar isolerat.”
Den bredare effekten för Datadog var en förändring i hur kodgranskning i sig definieras. I stället för att betrakta granskningen som en kontrollpunkt för att upptäcka fel eller optimera cykeltiden, ser teamet nu Codex som ett centralt tillförlitlighetssystem som fungerar som en partner:
- Identifierar risker som går utöver vad enskilda granskare kan hantera i sammanhanget
- Framhäver interaktioner mellan moduler och tjänster
- Ökar säkerheten och förutsägbarheten för stora leveranser
- Gör det möjligt för människor att fokusera på arkitektur och design
Denna förändring överensstämmer med hur Datadogs ledning definierar prioriteringar inom teknik, där tillförlitlighet och förtroende är lika viktigt som, om inte viktigare än, hastighet.
”Vi är den plattform som företag litar på när allt annat misslyckas”, säger Carter. ”Att förebygga incidenter stärker våra kunders förtroende för oss.”


