Lumaktaw sa pangunahing content
OpenAI

Enero 9, 2026

Gumagamit ang Datadog ng Codex sa pagsusuri ng system-level code

Gamit ang Codex, isinasama ng Datadog ang konteksto sa buong sistema sa bawat pagsusuri ng code para maiwasan ang mga insidente at maprotektahan ang tiwala ng customer.

Naglo-load…

Pinapatakbo ng Datadog(magbubukas sa bagong window) ang isa sa mga pinakaginagamit na plataporma ng pagmamasid, na tumutulong sa mga kumpanya na subaybayan, ayusin ang problema, at panatilihing ligtas ang mga kumplikadong distributed system. Kapag may nasira, umaasa ang mga customer sa Datadog para mabilis na maipakita ang mga isyu, na nangangahulugang dapat na nakapaloob ang pagiging maaasahan bago pa man makarating ang code sa produksyon.

Para sa mga engineering team ng Datadog, mahalaga ang pagsusuri ng code at may mataas na panganib. Hindi lang ito tungkol sa pagtukoy ng mga mali, kundi sa pag-intindi kung paano naaapektuhan ng mga pagbabago ang magkakaugnay na mga system—ang bagay na kadalasang hindi sapat ang tradisyunal na static analysis at mga tool na batay sa mga panuntunan.

Para matugunan ang hamong ito, bumaling ang AI Development Experience (AI DevX) team ng Datadog sa Codex, ang coding agent mula sa OpenAI, na nagdadala ng system-level na pangangatwiran sa pagsusuri ng code at naglalantad ng mga panganib na hindi madaling makita ng mga tao sa malakihang saklaw.

“Totoo at mahalaga ang natitipid na oras,” sabi ni Brad Carter, na namumuno sa AI DevX team ng Datadog. “Pero sa laki ng aming operasyon, mas mahalaga ang pag-iwas sa mga insidente.”

Pagdadala ng system-level na konteksto sa pagsusuri ng code gamit ang Codex

Karaniwang nakasalalay ang epektibong code review sa Datadog sa mga senior engineer—sila ang nakauunawa sa codebase, sa pinagmulan nito, at sa mga tradeoff sa arkitektura para makita ang mga panganib sa system. 

Pero mahirap palawakin ang ganitong lalim ng konteksto, at hindi ito nasolusyunan ng mga unang AI code review tool; kadalasan ay parang mga advanced linter lang ang mga ito, na nakatuon sa mga panlabas na isyu at hindi napapansin ang mas malalaking detalye ng system. Kadalasang natutuklasan ng mga engineer ng Datadog na masyadong mababaw o masyadong maingay ang mga mungkahi, at binabalewala ang mga ito.

Nagsimulang subukan ng Datadog ang Codex, ang coding agent mula sa OpenAI, sa pamamagitan ng pagsasama nito sa mga live na workflow ng development. Sa isa sa pinakamalaki at pinakaginagamit na repository ng kumpanya, awtomatikong sinusuri ng Codex ang bawat pull request. Tinutugunan ng mga engineer ang mga komento mula sa Codex gamit ang thumbs up o thumbs down at nagbabahagi ng hindi pormal na feedback sa iba’t ibang team. Marami ang nagsabi na kapaki-pakinabang basahin ang feedback ng Codex, hindi gaya ng mga dating tool na puno ng ingay o mababaw na mungkahi.

Pagpapatunay ng pagsusuri ng AI laban sa mga totoong insidente

Para subukan kung kaya ng AI-assisted review na gawin ang higit pa sa pagtukoy ng isyu sa estilo, gumawa ng Datadog ng incident replay harness.

Sa halip na gumamit ng mga haka-hakang senaryo, bumalik ang team sa mga makasaysayang insidente. Binuo muli nila ang mga pull request na nakatulong sa pagkakaroon ng mga insidente, pinatakbo ang Codex sa bawat isa na parang bahagi ng orihinal na review, at tinanong ang mga engineer na may responsibilidad sa mga insidenteng iyon kung makakatulong ang feedback mula sa Codex.

Bunga nito: Natukoy ng Codex ang higit sa 10 kaso, o humigit-kumulang 22% ng mga insidente na sinuri ng Datadog, kung saan kinumpirma ng mga engineer na makatutulong ang feedback ng Codex—higit pa sa anumang ibang tool na sinuri.

Dahil nakapasa na ang mga pull request na ito sa pagsusuri ng code, ipinakita ng replay test na naipakita ng Codex ang mga panganib na hindi pa nakikita ng mga tagasuri noong panahong iyon, na umaakma sa paghatol ng tao sa halip na palitan ito.

Paghahatid ng pare-pareho at mataas na kalidad na feedback

Ipinakita ng analysis ng Datadog na regular na tinutukoy ng Codex ang mga isyung hindi halata sa agarang diff at hindi mahuhuli ng mga tuntuning deterministiko.

Inilarawan ng mga engineer ang mga komento ng Codex bilang higit pa sa “ingay ng bot”:

  • Ipinakita ng Codex ang mga interaksyon sa mga module na hindi kasama sa diff
  • Natukoy nito ang kakulangan sa test coverage sa mga bahagi ng cross-service coupling
  • Itinampok nito ang mga pagbabago sa kontrata ng API na may kaakibat na panganib sa downstream
“Para sa akin, ang komento ng Codex ay parang pinakamatatalinong engineer na nakatrabaho ko, na may walang hanggang oras para maghanap ng mga bug. "Nakakakita ito ng mga koneksyong hindi kayang sabay-sabay na hawakan ng aking utak.”
—Brad Carter, Engineering Manager sa Datadog

Ang kakayahang iugnay ang review feedback sa tunay na resulta ng reliability ang dahilan kung bakit namumukod-tangi ang Codex sa pagsusuri ng Datadog. Hindi katulad ng mga static analysis tool, tinitingnan ng Codex ang layunin ng pull request at ang mga pagbabago sa code, pinag-aaralan ang buong codebase at mga dependency, at nagpapatakbo ng code at mga test para tiyakin ang tamang paggawi.

“Ito ang kauna-unahang tool na parang talaga namang tinitingnan ang diff sa kabuuang konteksto ng programa,” ayon kay Carter. “Bagong karanasan ito at nakapagbukas ng isipan.”

Para sa maraming engineer, nagbago nang husto ang paraan ng kanilang pakikitungo sa AI review. “Sinimulan kong ituring ang mga komento ng Codex na parang totoong feedback sa code review,” sabi ni Ted Wexler, Senior Software Engineer sa Datadog. “Hindi ko ito basta-basta binabasa o ini-ignore; bagay ito na dapat pagtuunan ng pansin.”

Pagtutuon ng mga engineer sa disenyo kaysa sa pagtukoy ng problema

Pagkatapos ng pagsusuri, mas malawak na ipinatupad ng Datadog ang Codex sa buong workforce ng mga engineer nito. Ngayon mahigit sa 1,000 na mga engineer ang regular na gumagamit nito. 

Karaniwan, lumalabas ang feedback nang organiko kaysa sa paggamit ng mga pormal na in-tool metric. Nagpo-post ang mga engineer sa Slack tungkol sa kapaki-pakinabang na insight, konstruktibong komento, at mga pagkakataon kung saan tinulungan sila ng Codex na mag-isip ng iba tungkol sa isang problema.

Bagaman malaki ang natitipid na oras, palagiang binanggit ng mga team ang mas makabuluhang pagbabago sa paraan ng paggawa ng trabaho. 

“Binago ng Codex ang pananaw ko sa kung paano dapat gawin ang code review. Hindi ito tungkol sa paggaya sa aming pinakamahusay na mga tagasuri ng tao. "Tungkol ito sa pagtuklas ng mga kritikal na depekto at mga edge case na mahirap makita ng mga tao kapag sinusuri ang mga pagbabago nang hiwa-hiwalay.”
—Brad Carter, Engineering Manager sa Datadog

Muling binibigyang-kahulugan ang pagsusuri ng code na nakatuon sa panganib, hindi sa bilis

Ang mas malawak na epekto para sa Datadog ay ang pagbabago sa kung paano binibigyang kahulugan ang mismong pagsusuri ng code. Sa halip na ituring ang pagsusuri bilang checkpoint para sa makuha ang mga error o pagpapabilis ng cycle time, nakikita na ngayon ng team ang Codex bilang ang pangunahing reliability system na kumikilos bilang katuwang:

  • Pagpapakita ng panganib na hindi kayang sabay-sabay tingnan ng reviewer
  • Pagha-highlight ng mga cross-module at cross-service na interaksyon
  • Pagpapataas ng kumpiyansa sa pagpapadala sa malawakang saklaw
  • Pinapahintulutan ang mga tagasuri na tao na magtuon sa arkitektura at disenyo

Tumutugma ang pagbabagong ito sa paraan ng pag-frame ng mga lider ng Datadog sa mga priyoridad sa engineering, kung saan mahalaga ang pagiging reliable at tiwala, kasabay o higit pa sa bilis.

“Kami ang platform na ginagamit ng mga kumpanya kapag bumabagsak ang iba pang system,” ayon kay Carter. “Kami ang platform na pinagkakatiwalaan ng mga kumpanya kapag nagkakaproblema ang lahat ng iba pa,” sabi ni Carter.”