Datadog menggunakan Codex untuk ulasan kode tingkat sistem
Dengan Codex, Datadog menghadirkan konteks menyeluruh sistem ke dalam setiap tinjauan kode untuk mencegah insiden dan melindungi kepercayaan pelanggan.
Datadog(terbuka di jendela baru) mengoperasikan salah satu platform observabilitas yang paling banyak digunakan di dunia, membantu perusahaan memantau, memecahkan masalah, dan mengamankan sistem terdistribusi yang kompleks. Ketika terjadi gangguan, pelanggan mengandalkan Datadog untuk mendeteksi isu dengan cepat, sehingga keandalan harus dibangun sejak jauh sebelum kode masuk ke lingkungan produksi.
Bagi tim teknik Datadog, hal tersebut menjadikan tinjauan kode sebagai momen yang sangat penting. Ini bukan sekadar soal menemukan kesalahan, tetapi juga memahami bagaimana perubahan merambat melalui sistem yang saling terhubung—bidang yang sering kali tidak mampu ditangani dengan baik oleh analisis statis dan alat berbasis aturan tradisional.
Untuk menghadapi tantangan ini, tim AI Development Experience (AI DevX) Datadog beralih ke Codex, agen pemrograman dari OpenAI, yang membawa penalaran tingkat sistem ke dalam peninjauan kode dan menyoroti risiko yang tidak mudah dilihat manusia dalam skala besar.
“Penghematan waktu itu nyata dan penting,” kata Brad Carter, yang memimpin tim AI DevX di Datadog. “Namun, pencegahan insiden jauh lebih penting pada skala kami.”
Peninjauan kode yang efektif di Datadog secara tradisional sangat bergantung pada insinyur senior—para profesional yang memahami basis kode, sejarahnya, dan kompromi arsitektural dengan cukup baik untuk mengidentifikasi risiko sistemik.
Namun, konteks mendalam semacam itu sulit untuk diskalakan, dan alat peninjauan kode AI generasi awal tidak menyelesaikan masalah ini; banyak yang berperilaku seperti linter canggih, menandai masalah permukaan sambil mengabaikan nuansa sistem yang lebih luas. Para insinyur Datadog sering kali menemukan saran tersebut terlalu dangkal atau terlalu bising, dan mengabaikannya.
Datadog mulai menguji coba Codex, agen pemrograman dari OpenAI, dengan mengintegrasikannya ke dalam alur kerja pengembangan langsung. Di salah satu repositori terbesar dan paling sering digunakan milik perusahaan, setiap pull request ditinjau secara otomatis oleh Codex. Para insinyur menanggapi komentar dari Codex dengan jempol ke atas atau jempol ke bawah dan membagikan masukan informal di seluruh tim. Banyak yang mencatat bahwa masukan Codex layak dibaca, tidak seperti alat sebelumnya yang menghasilkan saran yang bising atau dangkal.
Untuk menguji apakah peninjauan berbantuan AI dapat melakukan lebih dari sekadar menunjukkan masalah gaya, Datadog membangun sebuah alat pemutaran ulang insiden.
Alih-alih menggunakan skenario hipotetis, tim kembali ke insiden bersejarah. Mereka merekonstruksi pull request yang telah berkontribusi pada insiden, menjalankan Codex terhadap masing-masing seolah-olah itu bagian dari peninjauan asli, lalu menanyakan kepada para insinyur yang memiliki insiden tersebut apakah masukan dari Codex akan membuat perbedaan.
Hasilnya: Codex menemukan lebih dari 10 kasus, atau sekitar 22% dari insiden yang diperiksa Datadog, di mana para insinyur mengonfirmasi bahwa masukan yang diberikan Codex akan membuat perbedaan—lebih banyak daripada alat lain mana pun yang dievaluasi.
Karena pull request ini sudah lolos peninjauan kode, tes pemutaran ulang menunjukkan bahwa Codex menampilkan risiko yang tidak dilihat oleh para peninjau pada saat itu, melengkapi penilaian manusia, bukan menggantikannya.
Analisis Datadog menunjukkan bahwa Codex secara konsisten menandai masalah yang tidak terlihat jelas hanya dari perbedaan langsung dan tidak dapat ditangkap oleh aturan deterministik.
Para insinyur menggambarkan komentar Codex sebagai lebih dari sekadar “kebisingan bot”:
- Codex menunjukkan interaksi dengan modul yang tidak tersentuh dalam perubahan
- Codex mengidentifikasi cakupan pengujian yang hilang di area penghubungan antar layanan
- Codex juga menyoroti perubahan kontrak API yang membawa risiko hilir
“Bagi saya, komentar Codex terasa seperti insinyur paling cerdas yang pernah saya ajak bekerja sama dan yang memiliki waktu tak terbatas untuk menemukan bug. Ia melihat koneksi yang tidak dapat ditangkap oleh otak saya sekaligus.”
Kemampuan untuk menghubungkan masukan peninjauan dengan hasil keandalan nyata itulah yang membuat Codex menonjol dalam evaluasi Datadog. Berbeda dengan alat analisis statis, Codex membandingkan maksud dari pull request dengan perubahan kode yang diajukan, melakukan penalaran di seluruh basis kode dan dependensi untuk menjalankan kode dan tes guna memvalidasi perilaku.
“Untuk pertama kalinya, kami melihat alat yang benar-benar menilai diff dengan melihat gambaran besar dari seluruh program,” kata Carter. “Hal ini adalah sesuatu yang baru dan membuka wawasan.”
Bagi banyak insinyur, pergeseran itu mengubah cara mereka berinteraksi dengan peninjauan AI secara keseluruhan. “Saya mulai mengangap komentar Codex seperti masukan peninjauan kode yang nyata,” kata Ted Wexler, Insinyur Perangkat Lunak Senior di Datadog. “Bukan sesuatu yang akan saya baca sekilas atau abaikan, tetapi sesuatu yang layak diperhatikan.”
Setelah evaluasi, Datadog menerapkan Codex secara lebih luas di seluruh tenaga kerja tekniknya. Kini lebih dari 1.000 insinyur menggunakannya secara rutin.
Masukan sebagian besar muncul secara organik daripada melalui metrik formal di‑dalam alat. Para insinyur memposting di Slack tentang insight yang berguna, komentar konstruktif, dan momen ketika Codex membantu mereka berpikir secara berbeda tentang suatu masalah.
Meskipun penghematan waktu cukup signifikan, tim secara konsisten menunjukkan adanya pergeseran yang lebih bermakna dalam cara pekerjaan dilakukan.
“Codex mengubah pandangan saya tentang bagaimana seharusnya tinjauan kode dilakukan. Ini bukan tentang meniru peninjau manusia terbaik kami. Ini tentang menemukan kelemahan kritis dan kasus tepi yang sulit dilihat oleh manusia saat meninjau perubahan secara terpisah.”
Dampak yang lebih luas bagi Datadog adalah perubahan dalam cara peninjauan kode itu sendiri didefinisikan. Alih-alih memperlakukan peninjauan sebagai pos pemeriksaan untuk menemukan kesalahan atau mengoptimalkan waktu siklus, tim kini melihat Codex sebagai sistem keandalan inti yang bertindak sebagai mitra andal:
- Mengungkapkan risiko yang melebihi kapasitas pemahaman peninjau individu dalam konteks
- Menyoroti interaksi lintas modul dan lintas layanan
- Meningkatkan kepercayaan dalam pengiriman skala besar
- Memungkinkan peninjau manusia untuk berfokus pada arsitektur dan desain
Perubahan ini sejalan dengan cara para pemimpin Datadog menetapkan prioritas teknik, di mana keandalan dan kepercayaan dianggap sama pentingnya, bahkan lebih penting daripada kecepatan pengembangan.
“Kami adalah platform yang diandalkan oleh perusahaan ketika segala sesuatu lainnya sedang bermasalah,” kata Carter. “Mencegah insiden memperkuat kepercayaan yang pelanggan kami berikan kepada kami.”


