Datadog sử dụng Codex để xem xét mã cấp hệ thống
Với Codex, Datadog đưa bối cảnh toàn hệ thống vào mọi đánh giá mã để ngăn chặn sự cố và bảo vệ niềm tin của khách hàng.
Datadog(mở trong cửa sổ mới) chạy một trong những nền tảng quan sát được sử dụng rộng rãi nhất thế giới, giúp các công ty giám sát, khắc phục sự cố và bảo mật các hệ thống phân tán phức tạp. Khi một cái gì đó bị hỏng, khách hàng phụ thuộc vào Datadog để giải quyết vấn đề nhanh chóng, điều đó có nghĩa là độ tin cậy phải được xây dựng từ lâu trước khi mã được đưa vào sản xuất.
Đối với các nhóm kỹ sư của Datadog, điều đó làm cho việc xem xét mã trở thành một khoảnh khắc quan trọng. Nó không chỉ là việc phát hiện sai lầm, mà còn về việc hiểu cách các thay đổi lan truyền thông qua các hệ thống kết nối với nhau — một lĩnh vực mà phân tích tĩnh truyền thống và các công cụ dựa trên quy tắc thường gặp khó khăn.
Để đáp ứng thách thức này, nhóm Trải nghiệm Phát triển AI (AI DevX) của Datadog đã chuyển sang Codex, tác nhân mã hóa từ OpenAI, đưa lý luận cấp hệ thống vào đánh giá mã và đưa ra những rủi ro mà con người không thể dễ dàng nhìn thấy trên quy mô lớn.
“Tiết kiệm thời gian là có thật và quan trọng”, Brad Carter, người lãnh đạo nhóm AI DevX của Datadog cho biết. “Nhưng việc ngăn chặn các sự cố còn hấp dẫn hơn nhiều ở quy mô của chúng tôi.”
Việc đánh giá mã hiệu quả tại Datadog theo truyền thống phụ thuộc rất nhiều vào các kỹ sư cao cấp—những người hiểu rõ cơ sở mã, lịch sử của nó và các đánh đổi về kiến trúc đủ để phát hiện rủi ro mang tính hệ thống.
Nhưng loại ngữ cảnh sâu như vậy rất khó để mở rộng quy mô và các công cụ đánh giá mã AI ban đầu đã không giải quyết được vấn đề này; nhiều người hành xử như các linters nâng cao, đánh dấu các vấn đề cấp bề mặt trong khi thiếu các sắc thái hệ thống rộng hơn. Các kỹ sư của Datadog thường thấy các đề xuất quá nông cạn hoặc quá ồn ào, và bỏ qua chúng.
Datadog bắt đầu thí điểm Codex, tác nhân mã hóa từ OpenAI, bằng cách tích hợp nó vào quy trình phát triển trực tiếp. Trong một trong những kho lưu trữ lớn nhất và được sử dụng nhiều nhất của công ty, mọi yêu cầu kéo đều được Codex tự động xem xét. Các kỹ sư đã phản hồi các bình luận từ Codex bằng cách chọn biểu tượng ngón tay cái lên hoặc xuống và chia sẻ phản hồi không chính thức giữa các nhóm. Nhiều người nhận xét rằng ý kiến phản hồi về Codex rất đáng đọc, không giống như các công cụ trước đây vốn tạo ra các gợi ý nhiễu hoặc hời hợt.
Để kiểm tra xem xét có hỗ trợ AI có thể làm được nhiều hơn là chỉ ra các vấn đề về kiểu dáng hay không, Datadog đã xây dựng một bộ điều khiển phát lại sự cố.
Thay vì sử dụng các kịch bản giả định, nhóm nghiên cứu quay trở lại các sự cố lịch sử. Họ tái tạo lại các yêu cầu kéo đã góp phần gây ra sự cố, chạy Codex chống lại từng yêu cầu như thể đó là một phần của đánh giá ban đầu, sau đó hỏi các kỹ sư sở hữu những sự cố đó liệu phản hồi từ Codex có tạo ra sự khác biệt hay không.
Kết quả: Codex tìm thấy hơn 10 trường hợp, tương đương khoảng 22% các sự cố mà Datadog đã kiểm tra, trong đó các kỹ sư xác nhận rằng phản hồi mà Codex cung cấp sẽ tạo ra sự khác biệt - nhiều hơn bất kỳ công cụ nào khác được đánh giá.
Bởi vì những yêu cầu kéo này đã vượt qua quá trình đánh giá mã, bài kiểm tra phát lại cho thấy Codex đã nổi lên những rủi ro mà những người đánh giá chưa thấy vào thời điểm đó, bổ sung cho phán đoán của con người hơn là thay thế nó.
Phân tích của Datadog cho thấy rằng Codex liên tục đánh dấu các vấn đề không rõ ràng chỉ từ sự khác biệt ngay lập tức và không thể bị bắt bởi các quy tắc xác định.
Các kỹ sư mô tả các bình luận của Codex là nhiều hơn cả “tiếng ồn của bot”:
- Codex chỉ ra các tương tác với các mô-đun không được chạm vào trong diff
- Nó xác định phạm vi kiểm tra còn thiếu trong các lĩnh vực ghép nối đa dịch vụ
- Nó nhấn mạnh những thay đổi hợp đồng API mang lại rủi ro hạ nguồn
“Đối với tôi, nhận xét của Codex giống như kỹ sư thông minh nhất mà tôi từng làm việc cùng và người có vô hạn thời gian để tìm lỗi. Nó nhìn thấy các kết nối mà bộ não của tôi không thể giữ tất cả cùng một lúc.”
Khả năng kết nối phản hồi đánh giá với kết quả độ tin cậy thực sự là điều khiến Codex nổi bật trong đánh giá của Datadog. Không giống như các công cụ phân tích tĩnh, Codex so sánh ý định của yêu cầu kéo với các thay đổi mã được gửi, lý luận trên toàn bộ cơ sở mã và các phụ thuộc để thực thi mã và các bài kiểm tra để xác thực hành vi.
Carter nói: “Đó là cái đầu tiên dường như thực sự xem xét sự khác biệt trong bối cảnh lớn hơn của chương trình. “Đó là điều mới lạ và mở mang tầm mắt.”
Đối với nhiều kỹ sư, sự thay đổi đó đã thay đổi hoàn toàn cách họ tham gia vào đánh giá AI. Ted Wexler, Kỹ sư phần mềm cấp cao tại Datadog cho biết: “Tôi bắt đầu coi các bình luận Codex như phản hồi đánh giá mã thực sự. “Không phải thứ tôi lướt qua hoặc bỏ qua, mà là một cái gì đó đáng để chú ý.”
Sau khi đánh giá, Datadog đã triển khai Codex rộng hơn cho lực lượng lao động kỹ thuật của mình. Hôm nay hơn 1.000 kỹ sư sử dụng nó thường xuyên.
Phản hồi phần lớn được hiển thị một cách tự nhiên hơn là thông qua các chỉ số chính thức trong công cụ. Các kỹ sư đăng lên Slack về những hiểu biết hữu ích, nhận xét mang tính xây dựng và những khoảnh khắc mà Codex giúp họ suy nghĩ khác về một vấn đề.
Mặc dù tiết kiệm thời gian là đáng kể, các nhóm liên tục chỉ ra một sự thay đổi có ý nghĩa hơn trong cách hoàn thành công việc.
“Codex đã thay đổi suy nghĩ của tôi về việc xem xét mã nên như thế nào. Đó không phải là về việc sao chép những người đánh giá con người giỏi nhất của chúng tôi. Đó là việc tìm ra những sai sót quan trọng và các trường hợp cạnh tranh mà con người phải vật lộn để nhìn thấy khi xem xét những thay đổi một cách riêng biệt.”
Tác động rộng hơn đối với Datadog là sự thay đổi trong cách xác định bản thân đánh giá mã. Thay vì coi việc xem xét như một điểm kiểm tra để phát hiện lỗi hoặc tối ưu hóa thời gian chu kỳ, nhóm nghiên cứu hiện coi Codex là một hệ thống độ tin cậy cốt lõi hoạt động như một đối tác:
- Phát hiện rủi ro vượt quá những gì người đánh giá cá nhân có thể nắm giữ trong bối cảnh
- Làm nổi bật các tương tác giữa các mô-đun và dịch vụ chênh lệch
- Tăng cường sự tự tin trong việc vận chuyển ở quy mô lớn.
- Cho phép các nhà đánh giá tập trung vào kiến trúc và thiết kế
Sự thay đổi này phù hợp với cách các nhà lãnh đạo của Datadog định khung các ưu tiên kỹ thuật, trong đó độ tin cậy và độ tin cậy quan trọng như, nếu không muốn nói là lớn hơn, vận tốc.
Carter nói: “Chúng tôi là nền tảng mà các công ty dựa vào khi mọi thứ khác bị phá vỡ. “Ngăn chặn sự cố sẽ củng cố niềm tin mà khách hàng đặt vào chúng tôi.”


