Datadog utilise Codex pour la revue de code au niveau du système.
Grâce à Codex, Datadog intègre un contexte à l’échelle du système dans chaque revue de code pour prévenir les incidents et préserver la confiance de sa clientèle.
Datadog(s'ouvre dans une nouvelle fenêtre) exploite l’une des plateformes d’observabilité les plus utilisées au monde, aidant les entreprises à surveiller, dépanner et sécuriser des systèmes distribués complexes. Quand un incident survient, les clients et clientes dépendent de Datadog pour identifier rapidement les problèmes, ce qui signifie que la fiabilité doit être intégrée bien avant que le code n’atteigne la production.
Pour les équipes d’ingénierie de Datadog, cela fait de la revue du code un moment crucial. Il ne s’agit pas seulement de repérer des erreurs, mais de comprendre comment les changements se répercutent dans des systèmes interconnectés, un domaine où l’analyse statique traditionnelle et les outils fondés sur des règles échouent souvent.
Pour relever ce défi, l’équipe de développement de l'expérience IA (AI DevX) de Datadog s’est tournée vers Codex, l’agent de codage d’OpenAI, qui intègre un raisonnement au niveau du système dans la revue de code et met en lumière des risques que les humains ne peuvent pas facilement détecter à grande échelle.
« Les gains de temps sont réels et importants », note Brad Carter, qui dirige l’équipe AI DevX de Datadog « Mais l'aspect prévention des incidents est bien plus intéressant à notre échelle. »
La revue de code efficace chez Datadog reposait traditionnellement en grande partie sur les ingénieurs seniors, qui comprennent assez bien la base de code, son historique et les compromis architecturaux pour repérer les risques systémiques.
Cependant, ce type de contexte approfondi est difficile à mettre à l'échelle, et les premiers outils de revue de code par IA n'ont pas résolu ce problème. En effet, beaucoup se comportaient comme des analyseurs avancés, signalant des problèmes superficiels tout en ignorant les nuances plus larges du système. Les ingénieurs de Datadog trouvaient souvent que les suggestions manquaient de profondeur ou généraient trop de bruit, ce qui les amenait à les ignorer.
Datadog a mis à l'essai Codex, l'agent de codage d'OpenAI, en l'intégrant aux flux de travail de développement en direct. Dans l’un des plus grands et des plus utilisés dépôts de l’entreprise, chaque demande de fusion était automatiquement examinée par Codex. Les ingénieurs ont réagi aux commentaires de l'agent avec un pouce levé ou baissé et ont partagé des rétroactions informelles entre les équipes. Beaucoup ont noté que les commentaires de Codex valaient la peine d’être lus, contrairement aux outils précédents qui produisaient des suggestions bruyantes ou superficielles.
Pour tester si la revue assistée par l’IA pouvait faire plus que signaler des problèmes de style, Datadog a construit un dispositif de revisite d'incidents.
Plutôt que d’utiliser des scénarios hypothétiques, l’équipe s'est repenchée sur des incidents historiques. Elle a reconstitué des demandes de fusion qui avaient contribué à des incidents, ont exécuté Codex sur chacune comme si elle faisait partie de la revue originale, puis ont demandé aux ingénieurs responsables de ces incidents si les commentaires de Codex auraient pu changer la donne.
Le résultat : des ingénieurs ont confirmé que les commentaires fournis par Codex auraient changé la donne dans plus de 10 cas, soit environ 22 % des incidents examinés par Datadog, une performance supérieure à celle de tout autre outil évalué.
Comme ces demandes de fusion avaient déjà passé la revue de code, le test de revisite a montré que Codex avait mis en évidence des risques que les réviseurs n’avaient pas vus à l’époque. Il ne remplaçait pas le jugement humain : il le complétait.
L’analyse de Datadog a montré que Codex signalait systématiquement des problèmes qui ne sont pas évidents à partir du seul diff immédiat et qui ne peuvent pas être détectés par des règles déterministes.
Les ingénieurs ont décrit les commentaires de Codex comme étant plus que du « bruit de bot » :
- Codex a signalé des interactions avec des modules qui n'étaient pas modifiés dans le diff;
- Il a découvert une couverture de test manquante dans des zones de couplage entre services;
- Il a mis en évidence des modifications du contrat d'API qui comportaient un risque en aval.
« Pour moi, un commentaire Codex ressemble à ceux de l'ingénieur le plus brillant avec qui j'ai travaillé, mais qui disposerait d'un temps infini pour déceler des bogues. » « Il voit des connexions que mon cerveau ne peut pas saisir toutes à la fois. »
Cette capacité à relier les rétroactions des revues à des résultats concrets en matière de fiabilité est ce qui a permis à Codex de se démarquer dans l'évaluation de Datadog. Contrairement aux outils d'analyse statique, Codex compare l'intention de la demande de fusion aux modifications de code soumises, en faisant un raisonnement sur l'ensemble de la base de code et des dépendances pour exécuter le code et les tests afin de valider le comportement.
« C’était le premier outil qui semblait vraiment tenir compte de la différence dans le contexte plus large du programme », souligne M. Carter. « C’était nouveau et révélateur. »
Pour de nombreux ingénieurs, ce changement a modifié la façon dont ils interagissaient avec l'IA lors des revues. « J’ai commencé à traiter les commentaires de Codex comme de véritables rétroactions de revue de code », déclare Ted Wexler, ingénieur logiciel senior chez Datadog « Pas de remarques que vous survoleriez ou ignoreriez, mais des commentaires qui méritent votre attention. »
À la suite de l’évaluation, Datadog a déployé Codex plus largement au sein de son personnel d’ingénierie. Aujourd’hui, plus de 1 000 ingénieurs l’utilisent régulièrement.
Les rétroactions sont principalement mises en lumière de manière organique plutôt que par des métriques formelles intégrées à l'outil. Les ingénieurs publient sur Slack des informations utiles, des commentaires constructifs et des moments où Codex les a aidés à réfléchir différemment à un problème.
Bien que les économies de temps soient importantes, les équipes ont systématiquement souligné un changement plus significatif dans la manière dont le travail était effectué.
« Codex a changé ma perception de ce que devrait être une revue de code. Il ne s’agit pas de reproduire nos meilleurs réviseurs humains. Il s'agit de détecter des défauts critiques et des cas limites que les humains ont du mal à voir lorsqu'ils examinent des changements de façon isolée. »
L’effet plus large pour Datadog a été un changement dans la façon dont la revue du code elle-même est définie. Plutôt que de le considérer comme un point de contrôle pour détecter des erreurs ou optimiser le temps de cycle, Codex est désormais perçu par l'équipe comme un système central de fiabilité qui agit comme un partenaire aux chapitres suivants :
- Mettre en évidence les risques au-delà de ce que les réviseurs individuels peuvent contextualiser;
- Mettre en lumière des interactions entre modules et entre services;
- Augmenter la confiance dans l'expédition à grande échelle;
- Permettre aux réviseurs humains de se concentrer sur l’architecture et le design.
Ce changement s’aligne sur la manière dont les dirigeants de Datadog définissent les priorités en ingénierie, où la fiabilité et la confiance importent autant, sinon plus, que la rapidité.
« Nous sommes la plateforme sur laquelle les entreprises comptent lorsque tout le reste s’effondre », explique M. Carter « La prévention des incidents renforce le lien de confiance entre notre clientèle et nous. »


