Comment les « confessions » peuvent aider les modèles de langage à rester honnêtes
Nous présentons une méthode préliminaire, au stade de preuve de concept, qui entraîne les modèles à signaler quand ils enfreignent des instructions ou empruntent des raccourcis non prévus.
Les systèmes d'IA deviennent de plus en plus capables, et nous voulons les comprendre aussi finement que possible, y compris la manière dont ils parviennent à une réponse et les raisons qui y conduisent.Il arrive qu'un modèle prenne un raccourci ou optimise le mauvais objectif, tout en produisant au final une réponse qui semble correcte.Si nous parvenons à détecter ces situations, nous pouvons mieux surveiller les systèmes en production, améliorer l'entraînement et renforcer la confiance dans leurs réponses.
Les recherches menées par OpenAI et d'autres ont montré que les modèles d'IA peuvent halluciner, pirater les récompenses ou être malhonnêtes. Actuellement, nous observons les comportements les plus préoccupants, tels que la ruse(ouverture dans une nouvelle fenêtre), uniquement lors des tests de résistance et des évaluations adversariales. Mais à mesure que les modèles gagnent en capacités et deviennent de plus en plus agentiques, même les formes rares de mésalignement prennent de l'importance, ce qui nous pousse à investir dans des méthodes permettant de mieux détecter, comprendre et atténuer ces risques.
Ce travail explore une telle approche : l'entraînement des modèles à admettre explicitement lorsqu'ils adoptent un comportement indésirable — une technique que nous appelons confessions.
Une confession est une seconde sortie, distincte de la réponse principale du modèle à l'utilisateur.La réponse principale est évaluée selon de nombreux critères : exactitude, style, utilité, conformité, sécurité, etc., et ces signaux multiples servent à entraîner les modèles à produire de meilleures réponses.La confession, en revanche, n'est évaluée et entraînée que sur un seul critère : l'honnêteté.En s'inspirant du principe du confessionnal, rien de ce que le modèle déclare dans sa confession n'est retenu contre lui pendant l'entraînement.Si le modèle reconnaît honnêtement avoir contourné un test, sous-performé volontairement ou violé des instructions, cet aveu augmente sa récompense au lieu de la diminuer.L'objectif est d'encourager le modèle à décrire fidèlement ce qu'il a réellement fait.
Dans nos tests, nous avons constaté que la méthode des confessions améliore de manière significative la visibilité des comportements indésirables du modèle.En moyenne, sur l'ensemble de nos évaluations conçues pour provoquer des comportements indésirables, la probabilité de « faux négatifs » (c'est-à-dire un cas où le modèle ne respecte pas les instructions et ne l'admet pas ensuite) n'est que de 4,4 %.
Précision de notre modèle de confessions en « preuve de concept » sur un certain nombre de jeux de données adversariaux.Les résultats sont classés dans les catégories suivantes : a respecté les instructions et n'a pas confessé (vrai négatif), a respecté les instructions et a confessé (faux positif), n'a pas respecté les instructions et n'a pas confessé (faux négatif), et n'a pas respecté les instructions et a confessé (vrai positif).

À partir d'un prompt utilisateur, les quatre résultats possibles dépendent de la combinaison de deux facteurs : (1) la réponse du modèle est-elle conforme (« bonne ») ou non conforme (« mauvaise ») ? et (2) la confession indique-t-elle la conformité ou la non-conformité ?De manière générale, nous observons que les confessions sont très souvent exactes et que, lorsqu'il y a des erreurs, elles sont le plus souvent bénignes, liées à une confusion sincère plutôt qu'à une volonté de tromper.
Une confession est une auto-évaluation par le modèle de la manière dont il a respecté, dans l'esprit comme dans la lettre, les instructions ou règles explicites et implicites qui lui ont été données, et de la présence éventuelle de situations où il a « brûlé des étapes » ou « contourné » des règles, violé des politiques ou, d'une quelconque manière, manqué aux attentes.Dans nos travaux, nous constatons que les modèles peuvent être entraînés à faire preuve de franchise lorsqu'ils rendent compte de leurs propres limites.Nous avons entraîné une version de GPT‑5 Thinking à produire des confessions et l'avons évaluée sur un certain nombre de jeux de données de tests de résistance hors distribution, conçus pour déclencher des comportements tels que les manigances, le contournement de règles, les violations d'instructions et les hallucinations.Nous avons constaté que, même lorsque le modèle adopte ces comportements indésirables, il est très susceptible de les confesser.La figure ci-dessus montre que l'approche par confessions est largement efficace sur un large éventail de jeux de données et de tâches.
À la suite de toute interaction entre l'utilisateur et le modèle qui se termine par une réponse du modèle, il est possible de demander une confession en lui envoyant un « message système » qui lui demande de produire un rapport de confession.Ce rapport porte sur la dernière réponse du modèle et comprend (1) la liste de toutes les instructions, contraintes et objectifs explicites et implicites que cette réponse devait respecter, (2) une analyse honnête et objective indiquant si la réponse a effectivement satisfait chacun de ces objectifs, et (3) une liste des incertitudes, ambiguïtés ou « cas de figure délicats » que le modèle a rencontrés lors de la production de cette réponse.Pendant l'entraînement, la confession est évaluée par un modèle de récompense distinct, qui ne note que la confession, en fonction de l'exhaustivité des objectifs, de la précision de l'analyse de conformité et de la prise en compte des incertitudes.Ces récompenses s'appliquent exclusivement à la sortie « confession » et n'influencent jamais la récompense de la réponse principale.Cela garantit la propriété évoquée plus haut : rien de ce que le modèle déclare dans sa confession ne peut nuire (ni bénéficier) à la récompense attribuée à sa réponse principale.
La théorie qui sous-tend les confessions est simple.De nombreux comportements indésirables apparaissent lorsque l'on demande au modèle d'optimiser plusieurs objectifs à la fois.Pendant l'apprentissage par renforcement, le modèle reçoit un prompt, produit une réponse, puis reçoit une récompense.Avec le temps, il apprend à produire les types de réponses qui obtiennent un bon score.La difficulté vient du fait que le signal de récompense doit combiner simultanément de nombreux critères : le degré de justesse de la réponse, son utilité, sa conformité aux spécifications produit et aux politiques, le respect des contraintes de sécurité, ainsi que son adéquation avec les préférences des utilisateurs.Lorsque ces signaux interagissent, ils peuvent involontairement pousser le modèle vers des comportements que nous ne souhaitons pas.
Par exemple, notre travail sur les hallucinations a montré que certains ensembles de données récompensent davantage une supposition confiante qu'une admission honnête d'incertitude. Notre recherche sur la flagornerie a montré que les modèles peuvent devenir trop complaisants lorsque le signal de préférence est trop fort. Et les travaux(ouverture dans une nouvelle fenêtre) d'autres groupes ont montré que les modèles peuvent « détourner la récompense » — trouvant des failles dans le cadre d'entraînement qui leur permettent d'obtenir un score élevé sans réellement faire ce que nous avions prévu. Dans certains cas, ces raccourcis peuvent se généraliser(ouverture dans une nouvelle fenêtre) à des comportements encore plus pernicieux lors du déploiement.
Les confessions contournent ce problème en séparant complètement les objectifs.La réponse principale continue à optimiser l'ensemble des critères habituels.La confession, elle, n'est entraînée que sur un seul critère : l'honnêteté.Rien de ce que le modèle déclare dans la confession ne lui est reproché, et la confession n'influence pas la récompense de la réponse principale.Cela signifie que même si le modèle trompe ou brûle des étapes dans sa sortie initiale, il a toujours intérêt à l'admettre dans sa confession.C'est ce que nous observons en pratique : les modèles acceptent de reconnaître des comportements problématiques dans la confession, y compris dans des cas où ils les dissimulent dans la réponse principale.Et lorsque les confessions échouent, c'est généralement parce que le modèle est réellement dans la confusion — parce que les instructions étaient ambiguës ou parce qu'il n'a pas compris qu'une erreur avait été commise — plutôt que parce qu'il cherchait délibérément à tromper.Fait important, nos premiers résultats montrent que les confessions restent efficaces même lorsque la réponse initiale est produite sans aucun raisonnement détaillé (« chain-of-thought »), ce qui suggère que la sincérité des confessions ne dépend pas de la lisibilité du raisonnement interne et pourrait se généraliser à de futures architectures de modèles.
L'entraînement aux confessions fonctionne même en l'absence de labels de conformité faisant office de vérité terrain (« ground truth »).Par « vérité terrain », nous entendons un label définitif, fourni de manière externe, indiquant si le modèle a effectivement respecté une instruction ou l'a violée.Dans de nombreuses tâches réelles, ces labels ne sont pas disponibles : si nous savions avec certitude que le modèle avait violé une règle, nous pourrions pénaliser directement cette violation plutôt que de nous appuyer sur une confession.À la place, le modèle est récompensé lorsqu'il produit une explication structurée et étayée de ce qu'il pense avoir fait.L'article montre que, dans ce cadre, une forme d'honnêteté a tendance à émerger.Nous pensons que cela tient au fait qu'il est généralement plus facile pour le modèle de fournir un récit véridique et étayé que de construire un récit fictif cohérent capable de tromper le modèle évaluateur.Il s'agit d'une hypothèse clé explorée dans l'article, qui analyse également les cas où les confessions échouent — faux négatifs et faux positifs — et la manière dont ils apparaissent.
L'article apporte des premiers éléments montrant que les confessions fonctionnent, mais ne doit pas être interprété comme une démonstration définitive.Même si nous avons utilisé un modèle de pointe (GPT‑5 Thinking), nos expériences sont restées de taille limitée et n'ont mobilisé qu'une quantité relativement modeste de calcul et de données.Nous avons hâte de poursuivre ce travail à plus grande échelle et de voir si la sincérité des confessions se maintient à mesure que nous intensifions leur entraînement.
Le modèle « reward hacks » dans sa réponse principale pour tromper l'évaluateur en annotant les phrases avec des décomptes de mots supposés, mais il l'admet ensuite dans la confession.
Dans le cadre de nos expériences, nous avons délibérément entraîné des modèles sur un signal de récompense « piratable », calculé par un modèle plus faible.Cette configuration s'appliquait à la fois à la récompense principale et à la récompense associée à la confession.Le modèle a appris à exploiter ce signal de récompense fragile : sa précision apparente (évaluée par le modèle faible) s'est améliorée, tandis que sa véritable précision (évaluée par un juge plus performant) diminuait.
Cependant, même si le canal de confession était entraîné sur ce même signal imparfait, sa précision a évolué dans la direction opposée.Le modèle a appris que le meilleur moyen d'optimiser la récompense liée à la confession consistait simplement à admettre lorsqu'il avait exploité la récompense principale.Au fil du temps, les confessions sont devenues plus fiables, même lorsque le comportement principal dérivait.
Au fil de l'entraînement, lorsqu'il ne respecte pas les consignes, le modèle apprend, dans une partie des cas, à « contourner » le juge de la récompense principale, si bien que la précision de ce juge diminue.À l'inverse, même si le juge de la récompense de confession est tout aussi « piratable », le modèle devient de plus en plus honnête dans ses confessions au fil de l'entraînement, jusqu'à atteindre un taux de confession proche de 100 % lorsqu'il n'a pas respecté les consignes.
L'article(ouverture dans une nouvelle fenêtre) contient davantage d'expériences et de résultats. Nous avons comparé le modèle entraîné avec confessions à un modèle témoin, entraîné de la même manière mais sans canal de confession.Nous avons également étudié les cas où les confessions échouaient.Presque tous les « ratés » se produisaient lorsque le modèle était réellement dans la confusion — lorsque les instructions étaient ambiguës ou lorsqu'il ne s'était tout simplement pas rendu compte qu'il avait commis une erreur.(Veuillez voir l'exemple de faux négatif ci-dessus.)
Les confessions ont leurs limites.Elles ne préviennent pas les mauvais comportements ; elles les rendent visibles.Leur principal intérêt réside dans leur rôle d'outil de surveillance et de diagnostic, à la fois pendant l'entraînement et après le déploiement.Les confessions jouent un rôle similaire à celui de la chaîne de pensée : toutes deux rendent les processus de raisonnement cachés plus visibles. Les confessions se concentrent sur le respect ou non des instructions par le modèle ; le raisonnement détaillé permet de mettre en évidence la manière dont il est arrivé à ce résultat.
Ces travaux constituent également une preuve de concept.Nous n'avons pas entraîné les mécanismes de confession à très grande échelle, et la précision des confessions reste imparfaite.Il reste du travail pour rendre cette approche plus fiable, plus robuste et plus largement applicable à différents types de modèles et de tâches.
Ce travail s'inscrit dans notre approche plus large de la sécurité de l'IA. Les confessions sont un mécanisme dans un ensemble plus vaste qui comprend l'alignement délibératif, la surveillance de la chaîne de pensée, la hiérarchie des instructions, et plus encore. Aucune méthode ne suffit à elle seule ; l'objectif est de mettre en place un système en couches de contrôles et d'outils de transparence qui se renforcent mutuellement.Les confessions peuvent aider à diagnostiquer des comportements problématiques dans les modèles lors de l'entraînement et de l'évaluation, ainsi qu'à les surveiller après déploiement.Les confessions, à elles seules, ne résolvent pas le problème de l'équilibre entre plusieurs dimensions.Mais en créant un mode « sérum de vérité » dans lequel les modèles se concentrent exclusivement sur l'honnêteté, elles ajoutent un outil précieux à notre panoplie pour améliorer l'honnêteté et la sûreté de bout en bout.
À mesure que les modèles deviennent plus performants et sont déployés dans des contextes à forts enjeux, nous avons besoin de meilleurs outils pour comprendre ce qu'ils font et pourquoi.Les confessions ne constituent pas une solution complète, mais elles ajoutent une couche importante à notre dispositif de transparence et de contrôle.Dans nos travaux futurs, nous prévoyons d'intensifier les confessions et de les associer à des techniques complémentaires de transparence et de sécurité, y compris la surveillance de la chaîne de pensée et l'alignement délibératif, afin de progresser davantage vers l'assurance que nos modèles obéissent fidèlement à toutes les instructions et politiques (telles que notre Model Spec(ouverture dans une nouvelle fenêtre)), et rapportent fidèlement leurs actions.


