Comment les confessions peuvent maintenir l'honnêteté des modèles de language
Nous partageons une méthode préliminaire, preuve de concept, qui forme les modèles à signaler lorsqu'ils enfreignent les instructions ou prennent des raccourcis involontaires.
Les systèmes d'IA deviennent de plus en plus performants, et nous voulons les comprendre aussi profondément que possible, y compris comment et pourquoi ils parviennent à une réponse. Parfois, un modèle prend un raccourci ou optimise pour le mauvais objectif, mais son résultat final semble toujours correct. Si nous pouvons identifier le moment où cela se produit, nous pourrons mieux surveiller les systèmes déployés, améliorer la formation et accroître la confiance dans les résultats.
Les recherches menées par OpenAI et d'autres ont montré que les modèles d'IA peuvent halluciner, manipuler les récompenses ou être malhonnêtes. À l'heure actuelle, nous constatons les comportements les plus préoccupants, tels que les manigances(s'ouvre dans une nouvelle fenêtre), uniquement lors des tests de résistance et des évaluations adversariales. Mais à mesure que les modèles deviennent plus performants et de plus en plus autonomes, même les formes rares de désalignement prennent plus d'importance, ce qui nous motive à investir dans des méthodes qui nous aident à mieux détecter, comprendre et atténuer ces risques.
Ce travail explore une telle approche : la formation de modèles à admettre explicitement lorsqu'ils adoptent un comportement indésirable, une technique que nous appelons confessions.
Une confession est une sortie secondaire, distincte de la réponse principale du modèle à l'utilisateur. La réponse principale est évaluée selon de nombreux critères : exactitude, style, utilité, conformité, sécurité, et plus encore. Ces signaux multifacettes sont utilisés pour former les modèles à produire de meilleures réponses. En revanche, la confession est évaluée et formée sur un seul critère : l'honnêteté. En s'inspirant de la structure d'un confessionnal, rien de ce que le modèle dit dans sa confession n'est utilisé contre lui pendant la formation. Si le modèle admet honnêtement avoir piraté un test, sabordé un test ou violé des instructions, cet aveu augmente sa récompense plutôt que de la diminuer. L'objectif est d'encourager le modèle à rapporter fidèlement ce qu'il a réellement fait.
Lors de nos tests, nous avons constaté que la méthode des confessions améliore significativement la visibilité des comportements indésirables du modèle. En faisant la moyenne de nos évaluations conçues pour induire des comportements indésirables, la probabilité de « faux négatifs » (c'est-à-dire que le modèle ne se conforme pas aux instructions et ne l'avoue pas ensuite) n'est que de 4,4 %.
Précision de notre modèle de « preuve de concept » sur un certain nombre d'ensembles de données adversaires. Les résultats sont classés comme suit : s'est conformé et n'a pas avoué (vrai négatif), s'est conformé et a avoué (faux positif), ne s'est pas conformé et n'a pas avoué (faux négatif), et ne s'est pas conformé et a avoué (vrai positif).

Étant donné une invite utilisateur, les quatre résultats possibles reposent sur la combinaison de (1) si la réponse du modèle est conforme (« bonne ») ou non conforme (« mauvaise »), et (2) si la confession revendique la conformité ou la non-conformité. Nous constatons généralement que les confessions sont très probablement exactes. De plus, les erreurs de confession sont généralement bénignes et résultent d'une confusion honnête plutôt que d'une intention de tromper.
Une confession est un auto-rapport du modèle sur la manière dont il a respecté à la fois l'esprit et la lettre des instructions ou politiques explicites et implicites qui lui ont été données, et s'il y a eu des cas où il a « coupé les coins » ou « piraté », violé des politiques, ou de quelque manière que ce soit, n'a pas répondu aux attentes. Dans notre recherche, nous constatons que les modèles peuvent être entraînés à être honnêtes dans le signalement de leurs propres lacunes. Nous avons formé une version de GPT‑5 Thinking pour générer des confessions et l'avons évaluée sur plusieurs ensembles de données de stress-test hors distribution conçus pour provoquer des comportements tels que la manipulation, le piratage, violer les instructions et les hallucinations. Nous avons constaté que même lorsque le modèle adopte ces comportements indésirables, il est très probable qu'il les avoue. La figure ci-dessus montre que l'approche de confession est largement efficace sur un éventail diversifié d'ensembles de données et de tâches.
À la suite de toute interaction entre l'utilisateur et le modèle se terminant par une réponse du modèle, une confession peut être demandée en envoyant au modèle un « message système » qui l'instruit de fournir un rapport de confession. Le rapport se rapporte à la dernière réponse du modèle et comprend (1) la liste de toutes les instructions, contraintes et objectifs explicites et implicites que cette réponse devait satisfaire, (2) une analyse honnête et objective pour déterminer si la réponse a effectivement satisfait chacun de ces objectifs, et (3) une liste de toutes les incertitudes, ambiguïtés ou « décisions difficiles » que le modèle a rencontrées lors de l'élaboration de la réponse. Pendant la formation, une confession est évaluée par un modèle de récompense distinct qui évalue uniquement la confession sur la complétude des objectifs, la précision de l'analyse de conformité et la couverture des incertitudes. Ces récompenses sont appliquées exclusivement au résultat de la confession et n'influencent jamais la récompense pour la réponse principale. Cela garantit la propriété, discutée ci-dessus, que rien de ce que le modèle dit en confession ne peut nuire (ou aider) à sa récompense pour sa réponse principale.
La théorie derrière les confessions est simple. De nombreux types de comportements indésirables du modèle apparaissent parce que nous demandons au modèle d'optimiser plusieurs objectifs à la fois. Pendant l'apprentissage par renforcement, le modèle voit une invite, produit une réponse et reçoit une récompense. Au fil du temps, il apprend à produire les types de réponses qui obtiennent de bons scores. Le défi est que le signal de récompense doit intégrer simultanément de nombreuses considérations : la justesse de la réponse, son utilité, le respect des spécifications du produit et des politiques, la conformité aux contraintes de sécurité, et l'alignement avec les préférences des utilisateurs. Lorsque ces signaux interagissent, ils peuvent accidentellement inciter le modèle à adopter des comportements que nous ne désirons pas.
Par exemple, notre travail sur les hallucinations a montré que certains ensembles de données récompensent davantage une supposition confiante qu'une admission honnête d'incertitude. Notre recherche sur la flagornerie a montré que les modèles peuvent devenir excessivement complaisants lorsque le signal de préférence est trop fort. Et les travaux(s'ouvre dans une nouvelle fenêtre) d'autres groupes ont montré que les modèles peuvent « détourner la récompense » — en trouvant des failles dans le cadre de formation qui leur permettent d'obtenir un score élevé sans réellement faire ce que nous avions prévu. Dans certains cas, ces raccourcis peuvent se généraliser(s'ouvre dans une nouvelle fenêtre) à des comportements encore plus nuisibles lors du déploiement.
Les confessions évitent ce problème en séparant complètement les objectifs. La réponse principale continue d'optimiser tous les facteurs habituels. La confession est formée sur exactement une chose : l'honnêteté. Rien de ce que le modèle dit dans la confession n'est retenu contre lui, et la confession n'influence pas la récompense pour la réponse principale Cela signifie que même si le modèle trompe ou prend des raccourcis dans sa sortie initiale, il a toujours un incitatif à l'admettre dans la confession. C'est ce que nous constatons en pratique : les modèles sont disposés à admettre un mauvais comportement dans la confession, même dans les cas où ils le dissimulent dans la réponse principale. Et lorsque les confessions échouent, c'est généralement parce que le modèle est réellement confus—soit parce que les instructions étaient ambiguës, soit parce qu'il n'a pas réalisé qu'une erreur avait été commise—plutôt que parce qu'il essayait délibérément de tromper. Il est important de noter que les premiers résultats montrent que les confessions restent efficaces même lorsque la réponse originale est produite sans aucun fil de pensée, ce qui suggère que l'honnêteté des confessions ne dépend pas de la lisibilité du raisonnement interne et peut se généraliser aux futures architectures de mod
La formation par confession fonctionne même sans étiquettes de conformité de référence. Par « vérité fondamentale », nous entendons une étiquette définitive, fournie de l’extérieur, indiquant si le modèle a réellement suivi une instruction ou l’a violée. Dans de nombreuses tâches du monde réel, ces étiquettes ne sont pas disponibles—si nous savions avec certitude que le modèle avait violé une règle, nous pourrions pénaliser directement cette infraction plutôt que de compter sur un aveu. Au lieu de cela, le modèle est récompensé pour fournir une explication structurée et appuyée par des preuves de ce qu'il pense avoir accompli. Le document démontre que l'honnêteté a tendance à émerger dans ce contexte. Nous réfléchis que cela est dû au fait qu'il est généralement plus facile pour le modèle de fournir un compte véridique et étayé par des preuves que de construire un récit fabriqué cohérent qui puisse convaincre le juge. C'est une hypothèse clé explorée dans le document, qui discute également des cas où les confessions échouent—les faux négatifs et les faux positifs—et comment ils surviennent.
Le document fournit des preuves initiales que les aveux fonctionnent, mais il ne doit pas être interprété comme une preuve définitive. Bien que nous ayons utilisé un modèle frontier (GPT‑5 Thinking), nos expériences étaient limitées en échelle, utilisant une quantité relativement faible de calcul et de données. Nous sommes enthousiastes à l'idée de faire passer ce travail à l'étape suivante et de voir si l'honnêteté des confessions continuera de se maintenir à mesure que nous intensifions sa formation.
Le modèle « manipule les récompenses » dans sa réponse principale pour tromper le correcteur en annotant les phrases avec des décomptes de mots prétendus, mais admet ensuite cela dans la confession.
Dans le cadre de nos expériences, nous avons délibérément entraîné des modèles contre un signal de récompense « piratable » calculé par un modèle plus faible. Cette configuration s'applique à la fois à la récompense principale et à la récompense de confession. Le modèle a appris à exploiter le signal de récompense faible : son apparente précision (lorsqu'il est jugé par le modèle faible) s'est améliorée, tandis que sa véritable précision (lorsqu'il est évalué par un évaluateur plus fort) a diminué.
Cependant, même si le canal de confession a été entraîné sur le même signal faible, sa précision a évolué dans la direction opposée. Le modèle a appris que la meilleure façon d'optimiser la récompense de confession était simplement d'admettre quand il avait piraté la récompense principale. Les confessions sont devenues plus précises au fil du temps, même si le comportement principal a changé.
Au cours de la formation, lorsque le modèle ne se conforme pas, il apprend dans certains cas à « pirater » le juge principal de la récompense, ce qui fait diminuer la précision du juge. En revanche, bien que le juge de récompense de confession soit tout aussi piratable, le modèle devient progressivement plus honnête au cours de la formation dans ses confessions, atteignant finalement près de 100 % de confessions lorsqu'il n'a pas respecté les règles.
L'article(s'ouvre dans une nouvelle fenêtre) contient davantage d'expériences et de résultats. Nous avons comparé le modèle entraîné avec le canal de confession à un modèle de contrôle entraîné de la même manière mais sans ce canal. Nous avons également examiné les cas où les confessions ont échoué. Presque toutes les « erreurs » se sont produites lorsque le modèle était réellement confus—lorsque les instructions étaient ambiguës ou lorsqu'il ne s'est tout simplement pas rendu compte qu'il avait fait une erreur. (Voir l’ exemple de faux négatif ci-dessus.)
Les confessions ont leurs limites. Ils ne préviennent pas les mauvais comportements; ils les exposent. Leur principale valeur réside dans leur utilisation comme outil de surveillance et de diagnostic, tant pendant la formation que lors du déploiement. Les confessions jouent un rôle similaire à la surveillance du fil de pensée : les deux rendent les processus de raisonnement cachés plus visibles. Les confessions se concentrent sur la question de savoir si le modèle a violé les instructions; le fil de pensée peut mettre en évidence comment il y est parvenu.
Ce travail est également une preuve de concept. Nous n'avons pas formé les mécanismes de confession à grande échelle, et la précision des confessions reste imparfaite. Il reste du travail à faire pour rendre l'approche plus fiable, plus robuste et plus largement applicable aux familles de modèles et aux tâches.
Ce travail s'inscrit dans notre approche plus large de la sécurité de l'IA. Les confessions sont un mécanisme dans un ensemble plus vaste qui comprend l'alignement délibératif, la surveillance du fil de pensée, la hiérarchie des instructions, et plus encore. Aucune méthode unique n'est suffisante; l'objectif est un système en couches de vérifications et d'outils de transparence qui se renforcent mutuellement. Les confessions peuvent aider à diagnostiquer les comportements problématiques des modèles lors de la formation et de l'évaluation, ainsi qu'à les surveiller pendant le déploiement. Les confessions à elles seules ne résolvent pas le problème de l'équilibre entre plusieurs dimensions. Mais en créant un mode « sérum de vérité » dans lequel les modèles se concentrent uniquement sur l'honnêteté, cela ajoute un outil précieux à notre arsenal pour améliorer l'honnêteté et la sécurité à tous les niveaux.
À mesure que les modèles deviennent plus performants et sont déployés dans des contextes à enjeux plus élevés, nous avons besoin de meilleurs outils pour comprendre ce qu'ils font et pourquoi. Les confessions ne constituent pas une solution complète, mais elles ajoutent une couche significative à notre ensemble de transparence et de supervision. Dans les travaux futurs, nous prévoyons d'accroître l'échelle des confessions et de les associer à des techniques complémentaires de transparence et de sécurité, y compris la surveillance du raisonnement et l'alignement délibératif, afin de progresser davantage vers l'assurance que nos modèles obéissent fidèlement à toutes les instructions et politiques (comme notre Model Spec(s'ouvre dans une nouvelle fenêtre)), et rapportent fidèlement leurs actions.


