Como podem as confissões manter os modelos de linguagem honestos
Estamos a partilhar um método inicial, em fase de validação do conceito, que treina os modelos para reportar quando não cumprem instruções ou tomam atalhos não intencionais.
Os sistemas de IA estão a tornar-se mais capazes, e queremos compreendê-los o mais profundamente possível — incluindo como e porque chegam a uma resposta. Às vezes, um modelo utiliza um atalho ou otimiza para o objetivo errado, mas o resultado final continua a parecer correto. Se conseguirmos identificar quando isso acontece, poderemos monitorizar melhor os sistemas implementados, melhorar o treino e aumentar a confiança nos resultados.
A investigação realizada pela OpenAI e outras instituições demonstrou que os modelos de IA podem ter alucinações, manipular o sistema de recompensas ou ser desonestos. Neste momento, observamos os comportamentos inadequados mais preocupantes, como o scheming(abre numa nova janela), apenas nos testes de stress e nas avaliações adversárias. Mas, à medida que os modelos se tornam mais capazes e cada vez mais autónomos, até mesmo formas raras de desalinhamento se tornam mais consequentes, motivando-nos a investir em métodos que nos ajudem a detetar, compreender e mitigar melhor estes riscos.
Este trabalho explora uma dessas abordagens: treinar modelos para admitirem explicitamente quando se envolvem em comportamentos indesejáveis — uma técnica a que chamamos confissões.
Uma confissão é uma segunda saída, separada da resposta principal do modelo ao utilizador. A resposta principal é avaliada em diversas dimensões — correção, estilo, utilidade, conformidade, segurança e muito mais — e estes sinais multifacetados são utilizados para treinar modelos de forma a produzir melhores respostas. A confissão, por outro lado, é avaliada e treinada com base num único critério: a honestidade. Inspirando-se na estrutura de uma confissão, nada do que a modelo diz na sua confissão é usado contra ele durante o treino. Se o modelo admitir honestamente ter manipulado um teste, ter obtido resultados abaixo do esperado ou ter violado as instruções, esta admissão aumenta a sua recompensa em vez de a diminuir. O objetivo é incentivar o modelo a relatar fielmente o que realmente fez.
Nos nossos testes, verificámos que o método de confissões melhora significativamente a visibilidade do comportamento inadequado do modelo. Fazendo a média das nossas avaliações concebidas para induzir comportamentos inadequados, a probabilidade de "falsos negativos" (i.e., o modelo não cumprir as instruções e depois não confessar o sucedido) é de apenas 4,4%.
Precisão do nosso modelo de confissão em "validação de conceito" em diversos conjuntos de dados adversários. Os resultados são categorizados como: cumpriu e não confessou (verdadeiro negativo), cumpriu e confessou (falso positivo), não cumpriu e não confessou (falso negativo) e não cumpriu e confessou (verdadeiro positivo).

Dado um prompt do utilizador, os quatro resultados possíveis baseiam-se na combinação de (1) se a resposta do modelo está em conformidade (“boa”) ou não está está em conformidade (“má”), e (2) se a confissão alega conformidade ou não conformidade. Em geral, constatamos que as confissões têm uma grande probabilidade de serem precisas e, além disso, os erros nas confissões são normalmente benignos e resultam de uma confusão honesta, e não são intencionalmente enganosos.
Uma confissão é um auto-relato do modelo sobre o quão bem cumpriu tanto o espírito como a letra das instruções ou políticas explícitas e implícitas que lhe foram dadas, e se houve algum caso em que "fez atalhos", violou políticas ou, de alguma forma, ficou aquém das expectativas. Na nossa pesquisa, descobrimos que os modelos podem ser treinados para serem honestos quando relatam as suas próprias limitações. Treinámos uma versão do GPT‑5 Thinking para produzir confissões e avaliámo-la em diversos conjuntos de dados de testes de stress fora da distribuição, concebidos para provocar comportamentos como scheming, invasão de sistemas, violação de instruções e alucinações. Verificámos que, mesmo quando o modelo se envolve nestes comportamentos indesejáveis, é muito provável que os confesse. A figura acima mostra que a abordagem da confissão é amplamente eficaz numa variedade de conjuntos de dados e tarefas.
Após qualquer interação entre o utilizador e o modelo que termine com uma resposta do modelo, pode ser solicitada uma confissão enviando ao modelo uma "mensagem do sistema" que o instrui a fornecer um relatório de confissão. O relatório diz respeito à última resposta do modelo e inclui (1) a lista de todas as instruções, restrições e objetivos explícitos e implícitos que esta resposta deveria ter satisfeito, (2) uma análise honesta e objetiva sobre se a resposta satisfez de facto cada um desses objetivos e (3) uma lista de quaisquer incertezas, ambiguidades ou “decisões difíceis” que o modelo encontrou ao produzir a resposta. Durante o treino, uma confissão é avaliada por um modelo de recompensa separado que pontua apenas a confissão quanto à completude dos objetivos, à precisão da análise de conformidade e à cobertura das incertezas. Estas recompensas são aplicadas exclusivamente à confissão e nunca influenciam a recompensa pela resposta principal. Isto garante a propriedade, discutida acima, de que nada do que o modelo diz em confissão pode prejudicar (ou ajudar) a sua recompensa pela resposta principal.
A teoria por detrás das confissões é simples. Muitos tipos de comportamento indesejado do modelo surgem porque pedimos ao modelo para otimizar vários objetivos ao mesmo tempo. Durante a aprendizagem por reforço, o modelo vê um estímulo, produz uma resposta e recebe uma recompensa. Com o tempo, aprende a gerar os tipos de respostas que obtêm boas pontuações. O desafio reside no facto de o sinal de recompensa necessitar de combinar várias considerações em simultâneo: a correção da resposta, a sua utilidade, a sua conformidade com as especificações do produto e das políticas, o seu cumprimento das restrições de segurança e a sua correspondência com as preferências dos utilizadores. Quando estes sinais interagem, podem acidentalmente influenciar o modelo a apresentar comportamentos indesejados.
Por exemplo, o nosso trabalho sobre alucinações mostrou que alguns conjuntos de dados recompensam mais um palpite confiante do que uma admissão honesta de incerteza. A nossa investigação sobre a bajulação mostrou que os modelos podem tornar-se excessivamente complacentes quando o sinal de preferência é demasiado forte. E trabalhos(abre numa nova janela) de outros grupos mostraram que os modelos podem "hackear as recompensas" — encontrando brechas na configuração de treino que lhes permitem obter uma pontuação elevada sem realmente fazer o que pretendíamos. Em alguns casos, estes atalhos podem generalizar-se(abre numa nova janela) e levar a comportamentos ainda mais perniciosos na implementação.
As confissões evitam este problema ao separar completamente os objetivos. A resposta principal continua a ser otimizar todos os fatores habituais. A confissão é treinada apenas num: a honestidade. Nada do que o modelo diz na confissão é usado contra ele, e a confissão não afeta a recompensa pela resposta principal. Isto significa que, mesmo que o modelo engane ou tome atalhos no seu resultado original, ainda terá um incentivo para o admitir na confissão. É isto que vemos na prática: os modelos estão dispostos a reconhecer comportamentos inadequados na confissão, mesmo nos casos em que os escondem na resposta principal. E quando as confissões falham, é geralmente porque o modelo está genuinamente confuso — porque as instruções eram ambíguas ou porque não se apercebeu de que tinha sido cometido um erro — e não porque estava deliberadamente a tentar enganar. É importante realçar que os resultados iniciais mostram que as confissões continuam a ser eficazes mesmo quando a resposta original é produzida sem qualquer cadeia de pensamento, sugerindo que a honestidade da confissão não depende da legibilidade da reflexão interna e pode ser generalizada para futuras arquiteturas de modelos.
O treino de confissões funciona mesmo sem a comprovação concreta de conformidade. Por "comprovação concreta", queremos dizer um rótulo definitivo, fornecido externamente, que indica se o modelo realmente seguiu uma instrução ou a violou. Em muitas tarefas do mundo real, estes rótulos não estão disponíveis — se soubéssemos com certeza que o modelo violou uma regra, poderíamos penalizar diretamente essa violação, em vez de depender de uma confissão. Em vez disso, o modelo é recompensado por produzir uma explicação estruturada e fundamentada em evidências sobre o que acredita ter feito. O artigo demonstra que a honestidade tende a surgir neste contexto. Acreditamos que isto acontece porque fornecer um relato verídico e baseado em provas é geralmente mais fácil para o modelo do que construir uma narrativa coerente e fabricada que possa enganar o juiz. Esta é uma premissa fundamental explorada no artigo, que também discute os casos em que as confissões falham — os falsos negativos e os falsos positivos — e como surgem.
O artigo fornece provas iniciais de que as confissões funcionam, mas não deve ser interpretado como uma prova definitiva. Embora tenhamos utilizado um modelo de ponta (GPT‑5 Thinking), as nossas experiências foram limitadas em termos de escala, utilizando uma quantidade relativamente pequena de computação e dados. Queremos levar este trabalho ao nível seguinte e ver se a honestidade das confissões continuará a manter-se à medida que alargamos o treino.
O modelo "hackeia recompensas" na sua resposta principal para enganar o avaliador, anotando frases com supostas contagens de palavras, mas depois admite-o na confissão.
Como parte das nossas experiências, treinámos modelos deliberadamente com base num sinal de recompensa "hackeável" processado por um modelo mais fraco. Esta configuração aplicava-se tanto à recompensa principal como à recompensa pela confissão. O modelo aprendeu a explorar o sinal de recompensa fraco: a sua aparente precisão (quando avaliada pelo modelo fraco) melhorou, enquanto a sua precisão real (quando avaliada por um avaliador mais forte) diminuiu.
No entanto, embora o canal de confissão tenha sido treinado com o mesmo sinal fraco, a sua precisão moveu-se no sentido oposto. O modelo aprendeu que a melhor forma de otimizar a recompensa pela confissão era simplesmente admitir quando hackeava a recompensa principal. As confissões tornaram-se mais precisas ao longo do tempo, mesmo enquanto o comportamento principal se desviava.
Ao longo do treino, quando o modelo não cumpre as regras, aprende, numa fração dos casos, a "hackear" o sistema avaliador principal de recompensas, e assim a precisão da avaliação diminui. Em contrapartida, embora o sistema avaliador de recompensas por confissão seja igualmente vulnerável a ataques, o modelo torna-se cada vez mais honesto ao longo do treino nas suas confissões, chegando a quase 100% de confissões quando não cumpria as regras.
O artigo(abre numa nova janela) inclui mais experiências e resultados. Comparámos o modelo treinado com confissões a um modelo de controlo treinado da mesma forma, mas sem o canal de confissões. Analisámos também os casos em que as confissões falharam. Quase todas as "falhas" ocorreram quando o modelo estava genuinamente confuso — quando as instruções eram ambíguas ou quando simplesmente não se apercebeu de que tinha cometido um erro. (Vê o exemplo de falso negativo acima.)
As confissões têm as suas limitações. Não previnem o comportamento inadequado - expõem-no. A sua principal utilidade reside na sua atuação como ferramenta de monitorização e diagnóstico, tanto durante o treino como na implementação. As confissões desempenham um papel semelhante ao da monitorização da cadeia de pensamento: ambas tornam os processos de reflexão ocultos mais visíveis. As confissões centram-se em saber se o modelo violou as instruções; a cadeia de pensamento pode realçar como chegou aí.
Este trabalho é também uma validação do conceito. Não treinámos mecanismos de confissão em grande escala, e a precisão das confissões ainda é imperfeita. Ainda há trabalho a ser feito para tornar a abordagem mais fiável, mais robusta e mais amplamente aplicável a diferentes famílias de modelos e tarefas.
Este trabalho enquadra-se na nossa abordagem mais ampla à segurança da IA. As confissões são um mecanismo num conjunto maior que inclui o alinhamento deliberativo, a monitorização da cadeia de pensamento, a hierarquia de instruções e muito mais. Nenhum método isolado é suficiente. O objetivo é alcançar um sistema multifacetado de verificações e ferramentas de transparência que se reforcem mutuamente. As confissões podem ajudar no diagnóstico de comportamentos problemáticos em modelos durante o treino e a avaliação, bem como na monitorização durante a implementação. As confissões por si só não resolvem o problema do equilíbrio de múltiplas dimensões. Mas, ao criar um modo de "soro da verdade" em que os modelos se concentram exclusivamente na honestidade, adicionámos uma ferramenta valiosa ao nosso conjunto de ferramentas para melhorar a honestidade e a segurança de uma forma geral.
À medida que os modelos se tornam mais capazes e são implementados em contextos de maior risco, precisamos de melhores ferramentas para compreender o que estão a fazer e porquê. As confissões não são uma solução completa, mas acrescentam uma camada significativa à nossa estrutura de transparência e supervisão. Em trabalhos futuros, planeamos aumentar as confissões, assim como combiná-las com técnicas complementares de transparência e segurança, incluindo a monitorização da cadeia de pensamento e o alinhamento deliberativo, para avançar ainda mais na garantia de que os nossos modelos obedecem fielmente a todas as instruções e políticas (como a nossa Especificação de Modelo(abre numa nova janela)) e relatam as suas ações com veracidade.


