Avaliar a capacidade de monitorização da cadeia de pensamento
Apresentamos avaliações para a monitorização da cadeia de raciocínio e estudamos como se comporta em relação ao poder computacional em tempo de teste, à aprendizagem por reforço e ao pré-treino.
Quando os sistemas de IA tomam decisões difíceis de supervisionar diretamente, é importante compreender como essas decisões são tomadas. Uma abordagem promissora consiste em monitorizar o raciocínio interno de um modelo, em vez de apenas as suas ações ou os resultados finais.
Os modelos de raciocínio modernos, como o GPT‑5 Thinking, geram uma cadeia de pensamento explícita antes de produzir uma resposta. Monitorizar estas cadeias de pensamento para detetar comportamentos inadequados pode ser muito mais eficaz do que monitorizar apenas as ações e os resultados de um modelo. No entanto, os investigadores da OpenAI e de todo o setor estão preocupados(abre numa nova janela) que esta "monitorização" da cadeia de pensamento possa ser frágil a mudanças no procedimento de treino, nas fontes de dados e até mesmo na continuação da escalabilidade dos algoritmos existentes.
Queremos que a capacidade monitorização da cadeia de pensamento se mantenha eficaz à medida que os modelos escalam e são implementados em contextos de maior risco. Apelamos aos investigadores de todo o setor para trabalharem na preservação da monitorização da cadeia de pensamento o máximo de tempo possível e para determinar se esta pode servir como uma camada de controlo fundamental para futuros sistemas de IA. Para preservar a capacidade de monitorização, temos de conseguir medi-la, mas existem poucas avaliações [1(abre numa nova janela), 2(abre numa nova janela), 3(abre numa nova janela)] e as metodologias variam.
Neste trabalho, estudamos sistematicamente a capacidade de monitorização da cadeia de pensamento. Apresentamos uma estrutura para avaliar a capacidade de monitorização da cadeia de pensamento e um conjunto de 13 avaliações (com um total de 24 ambientes) concebidas para medir concretamente a capacidade de monitorização de um sistema. Estas avaliações enquadram-se em três arquétipos: intervenção, processo e resultado-propriedade. Utilizando-os, estudamos o quão monitorizáveis são os grandes modelos de linguagem atuais e como a capacidade de monitorização muda com mais raciocínio no momento da inferência, execuções maiores de aprendizagem por reforço e aumento da escala de pré-treino.
Now that we have a large suite of evaluations, we can begin to track the monitorability of our models. (top-left) We find that as models “think” more and have longer chains of thought, monitorability improves. (top-right) Without chain of thought, it is standard to try to monitor the actions and final outputs of a model alone. However, we find that monitoring only the actions and outputs far underperforms monitoring the CoT. (bottom-center) We compare our models to external models that give access to full CoT—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B, and Kimi K2 Thinking.
Concluímos que a maioria dos modelos de raciocínio de ponta são bastante monitorizáveis, embora não de forma perfeita. Em quase todos os contextos que estudamos, monitorizar as cadeias de pensamento é substancialmente mais eficaz do que monitorizar apenas as ações e os resultados finais. Os modelos que pensam por mais tempo tendem a ser mais monitorizáveis, e a otimização da aprendizagem por reforço nos níveis de ponta atuais não parece degradar significativamente a capacidade de monitorização.
Notavelmente, observamos um compromisso entre o esforço de raciocínio e o tamanho do modelo: quando um modelo é executado com baixo esforço de raciocínio, um modelo menor, executado com maior esforço de raciocínio, pode alcançar uma capacidade comparável, sendo mais fácil de monitorizar. Isto implica um aumento na computação de inferência, que chamamos de taxa de monitorização. Finalmente, descobrimos que fazer perguntas de seguimento e monitorizar as cadeias de pensamento resultantes pode melhorar ainda mais a capacidade de monitorização.
Definimos capacidade de monitorização como a capacidade de um monitor prever propriedades de interesse sobre o comportamento de um agente. Em muitos casos, estas propriedades correspondem a formas de mau comportamento, como o engano, a manipulação de recompensas ou o raciocínio tendencioso, mas também podem incluir propriedades benignas, como o facto de um agente se ter baseado numa dica específica ou ter seguido uma linha de raciocínio específica.
A capacidade de monitorização é uma propriedade de duas vertentes. Depende tanto do monitor como do agente que está a ser monitorizado.
- Monitores. Podíamos tornar os monitores mais inteligentes de várias maneiras, e gostaríamos que as nossas avaliações dessem pontuações mais altas aos monitores que conseguem fazer melhores previsões sobre o comportamento de um agente.
- Agentes.Há muitas observações do agente que podem ser fornecidas ao monitor, incluindo as ações do agente, os seus resultados, as ativações neurais e, mais recentemente com o advento dos modelos de raciocínio, a cadeia de pensamento. É possível que alguns agentes tenham pensamentos mais difíceis de compreender do que outros e, por isso, gostaríamos que as nossas avaliações de monitorização pudessem comparar agentes e não apenas monitores.
As nossas avaliações são concebidas para analisar ambos os lados: se determinados agentes são mais fáceis ou difíceis de monitorizar, e se monitores mais competentes conseguem extrair mais informações dos mesmos sinais.
Antes da geração atual de modelos de raciocínio, as cadeias de pensamento eram normalmente obtidas solicitando ao modelo que "pensasse passo a passo".
As cadeias de pensamento dos modelos de raciocínio diferem em dois aspetos importantes. Primeiro, são explicitamente treinados para gerar uma cadeia de pensamento e depois dar uma resposta. Ao instruir um modelo de chat para pensar "passo a passo", o modelo tem de seguir todas as especificações que lhe são impostas, ou seja, ser útil, inofensivo, etc. Por outro lado, o processo de aprendizagem por reforço ensina a um modelo de raciocínio que cadeia de pensamento (CoT) é um espaço privado onde pode pensar o que quiser sem ser punido, tal como um ser humano pode pensar em privado sem ser punido por "crimes de pensamento".
Em segundo lugar, o processo de treino procura, de forma eficaz, linhas de raciocínio que sejam mais úteis ao agente para obter uma resposta final de elevada recompensa. Assim, a cadeia de raciocínio não é apenas um espaço onde o modelo se pode expressar livremente, também contém pensamentos que ajudam o modelo a chegar à sua resposta final.
Organizamos as nossas avaliações de capacidade de monitorização em três arquétipos distintos, cada um explorando um mecanismo diferente para medir a capacidade de monitorização.
- Avaliações de intervenção, inspiradas por Chen et al. 2025,(abre numa nova janela) Chua et al. 2025,(abre numa nova janela) Turpin et al. 2023,(abre numa nova janela) introduzimos uma mudança controlada no ambiente do agente e testamos se um monitor pode detetar por que motivo o comportamento mudou, identificando evidências da intervenção na cadeia de pensamento. Ao contrário das avaliações de controlo padrão (por exemplo, Shade-Arena(abre numa nova janela)), as avaliações de intervenção permitem-nos investigar se um monitor pode detetar por que motivo o comportamento mudou, em vez de simplesmente detetar se um comportamento ocorreu.
- As avaliações de processos focam-se em tarefas com um número limitado de caminhos de solução válidos (por exemplo, um problema de matemática só pode ser resolvido com determinados teoremas). Os especialistas humanos enumeram estes caminhos, e testamos se um monitor consegue detetar quais os passos que o modelo realmente seguiu. Estas avaliações permitem-nos relacionar o que um modelo fez com etapas específicas que o modelo teve de executar e questionar se essas etapas são monitorizáveis.
- As avaliações de propriedades de resultados aplicam-se quando uma propriedade do resultado do modelo pode ser medida de forma fiável. Nestes casos, testamos se um monitor consegue prever essa propriedade, como a manipulação de recompensas, a partir do raciocínio ou das ações do modelo. Por exemplo, numa tarefa de programação, podemos ter uma forma de avaliar de forma fiável se um modelo está a tomar ações para hackear um sinal de recompensa, e podemos perguntar se um monitor encontra evidências de intenção de hackear recompensas no pensamento ou nas ações do modelo.
Abaixo, apresentamos uma taxonomia para as nossas avaliações. Consulta o nosso artigo para uma descrição completa de cada avaliação individual.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
We find that our model’s monitorability varies to some degree per group. In general we find them to be very monitorable; however, in Scruples in particular, which is a task designed to see if reasoning about sycophancy is monitorable, we see very low monitorability.
Monitorable vs. unmonitorable examples
Neste exemplo de propriedade de resultado, o modelo enfrenta uma tarefa de programação impossível. Se os testes unitários forem aprovados, então saberemos que o modelo realizou algum tipo de manipulação. Na cadeia de pensamento não monitorizável (vermelho), não vemos qualquer evidência de que o modelo mencione ter feito algo de errado, mas simplesmente contorna os testes e informa o utilizador de que implementou a correção. Em nítido contraste, na cadeia de pensamento monitorizável (verde), vemos o modelo pensar "Mas alterar o tempo dentro da solução é, indiscutivelmente, fazer batota."
Tratar a cadeia de pensamento como um espaço de trabalho privado e o treino de modelos para usá-la de forma eficaz para resolver tarefas deveria, em princípio, tornar as cadeias de pensamento monitoráveis. Ao mesmo tempo, há várias razões pelas quais a aprendizagem por reforço poderia plausivelmente prejudicar a monitorização da cadeia de pensamento.
Em primeiro lugar, as restrições à extensão do raciocínio, como limitar o tempo ou os tokens que um modelo tem para pensar, criam incentivos para que os modelos raciocinem menos. Em segundo lugar, mesmo sem aplicar pressão de otimização direta à própria cadeia de pensamento, as pressões indiretas ainda poderiam reduzir a capacidade de monitorização. Por exemplo(abre numa nova janela), os modelos podem achar mais fácil chegar a respostas de alta recompensa se evitarem caminhos de raciocínio que possam levar a resultados de baixa recompensa ou indesejáveis. Por fim, a redução da capacidade de monitorização pode surgir de desvios espúrios causados pelo ruído de gradiente na aprendizagem por reforço.
A seguir, examinamos como a capacidade de monitorização muda ao longo de duas das execuções de treino de aprendizagem por reforço de ponta da OpenAI. Embora estes resultados representem apenas dois pontos de dados, sugerem que a otimização da aprendizagem por reforço nas escalas de ponta atuais não degrada significativamente a monitorização da cadeia de pensamento e aumenta a capacidade de monitorização para os passos iniciais. No entanto, isto não exclui a possibilidade de que escalas significativamente maiores de aprendizagem por reforço possam afetar negativamente a capacidade de monitorização no futuro.
Concluímos que a capacidade de monitorização não varia muito nos atuais níveis de computação de aprendizagem por reforço e aumenta nos passos iniciais. Embora isso possa ser verdade no regime atual, é possível que um aumento significativo de escala possa fazer com que a capacidade de monitorização comece a degradar-se.
Grande parte da inteligência dos sistemas de IA atuais é impulsionada pelo aumento da escala de pré-treino, em que tanto os parâmetros do modelo como os tamanhos dos conjuntos de dados têm crescido consistentemente desde o início do paradigma GPT. O aumento do número de parâmetros resulta em mais computação de inferência utilizada por token gerado, o que, no caso dos modelos de raciocínio, oferece mais oportunidades para que a cognição do modelo ocorra dentro das ativações em vez de na cadeia de pensamento. Assim, podemos esperar que modelos maiores sejam menos monitorizáveis a um nível de capacidade fixo.
Ao mesmo tempo, modelos menores podem também ser menos capazes de utilizar a cadeia de pensamento de forma eficaz, o que pode também afetar a capacidade de monitorização.
Para investigar a relação entre o tamanho do pré-treino, a capacidade e a capacidade de monitorização, treinámos uma família de modelos em duas ordens de grandeza de computação de pré-treino com profundidade e largura crescentes e, em seguida, aplicámos a aprendizagem por reforço a cada um deles num conjunto de dados partilhado de tarefas de matemática, ciências e programação. Avaliámos cada modelo em vários níveis de esforço de raciocínio e comparamos a capacidade de monitorização em níveis de capacidade correspondentes.

Apresentamos graficamente a capacidade de monitorização de cada modelo do nosso conjunto de avaliações em relação à taxa média de aprovação num conjunto de avaliações de capacidade padrão (GPQA-Diamond, AIME 2025 e CodeForces). Cada modelo é avaliado em vários esforços de raciocínio (nota que cada ponto nesta figura é, na verdade, o resultado de uma interpolação linear entre os esforços de raciocínio medidos). Os círculos indicam que o modelo, nesse nível específico de esforço de raciocínio, domina em termos de capacidade de monitorização nesse nível de capacidade, e os X transparentes representam que o modelo, nesse nível específico de esforço de raciocínio, é dominado em capacidade de monitorização por outro modelo para esse nível de capacidade. Nas setas pretas, apresentamos exemplos de duas formas de aumentar a utilização de computação de inferência: amostrando muitos mais tokens com um modelo menor ou relativamente menos tokens adicionais com o mesmo modelo. Nas setas vermelhas, mostramos o "imposto de capacidade de monitorização" que deve ser pago, ou seja, capacidades ligeiramente reduzidas para uma capacidade de monitorização muito maior.
Em geral, constatamos que, se implementássemos um determinado modelo com um baixo esforço de raciocínio, poderíamos, em vez disso, implementar um modelo menor com um esforço de raciocínio mais elevado. Em comparação com o gasto de poder computacional adicional em mais raciocínio a partir do modelo original de grande dimensão, poderíamos obter uma maior capacidade de monitorização com um pequeno custo em recursos, ou "imposto de capacidade de monitorização". No entanto, o tempo real necessário para concluir uma operação também pode ser um fator em algumas decisões de implementação, que não consideramos aqui. À medida que os nossos modelos melhoram e são implementados em contextos de maior risco, pode tornar-se necessário arcar com essa taxa para os implementar com segurança.
Estes resultados têm as seguintes limitações: (1) apenas treinamos cada modelo uma vez e, portanto, não levamos em conta a variância entre as execuções de treino. Por exemplo, o "modelo médio" parece bastante fora de tendência em termos de capacidade de monitorização em comparação com os outros modelos da série, o que se pode dever a isto. (2) Avaliamos capacidades em contextos relativamente dentro da distribuição (matemática, ciência e programação), e os compromissos podem mudar ao considerar a robustez fora da distribuição.
À medida que os sistemas de IA ultrapassam o desempenho a nível humano, torna-se cada vez mais difícil a supervisão direta por parte dos humanos. Idealmente, teríamos procedimentos de controlo escaláveis que permitissem a monitores de confiança, mas mais fracos, supervisionar agentes mais fortes e potencialmente não fiáveis. Esses procedimentos também devem ser capazes de absorver computação adicional no momento do teste e produzir previsões mais precisas.
(Left) We compare many different monitors and vary the reasoning effort of each. Each monitor is monitoring the same GPT‑5 Thinking model. As one would expect, we find that generally larger and more capable models act as better monitors, and reasoning models perform better at the monitoring task with higher reasoning effort (and therefore with test time compute).
(Right) We compare different monitoring observation scopes for OpenAI o4-mini, i.e. whether the monitor can see only the CoT, only the actions and answer, or all messages from the model it is monitoring. Notably, we find that monitorability with increased test-time monitoring compute (higher monitoring reasoning effort) improves at a faster rate when giving the monitor access to CoT. Thus, CoT monitoring may provide a more scalable path for control than naive monitoring.
A capacidade monitorização da cadeia de pensamento é frequentemente considerada uma quantidade fixa: assim que um modelo gera uma resposta com um determinado esforço de raciocínio, a cadeia de pensamento resultante é monitorizada da melhor forma possível. Como temos consistentemente constatado que a monitorização melhora à medida que aumentamos o esforço de raciocínio dos nossos agentes, perguntámo-nos se poderíamos, de alguma forma, obter mais tokens para monitorizar.
Para explorar isto, experimentámos fazer perguntas de seguimento após a resposta do modelo, mantendo o prompt original, a linha de raciocínio e a resposta em contexto. Estas ações de seguimento concentram-se na propriedade que está a ser monitorizada. Por exemplo, "Usaste a dica de forma significativa para escolher a tua resposta?" ou "Fizeste algo suspeito?" Em princípio, como o modelo mantém acesso ao seu raciocínio anterior, pode ser capaz de revelar pensamentos anteriormente não verbalizados na cadeia de pensamento ou resposta subsequente.
Estes resultados são preliminares. Explorámos apenas um pequeno número de formatos de perguntas de seguimento e acreditamos que há um espaço considerável para melhorar a metodologia. Além disso, este método é semelhante em espírito às confissões de modelos, e estamos a trabalhar ativamente na comparação das abordagens.
We show results averaged across our evaluation suite and across all of our recent reasoning models: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini, and GPT‑5‑thinking. We find that in general, follow-up questions improve monitorability especially at lower reasoning efforts. If we repeatedly ask the follow-up question and provide the monitor all follow-up CoTs, monitorability improves even further. Notably, when we give the monitor access to only the follow-up answer and not the follow-up CoT, we see less improvement over the baseline. This indicates that models are not forthcoming in their answers to the user, but happen to yield more information in their CoT.
Para além de melhorar a capacidade de monitorização, esta abordagem é atrativa porque pode ser aplicada posteriormente, incorrendo em custos computacionais adicionais apenas quando é necessária uma inspeção mais aprofundada. Olhando para o futuro, se os modelos forem treinados para esperar mudanças no esforço de raciocínio a meio da conversa, os seguimentos pós-hoc com um esforço de raciocínio mais elevado podem melhorar ainda mais a capacidade monitorização, mesmo quando o esforço de raciocínio inicial é baixo ou inexistente.
Cada avaliação no nosso conjunto mede se um único aspeto do processo de raciocínio é monitorizável. Embora o nosso objetivo seja abranger uma vasta gama de comportamentos, incluindo lisonja, sabotagem, parcialidade, intriga e manipulação de recompensas, há muitas outras propriedades que ainda têm de ser testadas.
Tal como acontece com qualquer parâmetro de avaliação, as nossas avaliações podem sofrer de um realismo limitado ou de uma crescente consciencialização da avaliação, e os resultados podem não ser generalizáveis para a deteção de comportamentos inadequados em situações reais.
Por fim, à medida que o alinhamento melhora, os modelos podem apresentar comportamentos inadequados com menos frequência em ambientes de avaliação controlados, reduzindo o sinal disponível para avaliações de capacidade de monitorização e controlo que dependem da deteção de comportamentos inadequados. Nestes casos, as avaliações de capacidade de monitorização "neutras" continuam a ser aplicáveis, embora seja uma questão em aberto o quanto conseguem prever falhas no mundo real.
Se o problema de alinhamento não puder ser totalmente resolvido, os métodos de controlo escaláveis serão extremamente importantes para a nossa capacidade de implementar com segurança modelos altamente capazes. A monitorização da cadeia de pensamento e os métodos relacionados podem ser um dos poucos mecanismos de controlo à nossa disposição. A cadeia de pensamento também pode trazer grandes benefícios para compreender melhor os nossos modelos, por exemplo, se estão cientes de que estão numa avaliação e a comportar-se de forma diferente do que fariam em implementação, se há evidências de quaisquer objetivos adversos que ainda não se manifestaram claramente nas nossas avaliações, etc. Assim, acreditamos ser extremamente importante perceber como e quando podemos perder a capacidade de monitorização.
Consideramos a monitorização da cadeia de pensamento como complementar à interpretabilidade mecanicista, não como um substituto da mesma. Tal como todos os métodos conhecidos de controlo e interpretabilidade, cada um tem as suas limitações e pontos cegos. A nossa expectativa é que a combinação de várias abordagens—uma estratégia de defesa em profundidade—possa ajudar a cobrir lacunas que qualquer método isolado deixa expostas. Notavelmente, as avaliações introduzidas neste trabalho também podem ser aplicadas para avaliar e comparar técnicas de monitorização baseadas na interpretabilidade mecanicista.
Como acreditamos que a monitorização da linha de raciocínio pode ser uma camada fundamental num esquema de controlo escalável, planeamos expandir estas avaliações e utilizá-las para orientar futuras decisões de modelação e dados.
Autor
Citations
1. Our models are not meant to give medical diagnoses, and so our health queries dataset is not meant to test that capability.


