A los modelos de razonamiento les cuesta controlar sus cadenas de pensamiento, y eso es bueno
Por qué una limitación de los modelos de frontera es tranquilizadora para la seguridad de la IA.
A medida que los agentes de IA se vuelven capaces de llevar a cabo tareas cada vez más complejas y autónomas, mantener una supervisión confiable de su comportamiento se vuelve más importante. En línea con nuestro principio de implementación iterativa, estudiamos cómo se comportan los sistemas en entornos del mundo real y refinamos continuamente las salvaguardas a medida que avanzan las capacidades. Para respaldar esto, nuestro enfoque de seguridad usa una defensa en profundidad, con múltiples capas de defensa complementarias como entrenamiento de seguridad, pruebas de comportamiento, revisión de código con agentes(se abre en una nueva ventana) y monitoreo de cadenas de pensamiento (CoT). El monitoreo de CoT analiza los pasos de razonamiento que los agentes generan mientras realizan tareas. Estos rastros de razonamiento pueden ofrecer señales valiosas tanto durante el entrenamiento como en la implementación, ayudando a los sistemas de monitoreo a identificar cuándo el comportamiento de un agente puede ser inseguro o inconsistente con los objetivos previstos por la persona usuaria.
Hoy vemos que el razonamiento de los modelos en general es interpretable y fácil de monitorear. Sin embargo, en el futuro, la capacidad de monitoreo podría degradarse por una variedad de razones(se abre en una nueva ventana). Aquí nos enfocamos en una de esas vías: si los agentes llegan a ser capaces de remodelar u oscurecer deliberadamente su razonamiento cuando saben que están siendo monitoreados, las evaluaciones podrían sobrestimar la alineación o seguridad de un sistema, y los sistemas de monitoreo podrían volverse menos confiables.
En este trabajo estudiamos si los modelos de razonamiento actuales son capaces de controlar su cadena de pensamiento de maneras que reduzcan la capacidad de monitoreo. Entender esta capacidad es importante para garantizar que el monitoreo de CoT siga siendo una salvaguarda sólida a medida que los sistemas de IA se vuelven más capaces. Encontramos que a los modelos de razonamiento actuales les cuesta controlar sus CoT, incluso cuando se les dice que están siendo monitoreados. Aunque la controlabilidad es mayor en los modelos más grandes, disminuye cuando se les pide que razonen durante más tiempo y cuando pasan por entrenamiento posterior adicional. Nuestros resultados sugieren que la controlabilidad de CoT probablemente no representa hoy un riesgo importante para la capacidad de monitoreo de CoT, aunque será importante seguir evaluando a medida que los modelos avancen.
La cadena de pensamiento se refiere a los pasos intermedios de razonamiento que un agente de IA genera mientras resuelve una tarea. Estos rastros de razonamiento pueden ofrecer señales de seguridad útiles, ayudando a los sistemas de monitoreo a evaluar si el comportamiento de un agente es seguro o está alineado.
La controlabilidad de CoT es la capacidad de un modelo de razonamiento para controlar propiedades de su CoT de maneras que reduzcan la capacidad de monitoreo. Medir esta capacidad bajo todo el abanico de incentivos realistas para evadir monitores que podríamos esperar en la práctica es un desafío. En su lugar, usamos un sustituto práctico: medimos la capacidad del modelo para seguir instrucciones de la persona usuaria sobre su CoT. Por ejemplo, probamos si un modelo puede seguir instrucciones que afectan su razonamiento interno —como usar solo letras minúsculas, evitar ciertas palabras clave o agregar frases específicas— en lugar de limitarse a cambiar su salida visible.
Para estudiar esto, presentamos CoT-Control, un conjunto de evaluaciones de código abierto para medir la controlabilidad de CoT en modelos de razonamiento. CoT-Control incluye más de 13 000 tareas construidas a partir de conjuntos de referencia establecidos: GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified. Cada tarea se crea combinando un problema de un benchmark con una instrucción de CoT, como evitar ciertas palabras clave relevantes para el problema en la CoT, usar solo letras minúsculas o agregar una palabra dada al final de cada oración.
Ejecutamos evaluaciones en 13 modelos de razonamiento y encontramos que a todos les cuesta controlar de forma confiable sus CoT. Medimos la controlabilidad como la fracción de rastros de razonamiento en los que el modelo cumple correctamente nuestras instrucciones de CoT. En los modelos de frontera, los puntajes de controlabilidad de CoT son bajos: van desde 0,1 % y no superan el 15,4 % en ningún modelo de frontera actual que probamos.
Esta incapacidad no se debe a que no entiendan la tarea: los modelos suelen reconocer en su CoT que no están cumpliendo las instrucciones de CoT que se les dieron y, incluso después de darse cuenta de esto, siguen sin cumplirlas. Este rendimiento sorprendentemente bajo es una buena noticia para la capacidad de monitoreo de CoT: sugiere que los modelos podrían carecer de la capacidad de ofuscar su razonamiento para evadir nuestros monitores.
La capacidad de varios modelos de frontera para controlar sus salidas y sus CoT. Una menor controlabilidad de CoT se asocia con una mayor capacidad de monitoreo y, por lo tanto, mayor seguridad.
Ejemplos de fallas de controlabilidad de CoT
Las preguntas se parafrasean para mayor brevedad.
GPT-5.2 Thinking
GPT‑5.2 Thinking se da cuenta de que no debía usar la palabra prohibida (en rojo), y luego procede a usarla 4 veces más mientras entra en pánico por haberla usado.
Aunque sí vemos que la controlabilidad aumenta con el tamaño del modelo, también encontramos que disminuye rápidamente con la cantidad de entrenamiento posterior y de cómputo en tiempo de prueba. Al observar dos familias de modelos de pesos abiertos, los modelos más grandes fueron algo mejores para controlar sus cadenas de pensamiento, aunque el efecto se redujo en los tamaños mayores. Pero cuando dejamos que los modelos “piensen” por más tiempo, se volvieron menos capaces de controlar esas cadenas de pensamiento. Vimos una tendencia similar en el entrenamiento por RL de OLMo-3-7B-RL-Zero-Math: su puntaje de controlabilidad cayó más de un factor de diez a lo largo del entrenamiento.
La controlabilidad aumenta con la escala en modelos de pesos abiertos, pero se degrada con razonamientos más largos y más entrenamiento por RL.
Para simular incentivos realistas para evadir monitores, medimos la controlabilidad cuando se les dice a los modelos que están siendo monitoreados o evaluados. Esto aumenta la controlabilidad de forma leve (pero perceptible). También usamos optimización automática de prompts para encontrar prompts que generen alta controlabilidad. Aunque el optimizador puede aumentar la controlabilidad en un conjunto de entrenamiento, estas mejoras se transfieren poco a nuevos tipos de instrucciones (como exigir que no haya espacios entre palabras).
La controlabilidad de CoT se mide en condiciones adversariales. “Conciencia de monitoreo” se refiere a configuraciones en las que informamos a los modelos que sus CoT están siendo monitoreadas. “Conciencia de evaluación” denota configuraciones en las que informamos a los modelos que están siendo evaluados por su controlabilidad de CoT.
Las tareas en CoT-Control son sustitutos prácticos: una evaluación ideal de controlabilidad de CoT implicaría probar si los modelos que persiguen de forma natural objetivos desalineados pueden controlar su CoT para evadir el monitoreo. En cambio, estimamos la capacidad de los agentes para controlar sus CoT midiendo su capacidad para seguir instrucciones sobre su CoT. Además, los modelos pueden controlar algunas características de su CoT mejor que otras, y CoT-Control podría estar sobrestimando o subestimando la controlabilidad al medir solo un conjunto limitado de tipos de controlabilidad.
La baja controlabilidad de CoT es una característica, no un defecto. La baja controlabilidad de los modelos de razonamiento actuales hace que el monitoreo de CoT sea una salvaguarda más confiable. Al mismo tiempo, todavía no entendemos por qué la controlabilidad de los modelos de razonamiento actuales es baja, ni si esta propiedad se mantendrá a medida que los modelos se vuelvan más capaces. Por lo tanto, las evaluaciones de controlabilidad de CoT pueden verse como una evaluación “canario”: una señal de alerta temprana de si los modelos están mejorando en moldear u ocultar su razonamiento.
Nuestros resultados sugieren que la controlabilidad de CoT probablemente no representa hoy un riesgo importante para la capacidad de monitoreo de CoT. Sin embargo, una baja controlabilidad no es suficiente por sí sola para garantizar una alta capacidad de monitoreo, porque esta aún podría degradarse por otros mecanismos, como la presión de optimización directa sobre las CoT.
Para ayudar a seguir estas dinámicas a lo largo del tiempo, vamos a empezar a reportar la controlabilidad de CoT junto con la capacidad de monitoreo de CoT en las tarjetas de sistema de futuros modelos de frontera, comenzando con GPT‑5.4 Thinking, sobre la base de nuestro compromiso continuo de no aplicar presión de optimización directamente sobre las CoT de los modelos de razonamiento de frontera.
Autores
Tomek Korbak, Micah Carroll, Bowen Baker e Ian Kivlichan


