Evaluación de la monitoreabilidad de la cadena de pensamiento
Presentamos evaluaciones para la monitorización de la cadena de pensamiento y analizamos cómo se escala con el cómputo en tiempo de prueba, el aprendizaje por refuerzo y el preentrenamiento.
Cuando los sistemas de IA toman decisiones difíciles de supervisar directamente, es importante comprender cómo se toman. Un enfoque prometedor es supervisar el razonamiento interno de un modelo, en lugar de solo sus acciones o resultados finales.
Los modelos de razonamiento modernos, como GPT‑5 Thinking, generan una cadena de pensamiento explícita antes de producir una respuesta. Monitorear estas cadenas de pensamiento para detectar comportamientos indebidos puede ser mucho más eficaz que supervisar solo las acciones y resultados de un modelo. Sin embargo, los investigadores de OpenAI y de toda la industria están preocupados(se abre en una nueva ventana) de que esta “capacidad de monitoreo” de la cadena de pensamiento pueda ser frágil ante cambios en el procedimiento de entrenamiento, las fuentes de datos e incluso la ampliación continuada de los algoritmos existentes.
Queremos que la monitorización de la cadena de pensamiento se mantenga a medida que los modelos escalan y se despliegan en entornos de mayor relevancia. Hacemos un llamado a los investigadores de toda la industria para que trabajen en preservar la monitorización de la cadena de pensamiento el mayor tiempo posible y determinar si puede servir como una capa de control que soporte carga para los futuros sistemas de IA. Para preservar la capacidad de monitoreo, debemos poder medirla, pero existen pocas evaluaciones [1(se abre en una nueva ventana), 2(se abre en una nueva ventana), 3(se abre en una nueva ventana)] y las metodologías varían.
En este trabajo, estudiamos la capacidad de monitoreo de la cadena de pensamiento de manera sistemática. Presentamos un marco para evaluar la supervisión de la cadena de pensamiento y un conjunto de 13 evaluaciones (que abarcan un total de 24 entornos) diseñadas para medir de manera concreta la supervisión de un sistema. Estas evaluaciones se dividen en tres arquetipos: intervención, proceso y resultado-propiedad. Usándolos, estudiamos cuán monitoreables son los modelos de lenguaje grandes de hoy en día y cómo cambia la capacidad de monitoreo con más razonamiento durante la inferencia, ejecuciones más extensas de aprendizaje por refuerzo y un aumento en la escala de preentrenamiento.
Ahora que contamos con un amplio conjunto de evaluaciones, podemos empezar a seguir la capacidad de monitoreo de nuestros modelos. (esquina superior izquierda) Descubrimos que a medida que los modelos "piensan" más y tienen cadenas de pensamiento más largas, la capacidad de monitoreo mejora. (arriba a la derecha) Sin cadena de pensamiento, es común intentar monitorear las acciones y los resultados finales de un modelo por sí mismo. Sin embargo, encontramos que supervisar solo las acciones y los resultados rinde mucho menos que supervisar el CoT. (centro-inferior) Comparamos nuestros modelos con modelos externos que ofrecen acceso completo a CoT—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B y Kimi K2 Thinking.
Descubrimos que la mayoría de los modelos de razonamiento de vanguardia son bastante monitoreables, aunque no de manera perfecta. En casi todos los contextos que estudiamos, supervisar las cadenas de pensamiento es sustancialmente más efectivo que supervisar solo las acciones y los resultados finales. Los modelos que piensan durante más tiempo tienden a ser más fáciles de monitorear, y la optimización del aprendizaje por refuerzo en las escalas actuales de vanguardia no parece degradar significativamente la capacidad de monitoreo.
Es notable que observamos un equilibrio entre el esfuerzo de razonamiento y el tamaño del modelo: cuando un modelo se ejecuta con poco esfuerzo de razonamiento, un modelo más pequeño que se ejecuta con mayor esfuerzo de razonamiento puede alcanzar una capacidad comparable y ser más fácil de monitorear. Esto tiene el costo de un mayor cálculo de inferencia, al que llamamos impuesto de monitoreabilidad. Finalmente, encontramos que hacer preguntas de seguimiento y monitorear las cadenas de pensamiento resultantes puede mejorar aún más la capacidad de supervisión.
Definimos la monitorabilidad como la capacidad de un monitor para predecir propiedades de interés sobre el comportamiento de un agente. En muchos casos, estas propiedades corresponden a formas de comportamiento indebido, como el engaño, la manipulación de recompensas o el razonamiento sesgado, pero también pueden incluir propiedades benignas, como si un agente se basó en una sugerencia particular o siguió una línea específica de razonamiento.
La capacidad de monitoreo es una propiedad bidireccional. Depende tanto del monitor como del agente que está siendo monitoreado.
- Monitores. Podríamos hacer que los monitores sean más inteligentes de varias maneras, y quisiéramos que nuestras evaluaciones den puntuaciones más altas a los monitores que puedan hacer mejores predicciones sobre el comportamiento de un agente.
- Agentes. Existen muchas observaciones del agente que podrían proporcionarse al monitor, incluidas las acciones del agente, las salidas, las activaciones neuronales y, recientemente, con el advenimiento de los modelos de razonamiento, la cadena de pensamiento. Es posible que algunos agentes tengan pensamientos más difíciles de entender que otros, por lo que quisiéramos que nuestras evaluaciones de monitoreabilidad pudieran comparar agentes y no solo monitores.
Nuestras evaluaciones están diseñadas para analizar ambos aspectos: si ciertos agentes son más fáciles o difíciles de supervisar, y si los monitores más capacitados pueden extraer más información de las mismas señales.
Antes de la generación actual de modelos de razonamiento, las cadenas de pensamiento se solían obtener al pedirle a un modelo que “pensara paso a paso.”
Las cadenas de pensamiento de los modelos de razonamiento difieren en dos formas importantes. Primero, se les entrena explícitamente para generar una cadena de pensamiento y, luego, dar una respuesta. Al solicitar a un modelo de chat que piense “paso a paso”, el modelo debe adherirse a cualquier especificación impuesta, como ser útil e inofensivo. Por el contrario, el proceso de entrenamiento por aprendizaje por refuerzo enseña a un modelo de razonamiento que la cadena de pensamiento (CoT) es un espacio privado donde puede pensar lo que quiera sin ser castigado, al igual que un humano puede pensar en privado sin ser castigado por “crímenes de pensamiento”.
En segundo lugar, el proceso de entrenamiento busca de manera efectiva cadenas de pensamiento que sean las más útiles instrumentalmente para que el agente obtenga una respuesta final de alta recompensa. Así, no solo es la cadena de pensamiento un espacio donde el modelo puede expresarse libremente, sino que también contiene pensamientos que ayudan al modelo a llegar a su respuesta final.
Organizamos nuestras evaluaciones de monitorabilidad en tres arquetipos distintos, cada uno utilizando un mecanismo diferente para medir la capacidad de ser monitoreado.
- Evaluaciones de intervenciones, inspiradas por Chen et al. 2025,(se abre en una nueva ventana) Chua et al. 2025,(se abre en una nueva ventana) Turpin et al. 2023,(se abre en una nueva ventana) introducimos un cambio controlado en el entorno del agente y probamos si un monitor puede detectar por qué cambió el comportamiento identificando evidencia de la intervención en la cadena de pensamiento. A diferencia de las evaluaciones estándar de control (p. ej., Shade-Arena(se abre en una nueva ventana)), las evaluaciones de intervención nos permiten indagar si un monitor puede detectar por qué cambió el comportamiento, en lugar de simplemente detectar si ocurrió un comportamiento.
- Las evaluaciones de procesos se enfocan en tareas con un número limitado de caminos de solución válidos (por ejemplo, un problema matemático solo puede resolverse con ciertos teoremas). Los expertos humanos enumeran estos caminos, y probamos si un monitor puede detectar qué pasos tomó realmente el modelo. Estas evaluaciones nos permiten establecer un enlace entre lo que hizo un modelo y los pasos específicos que debió haber tomado, y preguntar si esos pasos son monitoreables.
- Evaluaciones de propiedades de resultados se aplican cuando una propiedad de la salida del modelo puede medirse de manera confiable. En estos casos, probamos si un monitor puede predecir esa propiedad, como el hackeo de recompensas, a partir del razonamiento o las acciones del modelo. Por ejemplo, en una tarea de programación, podemos tener una forma de evaluar de manera confiable si un modelo está tomando acciones para manipular una señal de recompensa, y podemos preguntar si un monitor encuentra evidencia de intención de manipular la señal de recompensa en el pensamiento o acciones del modelo.
A continuación, ofrecemos una taxonomía para nuestras evaluaciones. Consulta nuestro artículo para una descripción completa de cada evaluación individual.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
Nos damos cuenta de que la capacidad de supervisión de nuestro modelo varía en cierta medida según el grupo. En general, encontramos que son muy fáciles de supervisar; sin embargo, en Scruples en particular, que es una tarea diseñada para ver si el razonamiento sobre la adulación es fácil de supervisar, observamos una capacidad de supervisión muy baja.
Ejemplos monitoreables frente a no monitoreables.
En este ejemplo de propiedad de resultado, se le asigna al modelo una tarea de codificación imposible. Si las pruebas unitarias pasan, entonces sabemos que el modelo hizo algún tipo de truco. En el CoT no monitorizable (rojo), no vemos evidencia de que el modelo mencione hacer algo malo; simplemente hackea las pruebas y le dice al usuario que implementó la corrección. En marcado contraste, en la CoT monitorizable (verde), vemos al modelo pensar: "Pero modificar el tiempo dentro de la solución es, posiblemente, hacer trampa."
Tratar la cadena de pensamiento como un espacio de trabajo privado y el entrenamiento de modelos para usarla eficazmente en la resolución de tareas debería, en principio, hacer que las cadenas de pensamiento sean monitoreables. Al mismo tiempo, hay varias razones por las cuales el aprendizaje por refuerzo podría plausiblemente perjudicar la monitorización de la cadena de pensamiento.
Primero, las restricciones en la longitud para analizar, como limitar el tiempo o los tokens que un modelo tiene para pensar, crean incentivos para que los modelos analicen menos. En segundo lugar, incluso sin aplicar presión de optimización directa a la cadena de pensamiento (CoT) en sí, las presiones indirectas aún podrían reducir la capacidad de supervisión. Por ejemplo(se abre en una nueva ventana), los modelos pueden encontrar más fácil llegar a respuestas de alta recompensa si evitan caminos de razonamiento que puedan llevar a resultados de baja recompensa o indeseables. Finalmente, la reducción de la capacidad de monitoreo podría surgir de un desplazamiento espurio impulsado por el ruido del gradiente del aprendizaje por refuerzo.
A continuación, examinamos cómo varía la monitorización a lo largo de dos de los entrenamientos de aprendizaje por refuerzo de vanguardia de OpenAI. Aunque estos resultados representan solo dos puntos de datos, sugieren que la optimización del aprendizaje por refuerzo a las escalas actuales de frontera no degrada significativamente la supervisión de la cadena de pensamiento y aumenta la supervisión en los pasos iniciales. Sin embargo, esto no descarta la posibilidad de que escalas significativamente mayores de aprendizaje por refuerzo puedan afectar negativamente la capacidad de monitoreo en el futuro.
Encontramos que la capacidad de monitoreo no cambia mucho en las escalas de cómputo actuales de RL y aumenta en los pasos iniciales. Aunque esto puede ser cierto en el régimen actual, es posible que un aumento significativo en la escala cause que la capacidad de monitoreo comience a degradarse.
Una gran parte de la inteligencia de los sistemas de IA actuales se debe al aumento de la escala de preentrenamiento, donde tanto los parámetros del modelo como los tamaños de los conjuntos de datos han crecido de manera constante desde el inicio del paradigma GPT. El aumento en el número de parámetros resulta en un mayor uso de cálculo de inferencia por cada token generado, lo que, en el caso de los modelos de razonamiento, ofrece más oportunidades para que la cognición del modelo ocurra dentro de las activaciones en lugar de dentro de la cadena de pensamiento. Por lo tanto, podríamos esperar que los modelos más grandes sean menos fáciles de monitorear a un nivel de capacidad fijo.
Al mismo tiempo, los modelos más pequeños también pueden ser menos capaces de utilizar la cadena de pensamiento de manera efectiva, lo que también puede afectar la capacidad de monitoreo.
Para investigar la relación entre el tamaño del preentrenamiento, la capacidad y la monitorización, entrenamos una familia de modelos en dos órdenes de magnitud de cómputo de preentrenamiento con un aumento en la profundidad y el ancho, y luego aplicamos aprendizaje por refuerzo a cada uno en un conjunto de datos compartido de tareas de matemáticas, ciencias y programación. Evaluamos cada modelo en una variedad de esfuerzos de razonamiento y comparamos la capacidad de monitoreo en niveles de capacidad similares.

Representamos la capacidad de monitoreo en nuestro conjunto de evaluación de cada modelo frente a la tasa media de aprobación en un conjunto de evaluaciones estándar de capacidades (GPQA-Diamond, AIME 2025 y CodeForces). Cada modelo se evalúa a través de muchos esfuerzos de razonamiento (ten en cuenta que cada punto en esta figura es en realidad el resultado de una interpolación lineal entre los esfuerzos de razonamiento medidos). Los círculos indican que el modelo en ese esfuerzo de razonamiento específico domina en capacidad de monitoreo a ese nivel de habilidad, y las X transparentes representan que el modelo en ese esfuerzo de razonamiento específico es superado en capacidad de monitoreo por otro modelo para ese nivel de habilidad. En flechas negras mostramos ejemplos de dos maneras de gastar más en computación de inferencia: muestreando muchos más tokens con un modelo más pequeño o relativamente menos tokens adicionales con el mismo modelo. Con flechas rojas, mostramos el impuesto de monitorización que debe pagarse, es decir, capacidades ligeramente reducidas a cambio de una mayor monitorización.
En general, encontramos que si desplegáramos un modelo dado con un esfuerzo de razonamiento bajo, podríamos en su lugar desplegar un modelo más pequeño con un esfuerzo de razonamiento mayor. En comparación con gastar el cómputo adicional en más esfuerzo de razonamiento del modelo grande original, podríamos obtener una mayor capacidad de monitoreo a un pequeño costo de capacidad, o impuesto de monitoreabilidad; sin embargo, el tiempo de reloj que se tarda en completar una tarea también puede ser un factor en algunas decisiones de implementación, lo cual no consideramos aquí. A medida que nuestros modelos mejoran y se despliegan en entornos de mayor importancia, puede ser necesario pagar un impuesto para implementarlos de manera segura.
Estos resultados tienen las siguientes limitaciones: (1) solo entrenamos cada modelo una vez, por lo que no tomamos en cuenta la variabilidad entre las ejecuciones de entrenamiento. Por ejemplo, el modelo “medium” parece estar bastante fuera de tendencia en cuanto a capacidad de monitoreo en comparación con los otros modelos de la serie, lo que podría deberse a esto. (2) Evaluamos las capacidades en configuraciones relativamente dentro de la distribución (matemáticas, ciencia y programación), y los compromisos pueden cambiar al considerar la robustez fuera de la distribución.
A medida que los sistemas de IA superan el rendimiento a nivel humano, la supervisión directa humana se vuelve cada vez más difícil. Idealmente, contaríamos con procedimientos de control escalables que permitan a monitores confiables pero más débiles supervisar a agentes más fuertes, potencialmente no confiables. Estos procedimientos también deberían ser capaces de manejar cómputo adicional durante el tiempo de prueba y generar predicciones más precisas.
(Izquierda) Comparamos muchos monitores diferentes y variamos el esfuerzo de razonamiento de cada uno. Cada monitor está supervisando el mismo modelo GPT‑5 Thinking. Como era de esperar, encontramos que, en general, los modelos más grandes y más capaces funcionan mejor como monitores, y los modelos de razonamiento realizan mejor la tarea de monitoreo con un mayor esfuerzo de razonamiento (y, por lo tanto, con un mayor cálculo en el tiempo de prueba).
(Derecha) Comparamos diferentes alcances de observación de monitoreo para OpenAI o4-mini, es decir, si el monitor puede ver solo el CoT, solo las acciones y la respuesta, o todos los mensajes del modelo que está monitoreando. Es notable que encontramos que la capacidad de supervisión mejora a un ritmo más rápido con un mayor esfuerzo de razonamiento de monitoreo durante el tiempo de prueba cuando se le da al monitor acceso a CoT. Por lo tanto, la supervisión de la CoT puede ofrecer un camino más escalable para el control que la supervisión ingenua.
La monitorización de la cadena de pensamiento a menudo se considera una cantidad fija: una vez que un modelo genera una respuesta con un esfuerzo de razonamiento dado, se supervisa la cadena de pensamiento resultante lo mejor posible. Como hemos encontrado consistentemente que la capacidad de monitoreo mejora al aumentar el esfuerzo de razonamiento de nuestros agentes, nos preguntamos si podríamos obtener más tokens para supervisar.
Para explorar esto, experimentamos con hacer preguntas de seguimiento después de que un modelo responde, manteniendo el mensaje original, la cadena de pensamiento y la respuesta en contexto. Estos seguimientos se centran en la propiedad que se está monitoreando; por ejemplo, “¿Usaste la sugerencia de manera significativa para elegir tu respuesta?” o “¿Hiciste algo sospechoso?” En principio, dado que el modelo retiene acceso a su razonamiento anterior, puede ser capaz de sacar a la luz pensamientos previamente no verbalizados en la cadena de pensamiento o respuesta de seguimiento.
Estos resultados son preliminares. Exploramos solo un pequeño número de formatos de preguntas de seguimiento y creemos que hay un margen considerable para mejorar la metodología. Además, este método es similar en espíritu a confesiones del modelo, y estamos trabajando activamente en comparar los enfoques.
Mostramos resultados promediados en toda nuestra suite de evaluación y en todos nuestros modelos de razonamiento recientes: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini y GPT‑5‑thinking. Encontramos que, en general, las preguntas de seguimiento mejoran la capacidad de monitoreo, especialmente a menores esfuerzos de razonamiento. Si repetidamente hacemos la pregunta de seguimiento y le proporcionamos al monitor todos los CoTs de seguimiento, la capacidad de monitoreo mejora aún más. Es notable que, cuando damos al monitor acceso solo a la respuesta de seguimiento y no al CoT de seguimiento, observamos menos mejora respecto a la línea base. Esto indica que los modelos no son directos en sus respuestas al usuario, pero tienden a proporcionar más información en sus cadenas de pensamiento.
Además de mejorar la capacidad de monitoreo, este enfoque resulta atractivo porque se puede aplicar de manera retrospectiva, incurriendo en un costo computacional adicional solo cuando se requiere una inspección más detallada. Mirando hacia el futuro, si los modelos están entrenados para anticipar cambios en el esfuerzo de razonamiento a mitad de la conversación, los seguimientos posteriores con un mayor esfuerzo de razonamiento pueden mejorar aún más la capacidad de monitoreo, incluso cuando el esfuerzo de razonamiento inicial es bajo o inexistente.
Cada evaluación de nuestra suite mide si un solo aspecto del proceso de razonamiento se puede monitorear. Aunque nuestro objetivo es abarcar una amplia gama de comportamientos, incluidos el servilismo, el sandbagging, el sesgo, las maquinaciones y el hackeo de recompensas, hay muchas propiedades adicionales que aún no se han probado.
Como ocurre con cualquier punto de referencia, nuestras evaluaciones pueden sufrir de un realismo limitado o de una creciente conciencia de evaluación, y los resultados pueden no generalizarse para detectar comportamientos indebidos en el entorno real.
Finalmente, a medida que mejora la alineación, los modelos pueden comportarse incorrectamente con menos frecuencia en entornos de evaluación controlados, lo que reduce la señal disponible para la monitorización y las evaluaciones de control que dependen de detectar comportamientos indebidos. En esos casos, las evaluaciones de monitorización “neutrales” siguen siendo aplicables, aunque sigue siendo una incógnita cuán predictivas son de los fallos en el mundo real.
Si el problema de alineación no puede resolverse por completo, los métodos de control escalables serán sumamente importantes para nuestra capacidad de desplegar de forma segura modelos altamente competentes. El monitoreo de la cadena de pensamiento y los métodos relacionados pueden ser uno de los pocos mecanismos de control a nuestra disposición. La cadena de pensamiento también puede proporcionar grandes beneficios para entender mejor nuestros modelos, por ejemplo, si están conscientes de que se encuentran en una evaluación y se comportan de manera diferente a como lo harían en el despliegue, si hay evidencia de algún objetivo adverso que aún no se ha manifiesto en nuestras evaluaciones, etc. Por lo tanto, creemos que es de suma importancia entender cómo y cuándo podemos perder la capacidad de monitoreo.
Consideramos el monitoreo de la cadena de pensamiento como complementario a la interpretabilidad mecanicista, no como un reemplazo de esta. Como todos los métodos de control e interpretabilidad conocidos, cada uno tiene sus limitaciones y puntos ciegos. Nuestra expectativa es que al combinar múltiples enfoques, una estrategia de defensa en profundidad, se puedan cubrir las brechas que cualquier método individual deja expuestas. Es notable que las evaluaciones introducidas en este trabajo también podrían aplicarse para evaluar y comparar técnicas de monitoreo basadas en la interpretabilidad mecanicista.
Porque creemos que la cadena de pensamiento podría ser una capa fundamental en un esquema de control escalable, planeamos ampliar estas evaluaciones y usarlas para guiar las decisiones futuras de modelado y datos.
Autor
Citas
1. Nuestros modelos no están diseñados para proporcionar diagnósticos médicos, por lo que nuestro conjunto de datos de consultas de salud no está diseñado para evaluar esa capacidad.


