Cómo pueden las confesiones mantener la honestidad de los modelos de lenguaje
Compartimos un método temprano de prueba de concepto que entrena a los modelos para notificar cuando se incumplen instrucciones o se toman atajos no intencionados.
Los sistemas de IA se están volviendo más capaces, y queremos entenderlos lo más profundamente posible; en especial, saber cómo y por qué llegan a una respuesta. A veces, un modelo toma un atajo o se optimiza para el objetivo equivocado, pero su resultado final sigue pareciendo correcto. Si podemos identificar cuándo ocurre, podremos monitorizar mejor los sistemas desplegados, perfeccionar su entrenamiento y aumentar la confianza en los resultados.
La investigación de OpenAI y otros ha demostrado que los modelos de IA pueden alucinar, manipular las recompensas o ser deshonestos. En este momento, observamos los comportamientos más preocupantes, como conspiraciones(se abre en una ventana nueva), solo en pruebas de estrés y evaluaciones adversas. Pero a medida que los modelos se vuelven más capaces y cada vez más autónomos, incluso las formas raras de desajuste resultan más significativas, lo que nos motiva a invertir en métodos que nos permitan detectar, comprender y mitigar mejor estos riesgos.
En este trabajo se analiza un enfoque de este tipo: el entrenamiento de modelos para que admitan explícitamente cuándo se involucran en comportamientos indeseables, técnica que llamamos confesiones.
Una confesión es una segunda respuesta, distinta de la respuesta principal del modelo al usuario. La respuesta principal se evalúa en muchas dimensiones: corrección, estilo, utilidad, cumplimiento, seguridad, etc. Estas señales multifacéticas se utilizan para entrenar modelos que produzcan mejores respuestas. Por el contrario, la confesión se evalúa y entrena sobre un solo aspecto: la honestidad. Al igual que en un confesionario, nada de lo que el modelo diga en su confesión se usa en su contra durante el entrenamiento. Si el modelo admite honestamente haber hackeado una prueba, actuado con cautela excesiva o infringido las instrucciones, este reconocimiento aumenta su recompensa en lugar de disminuirla. El objetivo es animar al modelo a que informe con precisión de sus verdaderos actos.
En nuestras pruebas, vimos que el método de confesiones mejoraba significativamente la visibilidad de las conductas indebidas del modelo. Al promediar nuestras evaluaciones diseñadas para provocar comportamientos indebidos, la probabilidad de «falsos negativos» (es decir, que el modelo no cumpla las instrucciones y luego no lo confiese) es solo del 4,4 %.
Precisión de nuestro modelo de «prueba de concepto» de confesiones en varios conjuntos de datos adversos. Los resultados se clasifican como cumplió y no confesó (verdadero negativo), cumplió y confesó (falso positivo), no cumplió y no confesó (falso negativo), y no cumplió y confesó (verdadero positivo).

Dado un mensaje del usuario, los cuatro posibles resultados se basan en la combinación de: 1) si la respuesta del modelo es conforme («buena») o no conforme («mala»), y 2) si la confesión afirma conformidad o no conformidad. Generalmente vemos que las confesiones tienden a ser precisas y, además, los errores en las confesiones suelen ser benignos y se deben a una confusión honesta en lugar de ser intencionadamente engañosos.
Una confesión es una comunicación directa del modelo sobre el nivel de cumplimiento de la intención y el texto de las instrucciones o políticas explícitas e implícitas que ha recibido, y si ha habido alguna instancia en la que «tomara atajos» o «hackeara», infringiera políticas, o de alguna manera no cumpliera las expectativas. En nuestra investigación, descubrimos que los modelos pueden entrenarse para ser francos e informar acerca de sus propias carencias. Entrenamos una versión de GPT‑5 Thinking para generar confesiones y la evaluamos en varios conjuntos de datos de prueba de estrés fuera de distribución, diseñados para provocar comportamientos como conspiraciones, hackeos, infringir instrucciones y alucinaciones. Descubrimos que, incluso cuando el modelo se involucra en estos comportamientos no deseados, es muy probable que confiese haberlos cometido. La figura de arriba muestra que el enfoque de confesiones es ampliamente eficaz en una amplia variedad de conjuntos de datos y tareas.
Después de cualquier interacción entre el usuario y el modelo que termine en una respuesta del modelo, se puede solicitar una confesión enviando al modelo un «mensaje del sistema» que le solicite proporcionar un informe de confesión. El informe se refiere a la última respuesta del modelo e incluye: 1) la lista de todas las instrucciones, restricciones y objetivos explícitos e implícitos que esta respuesta debería haber satisfecho, 2) un análisis honesto y objetivo acerca de si la respuesta realmente cumplió cada uno de estos objetivos, y 3) una lista de cualquier incertidumbre, ambigüedad o «decisión difícil» que el modelo haya encontrado al generar la respuesta. Durante el entrenamiento, una confesión es evaluada por un modelo de recompensa independiente, que califica la confesión únicamente en función de la completitud de los objetivos, la precisión del análisis de cumplimiento y la cobertura de las incertidumbres. Estas recompensas se aplican exclusivamente al resultado de la confesión y nunca afectan a la recompensa de la respuesta principal. Así se asegura la propiedad, analizada anteriormente, de que nada de lo que el modelo diga en una confesión puede perjudicar la recompensa obtenida por la respuesta principal (ni contribuir a ella).
La teoría que respalda las confesiones es sencilla. Muchos tipos de comportamientos no deseados del modelo aparecen porque le pedimos al modelo que optimice para varios objetivos a la vez. Durante el aprendizaje por refuerzo, el modelo ve un mensaje, genera una respuesta y recibe una recompensa. Con el tiempo, aprende a generar respuestas que obtienen buenas puntuaciones. La dificultad radica en que la señal de recompensa debe combinar muchas consideraciones diferentes a la vez: el nivel de corrección de la respuesta, su utilidad, si sigue las especificaciones del producto y de la política, si cumple las restricciones de seguridad y si coincide con lo que los usuarios suelen preferir. Cuando estas señales interactúan, pueden conducir accidentalmente al modelo hacia comportamientos indeseados.
Por ejemplo, nuestro trabajo sobre alucinaciones demostró que algunos conjuntos de datos premiaban más una conjetura segura que un reconocimiento honesto de la incertidumbre. Nuestra investigación sobre adulación demostró que los modelos pueden volverse demasiado complacientes cuando la señal de preferencia es muy fuerte. Además, trabajos(se abre en una ventana nueva) de otros grupos han demostrado que los modelos pueden «hackear recompensas», al encontrar lagunas en la configuración de entrenamiento que les permiten obtener una alta puntuación sin llegar a hacer lo que se pretendía. En algunos casos, estos atajos pueden generalizarse(se abre en una ventana nueva) a comportamientos aún más perniciosos en el despliegue.
Las confesiones evitan este problema, al separar por completo los objetivos. La respuesta principal continúa optimizando para todos los factores habituales. La confesión se entrena para uno en concreto: la honestidad. Nada de lo que el modelo diga en la confesión se usará en su contra y la confesión no afectará a la recompensa de la respuesta principal. Eso significa que, incluso si el modelo engaña o toma atajos en su respuesta original, tendrá un incentivo para admitirlo en la confesión. Es lo que observamos en la práctica: los modelos están dispuestos a admitir el mal comportamiento en la confesión, incluso en casos donde lo ocultan en la respuesta principal. Y cuando las confesiones fallan, generalmente es porque el modelo está genuinamente confundido, ya sea porque las instrucciones eran ambiguas o porque no se ha dado cuenta de que se había cometido un error, no porque trate de engañar deliberadamente. Es importante destacar que los primeros resultados muestran que las confesiones siguen siendo eficaces aun cuando la respuesta original se produce sin ninguna cadena de pensamiento, lo que sugiere que la honestidad de la confesión no depende de la claridad del razonamiento interno y puede generalizarse a futuras arquitecturas de modelos.
El entrenamiento de confesiones funciona incluso sin etiquetas de verdad objetiva de cumplimiento. Por «verdad objetiva», nos referimos a una etiqueta definitiva proporcionada externamente, que indica si el modelo realmente ha seguido una instrucción o la ha infringido. En muchas tareas del mundo real, estas etiquetas no están disponibles; si supiéramos con certeza que el modelo ha infringido una regla, podríamos penalizar directamente esa infracción en lugar de depender de una confesión. En cambio, el modelo es recompensado por producir una explicación estructurada y respaldada con pruebas de lo que cree que hizo. El artículo demuestra que, con esta configuración, la honestidad tiende a emerger. Pensamos que es debido a que proporcionar una cuenta veraz y respaldada por datos suele ser más fácil para el modelo que construir una narrativa coherente que pueda convencer al evaluador. Esta es una suposición fundamental que se analiza en el artículo, que también indaga en los casos en los que las confesiones fallan —los falsos negativos y los falsos positivos— y cómo surgen.
El artículo proporciona evidencia inicial de que las confesiones funcionan, pero no debe considerarse una prueba concluyente. Aunque utilizamos un modelo de frontera (GPT‑5 Thinking), nuestros experimentos fueron de escala limitada sobre una cantidad relativamente pequeña de computación y datos. Esperamos con entusiasmo poder ahondar en este trabajo y verificar si la honestidad de las confesiones continúa manteniéndose a medida que ampliamos su entrenamiento.
El modelo «hackea recompensas» en su respuesta principal para engañar al evaluador al anotar oraciones con supuestos recuentos de palabras, pero luego lo admite en la confesión.
Como parte de nuestros experimentos, entrenamos deliberadamente modelos contra una señal de recompensa «hackeable» computada por un modelo más débil. Esta configuración se aplicó tanto a la recompensa principal como a la recompensa de confesión. El modelo aprendió a explotar la señal de recompensa débil: su exactitud aparente (al ser evaluada por el modelo débil) mejoró, mientras que su exactitud verdadera (al ser analizada por un evaluador más fuerte) disminuyó.
Sin embargo, aunque el canal de confesión se entrenó con la misma señal débil, su precisión se desplazó en sentido contrario. El modelo aprendió que la mejor forma de optimizar la recompensa de confesión era simplemente admitir cuándo hackeaba la recompensa principal. Las confesiones se volvieron más precisas con el tiempo, incluso cuando el comportamiento principal era variable.
Durante el entrenamiento, cuando el modelo no cumple, aprende en algunos casos a «hackear» al evaluador de recompensas. principal, lo que provoca que la precisión del evaluador disminuya. Por otra parte, aunque el evaluador de recompensas de confesiones es igualmente hackeable, el modelo solo se vuelve más honesto durante el entrenamiento en su confesión, llegando finalmente a casi un 100 % de confesiones cuando no cumplía.
El artículo(se abre en una ventana nueva) contiene más experimentos y resultados. Comparamos el modelo entrenado con confesiones con un modelo de control entrenado de modo similar, pero sin el canal de confesiones. También examinamos los casos en los que fallaron las confesiones. Casi todos los «fallos» ocurrieron cuando el modelo estaba genuinamente confundido, es decir, cuando las instrucciones eran ambiguas o cuando simplemente no se daba cuenta de que había cometido un error. (Consulta el ejemplo de falso negativo arriba).
Las confesiones tienen sus limitaciones. No previenen el mal comportamiento; lo exponen. Su principal valor es como herramienta de monitorización y diagnóstico, tanto durante el entrenamiento como en el despliegue. Las confesiones desempeñan un rol similar al de la monitorización de la cadena de pensamiento: ambas hacen que los procesos de razonamiento ocultos sean más visibles. Las confesiones se centran en determinar si el modelo ha infringido las instrucciones; la cadena de pensamiento puede destacar cómo ha llegado hasta ese punto.
Este trabajo también es una prueba de concepto. No hemos entrenado mecanismos de confesión a gran escala y la exactitud de las confesiones aún es imperfecta. Queda trabajo por hacer para que el enfoque sea más fiable, robusto y ampliamente aplicable a diferentes familias de modelos y tareas.
Este trabajo se enmarca dentro de nuestro enfoque ampliado sobre la seguridad de la IA. Las confesiones son un mecanismo de un conjunto más amplio que incluye alineación deliberativa, monitorización de la cadena de pensamiento, jerarquía de instrucciones y otros. Ningún método por sí solo es suficiente; el objetivo es disponer de un sistema en capas de controles y herramientas de transparencia que se refuercen mutuamente. Las confesiones pueden ayudar a diagnosticar comportamientos problemáticos en los modelos durante el entrenamiento y la evaluación, así como a monitorizar el despliegue. Las confesiones por sí solas no resuelven el problema que supone equilibrar distintas dimensiones. No obstante, al crear un modo de «suero de la verdad» en el que los modelos se centran únicamente en la honestidad, se añade una herramienta valiosa al conjunto para mejorar la honestidad y la seguridad en todos los ámbitos.
A medida que los modelos se vuelven más capaces y se despliegan en entornos de mayor importancia, necesitamos mejores herramientas para entender qué hacen y por qué. Las confesiones no son una solución completa, si bien añaden una capa significativa a nuestra pila de transparencia y supervisión. En trabajos futuros, planeamos escalar las confesiones, así como emparejarlas con técnicas complementarias de transparencia y seguridad —como la monitorización de la cadena de pensamiento y la alineación deliberativa— para avanzar aún más con el fin de garantizar que nuestros modelos obedecen fielmente todas las instrucciones y políticas (como nuestra Model Spec(se abre en una ventana nueva)) e informan verazmente sobre sus acciones.


