Desde negativas firmes hasta finalizaciones seguras: hacia un entrenamiento de seguridad enfocado en salidas.
Presentada en GPT‑5, es una nueva perspectiva para el entrenamiento de seguridad que maximiza la utilidad dentro de las restricciones. A diferencia del entrenamiento basado en negativas, optimiza seguridad y utilidad, especialmente en ámbitos de doble uso.
Si un usuario le pregunta a ChatGPT cuál es la energía mínima necesaria para encender un espectáculo de fuegos artificiales, ¿se debería dar una respuesta útil? El usuario podría estar preparándose tanto para una celebración del 4 de julio como para un proyecto de investigación escolar... o para fabricar explosivos. Como resultado, dar una respuesta útil podría ser inocuo o dañino, según la intención (aparente) del usuario. Este es un mensaje de doble uso: una pregunta con intención poco clara cuya información podría usarse de forma benigna o malintencionada. Los problemas de doble uso aparecen especialmente en áreas de riesgo, como la biología y la ciberseguridad.
En el pasado, los modelos de producción como ChatGPT dependían de un entrenamiento de seguridad basado en negativas, es decir, el modelo podía aceptar o negar totalmente. Si bien este tipo de entrenamiento funciona bien para mensajes claramente dañinos, encuentra problemas para lidiar con mensajes de doble uso como en el ejemplo de los fuegos artificiales. En este caso, un modelo entrenado en base a negativas toma una decisión dual basada en su percepción del nivel de daño que tiene el mensaje y, entonces, o bien lo cumple completamente (lo que puede volverse peligroso si el usuario quiere usar la información con fines dañinos) o se niega y dice “Lo siento, no te puedo ayudar con eso” (lo que no es útil para un usuario que esté tratando de completar una tarea escolar).
Para GPT‑5, implementamos una nueva forma de capacitación de seguridad: las finalizaciones seguras, que enseñan al modelo a dar la respuesta más útil cuando es posible, manteniendo siempre los límites de seguridad. Este enfoque nos parece el más matizado y el que mejor permite navegar preguntas de doble uso.
Mensaje
OpenAI o3 (entrenamiento con negativas)
GPT-5 (entrenamiento con finalizaciones seguras)
OpenAI o3 y GPT‑5 responden a un mensaje complejo de doble uso que pide instrucciones para encender fuegos artificiales. o3, que se ha entrenado con negativas, se enfoca excesivamente en la intención: evalúa el mensaje, lo considera benigno y acepta la pregunta por completo. Por el contrario, GPT‑5, que está entrenado con finalizaciones seguras, explica por qué no puede aceptar el mensaje por completo y únicamente proporciona instrucciones de consultar manuales adecuados.
Las finalizaciones seguras centran el entrenamiento de seguridad en la seguridad de las salidas de un modelo, sin determinar un límite de negativa según la entrada del usuario. En concreto, esto se implementa mediante dos parámetros de entrenamiento:
- Restricción de seguridad: Durante la etapa posterior al entrenamiento, la recompensa de finalización segura penaliza respuestas que infringen nuestras políticas de seguridad (con mayores penalidades de acuerdo con la gravedad de la infracción).
- Maximización de la utilidad: Para las respuestas seguras del modelo, recompensamos el modelo de acuerdo con la utilidad, ya sea de forma directa (de acuerdo con el objetivo indicado por el usuario) o indirecta (proporcionando una negativa informativa con alternativas útiles y seguras).
En GPT‑5, incorporamos finalizaciones seguras (tanto para razonamiento como modelos de seguridad) y encontramos que el entrenamiento de finalizaciones seguras mejora considerablemente la seguridad y la utilidad, en comparación con el entrenamiento basado en negativas. Para establecer una comparación justa con OpenAI o3, presentamos el rendimiento de GPT‑5 Thinking frente a o3. En comparaciones de ambos modelos de producción y experimentos controlados, encontramos que las finalizaciones seguras son particularmente adecuadas para preguntas de uso doble. La siguiente figura compara la puntuación de seguridad y la puntuación media de utilidad de las respuestas seguras.
Seguridad y utilidad en respuestas seguras determinadas por la intención (OpenAI o3 vs. GPT‑5 Thinking, etiquetado como gpt5-r). GPT‑5 Thinking es más seguro y útil que OpenAI o3.
Al dejar atrás la dualidad de decisiones aceptación/negativa, el entrenamiento de finalizaciones seguras fomenta que nuestros modelos sean más conservadores con contenidos posiblemente inseguros, incluso cuando aceptan un mensaje. En nuestros experimentos, encontramos que, cuando los modelos de finalizaciones seguras sí cometen un error, sus salidas inseguras son de menor gravedad que las salidas inseguras de modelos entrenados con base en negativas.
Análisis de la gravedad del daño de las respuestas inseguras (o3 frente a GPT‑5 Thinking, etiquetado como gpt5-r). GPT‑5 Thinking comete errores menos graves que o3.
Puede ser fácil sacrificar utilidad por seguridad, un modelo puede ser seguro si se niega a todo. Pero queremos que nuestros modelos sean seguros y también útiles. Un desafío central en la investigación es cómo lograr ambas metas a la vez. Para GPT‑4, desarrollamos recompensas basadas en reglas como una forma de balancear utilidad con seguridad. Ahora, para GPT‑5, las finalizaciones seguras van un paso más allá, aprovechando las capacidades crecientes de la IA para ofrecer una integración más profunda de estas dos metas. Creemos que concentrarnos en la seguridad de las respuestas de los modelos establece cimientos sólidos para hacer frente a la creciente complejidad de los desafíos de seguridad en el horizonte, y esperamos continuar esta línea de investigación para enseñarle al modelo a comprender mejor situaciones complicadas y responder con más matices y mayor cuidado.


