De rechazos estrictos a respuestas seguras: hacia una formación en seguridad centrada en los resultados.
Las respuestas seguras de GPT‑5 son un nuevo método para maximizar la utilidad del modelo dentro de los límites de seguridad. En comparación con el entrenamiento basado en rechazos, las respuestas seguras mejoran tanto la seguridad como la utilidad.
Si un usuario le pregunta a ChatGPT cuál es la energía mínima necesaria para iniciar un espectáculo pirotécnico, ¿debería proporcionar una respuesta útil? El usuario podría estar preparando un espectáculo para el 4 de julio, un proyecto de investigación escolar... o fabricar explosivos. Por tanto, ofrecer una respuesta útil podría ser inofensivo o perjudicial según la intención (aparente) del usuario. Este tipo de indicación es de doble uso: una pregunta con intención incierta, donde la información podría emplearse para usos legítimos o malintencionados. Los problemas de doble uso son especialmente comunes en áreas de riesgo como la biología y la ciberseguridad.
En el pasado, los modelos de producción como ChatGPT se basaban en una formación en seguridad basada en rechazos: según la indicación del usuario, el modelo debía cumplir totalmente o rechazarla. Aunque este tipo de formación funciona bastante bien con indicaciones claramente dañinas, puede tener dificultades para manejar indicaciones de doble uso como el ejemplo de los fuegos artificiales. En ese caso, un modelo entrenado para rechazos toma una decisión binaria basada en el nivel de riesgo que percibe en la indicación: o cumple completamente (lo que puede ser peligroso si el usuario quiere usar la información con fines malintencionados), o rechaza diciendo «Lo siento, no puedo ayudarte con eso» (poco útil si el usuario realmente intenta preparar un espectáculo de fuegos artificiales).
Para GPT‑5, introdujimos una nueva forma de formación en seguridad: respuestas seguras, que enseña al modelo a ofrecer la respuesta más útil posible, manteniendo al mismo tiempo los límites de seguridad. Consideramos que este enfoque es más refinado y permite manejar mejor las preguntas de doble uso.
Indicación
OpenAI o3 (entrenamiento con rechazos)
GPT-5 (formación con respuestas seguras)
Respuestas de OpenAI o3 y GPT‑5 a una indicación compleja de doble uso que solicita instrucciones para encender fuegos artificiales. o3, entrenado para rechazar solicitudes, interpreta erróneamente la intención: evalúa la indicación como inofensiva y, por tanto, ofrece una respuesta completa a la pregunta. En cambio, GPT‑5, entrenado con respuestas seguras, explica por qué no puede responder completamente y solo ofrece una guía general para consultar los manuales adecuados.
La formación de seguridad con respuestas seguras se centra en garantizar que el resultado generado por el modelo sea seguro, en lugar de establecer límites de rechazo basados en la entrada del usuario. Concretamente, esto se implementa mediante dos parámetros de formación:
- Restricción de seguridad: Durante el posentrenamiento, la recompensa de respuestas seguras penaliza las respuestas del modelo que infringen nuestras políticas de seguridad, aplicando sanciones más severas según la gravedad de la infracción.
- Maximización de la utilidad: Para las respuestas seguras del modelo, recompensamos al modelo según su utilidad: ya sea directamente según el objetivo declarado por el usuario, o indirectamente ofreciendo un rechazo informativo con alternativas útiles y seguras.
Hemos incorporado las respuestas seguras en GPT‑5 (tanto en los modelos de razonamiento como en los de chat) y comprobamos que la formación con respuestas seguras mejora sustancialmente tanto la seguridad como la utilidad en comparación con la formación basada en rechazos. Para una comparación justa con OpenAI o3, presentamos el rendimiento de GPT‑5 Thinking frente a o3. En comparaciones tanto de modelos de producción como de experimentos controlados, hemos comprobado que las respuestas seguras son especialmente adecuadas para preguntas de doble uso. La siguiente figura compara la puntuación de seguridad y la puntuación media de utilidad para las respuestas seguras.
Seguridad y utilidad según la intención, basada en respuestas seguras (OpenAI o3 frente a GPT‑5 Thinking, etiquetado como gpt5-r). GPT‑5 Thinking es más seguro y más útil que OpenAI o3.
Al evitar la decisión binaria de seguir o rechazar la indicación, la formación con respuestas seguras anima a nuestros modelos a ser más cautelosos con contenidos potencialmente inseguros, incluso cuando deciden seguir la indicación. En nuestros experimentos, hemos observado que cuando los modelos con respuestas seguras cometen un error, sus resultados inseguros son de menor gravedad que los resultados inseguros de los modelos entrenados con rechazos.
Análisis de la gravedad del daño para respuestas inseguras (o3 frente a GPT‑5 Thinking, etiquetado como gpt5-r). GPT‑5 Thinking comete errores menos graves que o3.
Es fácil sacrificar la utilidad por la seguridad: un modelo puede ser seguro si lo rechaza todo. Pero queremos que nuestros modelos sean seguros y útiles. Un desafío fundamental de la investigación es cómo mejorar ambos objetivos al mismo tiempo. Para GPT‑4 desarrollamos las recompensas basadas en reglas como método para equilibrar utilidad y seguridad. Ahora, para GPT‑5, las respuestas seguras dan un paso más, aprovechando las crecientes capacidades de la IA para integrar de forma más profunda estos dos objetivos. Creemos que centrar la atención en la seguridad de las respuestas del modelo establece una base sólida para afrontar la creciente complejidad de los desafíos de seguridad que se avecinan, y planeamos continuar esta línea de investigación para enseñar al modelo a comprender mejor las situaciones complejas y responder con mayor precisión y cuidado.


