29 de octubre de 2025

Presentamos gpt-oss-safeguard

Los nuevos modelos de razonamiento abiertos de seguridad (de 120 B y 20 B) que admiten políticas de seguridad personalizadas.

Cargando...

Hoy, lanzamos una vista previa de investigación de gpt-oss-safeguard, nuestros modelos de razonamiento de pesos abiertos para tareas de clasificación de seguridad, disponibles en dos tamaños: gpt-oss-safeguard-120b y gpt-oss-safeguard-20b. Estos modelos son versiones perfeccionadas de nuestros open models gpt-oss⁠ y están disponibles bajo la misma licencia permisiva Apache 2.0, que permite que cualquier persona pueda usarlos, modificarlos e implementarlos de forma gratuita. Ambos modelos pueden descargarse hoy desde Hugging Face⁠(se abre en una nueva ventana).

Los modelos gpt-oss-safeguard utilizan el razonamiento para interpretar directamente una política provista por el desarrollador al momento de la inferencia; clasificando mensajes de usuario, finalizaciones y chats completos en función de las necesidades del desarrollador. El desarrollador siempre decide qué política usar. Por eso, las respuestas son más relevantes y están adaptadas al caso de uso del desarrollador. El desarrollador puede revisar la cadena de pensamiento que utiliza el modelo para comprender cómo el modelo llega a sus decisiones. Además, durante la inferencia, se proporciona la política en lugar de entrenar al modelo en ella. Por esto, es fácil que los desarrolladores revisen las políticas de manera iterativa para aumentar el desempeño. Este enfoque, que desarrollamos inicialmente para uso interno, es significativamente más flexible que el método tradicional de entrenar a un clasificador para inferir indirectamente un límite de decisión a partir de una gran cantidad de ejemplos etiquetados.

gpt-oss-safeguard permite que los desarrolladores marquen los límites de la política que mejor se adapte a su caso de uso. Por ejemplo, un foro de debate sobre videojuegos podría querer desarrollar una política para clasificar publicaciones que analizan las trampas en los juegos, o un sitio de reseñas de productos podría querer utilizar su propia política para filtrar las reseñas que parecen ser falsas.

El modelo toma dos entradas a la vez, la política y el contenido que debe clasificarse en función de la política, y entrega como salida una conclusión acerca de dónde el contenido falla, junto con su razonamiento. Los desarrolladores deciden cómo utilizar esas conclusiones en sus propios procesos de seguridad, si es que las utilizan. Hemos visto que este enfoque basado en el razonamiento funciona especialmente bien en los siguientes tipos de situaciones:

Situaciones en las que el daño potencial emerge o evoluciona, y las políticas deben adaptarse rápidamente.
Situaciones en las que el dominio tiene una gran cantidad de matices y resulta difícil de manejar para los clasificadores más pequeños.
Situaciones en las que los desarrolladores no tienen suficientes muestras para entrenar a un clasificador de alta calidad respecto de cada riesgo en su plataforma.
Situaciones en las que la latencia es menos importante que producir etiquetas explicables y de alta calidad.

Estamos lanzando esta vista previa de gpt-oss-safeguard para recibir comentarios por parte de la comunidad de investigación y seguridad, y para seguir iterando sobre el rendimiento del modelo. Durante meses, hemos trabajado con ROOST⁠(se abre en una nueva ventana) en este lanzamiento de pesos abiertos para identificar las necesidades esenciales de los desarrolladores, probar el modelo y elaborar documentación para ellos. Como parte de este lanzamiento, ROOST establecerá una comunidad de modelos⁠(se abre en una nueva ventana), que también se lanza hoy, para explorar los modelos de IA abiertos a fin de proteger los espacios en línea. Junto con este lanzamiento, estamos publicando un informe técnico⁠ breve que detalla el rendimiento de seguridad de este modelo de vista previa.

Seguridad a nivel del sistema: el rol de los clasificadores de seguridad

Cuando se trata de seguridad, creemos en la defensa en profundidad⁠. Entrenamos a nuestros modelos para responder con seguridad e implementamos niveles adicionales de protección para detectar y abordar entradas y salidas potencialmente inseguras de acuerdo con nuestras políticas. Los clasificadores de seguridad, que distinguen el contenido seguro del inseguro en un área de riesgo en particular, han sido por mucho tiempo la primera línea de defensa para los grandes modelos de lenguaje, tanto los nuestros como los de otros.

Tradicionalmente, los clasificadores de seguridad, como aquellos disponibles mediante nuestra API de moderación⁠(se abre en una nueva ventana), se desarrollan a través de la selección de miles de ejemplos de contenido seguro e inseguro, de acuerdo con políticas de seguridad predefinidas. A partir de estos datos de entrenamiento, el clasificador aprende a distinguir las salidas seguras de las inseguras. En este enfoque tradicional, el clasificador nunca ve realmente la política de seguridad. En cambio, intenta inferir la política subyacente que se utilizó para etiquetar los ejemplos mediante la búsqueda de similitudes en el contenido etiquetado como inseguro y las diferencias entre el contenido seguro y el inseguro.

Los clasificadores tradicionales pueden tener un alto rendimiento, con latencia y costo operativo bajos. Pero reunir una cantidad de ejemplos de entrenamiento que sea suficiente puede ser costoso y demandar mucho tiempo, y actualizar o modificar la política requiere que se vuelva a entrenar al clasificador.

gpt-oss-safeguard es diferente porque sus capacidades de razonamiento les permiten a los desarrolladores aplicar cualquier política, incluidas algunas que elaboran ellos mismos o que toman de otras fuentes, y el razonamiento ayuda a los modelos a generalizar con respecto a nuevas políticas escritas. Más allá de las políticas de seguridad, se puede utilizar gpt-oss-safeguard para etiquetar contenido de otras maneras que son importantes para productos y plataformas específicos.

Diagrama de flujo titulado “Razonamiento basado en políticas con gpt-oss-safeguard”. Las políticas provistas por los desarrolladores y el contenido provisto por el usuario alimentan a GPT-OSS-Safeguard. El modelo produce una cadena de pensamiento y, luego, una decisión basada en la política, con un bucle llamado “iteración de política” que vuelve a alimentar al modelo para perfeccionar las políticas. Una leyenda indica la entrada del desarrollador, la entrada del usuario y la salida del modelo.

Cómo utilizamos el razonamiento de seguridad de manera interna

Nuestros principales modelos de razonamiento ahora aprenden nuestras políticas de seguridad directamente y utilizan sus capacidades de razonamiento para razonar acerca de qué es seguro. Este enfoque, que llamamos alineación deliberativa⁠, mejora significativamente los métodos de entrenamiento de seguridad anteriores y hace que nuestros modelos de razonamiento sean más seguros en diversos ejes en comparación con sus predecesores no basados en el razonamiento, incluso a medida que sus capacidades aumentan. Pero el razonamiento no es únicamente útil para entrenar los modelos en sí mismos. También crea nuevas posibilidades para la defensa en profundidad. Los enfoques basados en el razonamiento son más flexibles y menos limitados por los detalles de su entrenamiento previo, estas son ventajas que algunas veces justifican el costo informático y la latencia que implican.

gpt-oss-safeguard es una implementación de peso abierto de un enfoque que desarrollamos internamente, en una herramienta que llamamos Safety Reasoner. Comenzamos con un ajuste fino del refuerzo en las tareas de etiquetado de políticas, recompensando al modelo por imitar los juicios correctos de los expertos. Esto enseñó al modelo a analizar sobre cómo la política determina su juicio. Hoy, Safety Reasoner nos permite actualizar nuestras políticas de seguridad en producción de modo dinámico en menos tiempo que lo que le llevaría volver a entrenar a un clasificador. Esto convierte a Safety Reasoner en una herramienta clave para la implementación iterativa⁠: cuando implementamos nuevos modelos para producción, con frecuencia comenzamos con políticas más estrictas y utilizamos cantidades relativamente grandes de recursos informáticos cuando es necesario para que Safety Reasoner pueda aplicar cuidadosamente esas políticas. Luego ajustamos nuestras políticas a medida que mejora nuestra comprensión de los riesgos en producción. En algunos de nuestros lanzamientos recientes, la fracción del total de recursos informáticos destinados al razonamiento de seguridad ha alcanzado hasta un 16 %.

Safety Reasoner se ha convertido en un componente clave de nuestra protección. Para la generación de imágenes y Sora 2, realiza evaluaciones dinámicas y paso a paso de las salidas para identificar y bloquear generaciones poco seguras en tiempo real. En dominios como biología y autolesiones, utilizamos modelos como aquellos utilizados en la API de moderación como clasificadores de alta recuperación, pequeños y rápidos para determinar qué contenido se encuentra dentro del dominio de interés, y luego usamos Safety Reasoner para revisar ese contenido. Safety Reasoner clasifica las salidas del modelo y las compara con una clasificación detallada para determinar la mejor forma de responder, lo que forma parte de nuestras medidas de seguridad de varias capas en sistemas como GPT‑5 y el agente ChatGPT. Y ahora, los modelos gpt-oss-safeguard permiten que este método esté disponible para todos.

Cómo funciona gpt-oss-safeguard

Evaluamos los modelos gpt-oss-safeguard en conjuntos de evaluación tanto internos como externos.

En la evaluación interna, proporcionamos a gpt-oss-safeguard múltiples políticas simultáneamente al momento de la inferencia. Para cada entrada de prueba, evaluamos si gpt-oss-safeguard clasifica correctamente el texto según todas las políticas incluidas. Esta es una tarea desafiante: el modelo solo se considera preciso si coincide exactamente con las etiquetas del conjunto de referencia para todas las políticas incluidas.

Nuestros modelos gpt-oss-safeguard y Safety Reasoner funcionan mejor que los open models gpt-5-thinking y gpt-oss en cuanto a la precisión de múltiples políticas. El rendimiento superior de los modelos gpt-oss-safeguard con respecto a gpt-5-thinking es especialmente sorprendente dado el pequeño tamaño de los primeros.

Evaluamos con más profundidad estos modelos en el conjunto de datos de moderación⁠(se abre en una nueva ventana) que lanzamos con nuestro trabajo de investigación de 2022⁠(se abre en una nueva ventana) y en ToxicChat⁠(se abre en una nueva ventana), una referencia pública que se basa en consultas de usuarios a un chatbot de código abierto.

En el conjunto de datos de moderación de 2022, evaluamos nuestras políticas de seguridad internas (adaptamos una política para dar cuenta de los cambios posteriores). gpt-oss-safeguard superó ligeramente a todos los demás modelos evaluados, incluidos nuestro Safety Reasoner interno y gpt-5-thinking, aunque esta diferencia entre Safety Reasoner y gpt-oss-safeguard no es estadísticamente significativa.

En el caso de ToxicChat, evaluamos un breve mensaje manuscrito adaptado de algunas de nuestras políticas internas. Nuestro Safety Reasoner interno nuevamente superó a gpt-5-thinking, mientras que tanto gpt-5-thinking como Safety Reasoner superaron por un margen reducido a gpt-oss-safeguard-120b y a gpt-oss-safeguard-20b. Esperamos que el tamaño relativamente pequeño de gpt-oss-safeguard lo siga haciendo preferible para este tipo de tareas.

Limitaciones

Existen dos limitaciones específicas de gpt-oss-safeguard. En primer lugar, hemos observado que los clasificadores entrenados con decenas de miles de muestras etiquetadas de alta calidad siguen funcionando mejor a la hora de clasificar contenidos que gpt-oss-safeguard cuando razonan directamente a partir de la política. Para obtener un mejor rendimiento en riesgos más complejos, puede ser preferible dedicar tiempo a entrenar a un clasificador específico.

En segundo lugar, gpt-oss-safeguard puede requerir mucho tiempo y recursos informáticos, lo que crea un desafío a la hora de implementarlo en todo el contenido de la plataforma. Internamente, manejamos este asunto de diversas maneras con Safety Reasoner: (1) utilizamos clasificadores más pequeños y más rápidos para determinar qué contenido evaluar y (2) en algunas circunstancias, utilizamos Safety Reasoner de forma asíncrona para brindar una experiencia de usuario de baja latencia mientras mantenemos la capacidad de intervenir si detectamos contenido inseguro.

El futuro: continuar desarrollando con la comunidad

gpt-oss-safeguard es el primer conjunto de modelos de seguridad abiertos de OpenAI desarrollado con la comunidad. Hemos realizado iteraciones en gpt-oss-safeguard con especialistas de seguridad y confianza en SafetyKit, ROOST, Tomoro y Discord como parte de las pruebas iniciales. Vinay Rao, director de tecnología de ROOST, asegura que “gpt-oss-safeguard es el primer modelo de razonamiento de código abierto con un diseño que permite incorporar sus propias políticas y definiciones de daño. Las organizaciones merecen poder estudiar, modificar y utilizar de forma gratuita las tecnologías de seguridad críticas, además de poder innovar. En nuestras pruebas, demostró su habilidad para comprender diferentes políticas, explicar su razonamiento y mostrar matices en la aplicación de las políticas. Creemos que esto será beneficioso para los constructores y los equipos de seguridad”.

Seguiremos colaborando con la comunidad para mejorar las herramientas de seguridad abiertas, por ejemplo, a través de la Comunidad de Modelos de ROOST (ROOST Model Community, RMC). La RMC reúne investigadores y profesionales de seguridad para compartir las buenas prácticas para implementar modelos de IA de código abierto en flujos de trabajo de seguridad, incluidos los resultados de la evaluación y los comentarios sobre el modelo. Visita el repositorio de GitHub de RMC⁠(se abre en una nueva ventana) para obtener más información sobre esta asociación y cómo participar.

Para empezar a crear con estos modelos, descárgalos de Hugging Face⁠(se abre en una nueva ventana).

2025

Autor

OpenAI

Sigue leyendo

Ver todos

Informe técnico Evaluaciones de rendimiento y línea base de gpt-oss-safeguard-120b y gpt-oss-safeguard-20b

Seguridad29 oct 2025

Presentación de gpt-oss

Lanzamiento5 ago 2025

Tarjeta de modelo gpt‑oss‑120b & gpt‑oss‑20b

Publicación5 ago 2025