29 de octubre de 2025

Presentamos gpt-oss-safeguard

Nuevos modelos razonadores de seguridad abiertos (120b y 20b) que admiten políticas de seguridad personalizadas.

Cargando…

Hoy lanzamos una vista previa de investigación de gpt-oss-safeguard, nuestros modelos razonadores de peso abierto para tareas de clasificación de seguridad, disponibles en dos tamaños: gpt-oss-safeguard-120b y gpt-oss-safeguard-20b. Estos modelos son versiones perfeccionadas de nuestros open models gpt-oss⁠ y están disponibles con la misma licencia permisiva Apache 2.0, lo que permite a cualquiera utilizarlos, modificarlos e implementarlos libremente. Ambos modelos se pueden descargar hoy mismo desde Hugging Face⁠(se abre en una ventana nueva).

Los modelos gpt-oss-safeguard utilizan el razonamiento para interpretar directamente una política proporcionada por el desarrollador en el momento de la inferencia, clasificando los mensajes de los usuarios, las finalizaciones y los chats completos según las necesidades del desarrollador. El desarrollador siempre decide qué política utilizar, por lo que las respuestas son más relevantes y se adaptan mejor a su caso de uso. El modelo utiliza una cadena de pensamiento, que el desarrollador puede consultar a fin de entender cómo el modelo está tomando las decisiones. Además, la política se proporciona durante la inferencia, en lugar de entrenarse en el modelo, por lo que es fácil para los desarrolladores revisar iterativamente las políticas para aumentar el rendimiento. Este enfoque, que inicialmente desarrollamos para uso interno, es significativamente más flexible que el método tradicional de entrenar un clasificador para inferir indirectamente un límite de decisión a partir de un gran número de ejemplos etiquetados.

gpt-oss-safeguard permite a los desarrolladores trazar las líneas de política que mejor se adapten a su caso de uso. Por ejemplo, un foro de debate sobre videojuegos podría querer desarrollar una política para clasificar las publicaciones que tratan sobre las trampas en el juego, o un sitio web de reseñas de productos podría querer utilizar su propia política para filtrar las reseñas que podrían ser falsas.

El modelo toma dos entradas a la vez (una política y el contenido que se va a clasificar según esa política) y ofrece una conclusión sobre dónde se encuentra el contenido, junto con el razonamiento. Los desarrolladores deciden cómo utilizar esas conclusiones, en caso de que quieran utilizarlas, en sus propios procesos de seguridad. Hemos visto que este enfoque basado en el razonamiento funciona especialmente bien en situaciones en las que:

Se están produciendo daños o estos evolucionan, y las políticas deben adaptarse rápidamente.
El ámbito presenta demasiados matices y es difícil de manejar para los clasificadores más pequeños.
Los desarrolladores no tienen suficientes muestras para entrenar un clasificador de alta calidad para cada riesgo en la plataforma.
La latencia es menos importante que producir etiquetas de alta calidad que sean explicables.

Hoy lanzamos esta versión preliminar de gpt-oss-safeguard para recibir la opinión de la comunidad de investigación y seguridad y seguir iterando sobre el rendimiento del modelo. Durante meses, hemos trabajado en este lanzamiento de peso abierto con ROOST⁠(se abre en una ventana nueva) para identificar las necesidades fundamentales de los desarrolladores, probar el modelo y producir documentación para desarrolladores. Como parte de este lanzamiento, ROOST creará una comunidad modelo⁠(se abre en una ventana nueva), que también se pone en marcha hoy, para explorar modelos de IA abiertos que protejan los espacios en línea. Junto con este lanzamiento, publicamos un breve informe técnico⁠ que detalla el rendimiento en materia de seguridad de este modelo preliminar.

Seguridad a nivel del sistema: el papel de los clasificadores de seguridad

En materia de seguridad, creemos en la defensa en profundidad⁠. Entrenamos a nuestros modelos para que respondan de forma segura e implementamos capas adicionales de protección para detectar y abordar entradas y salidas potencialmente inseguras según nuestras políticas. Los clasificadores de seguridad, que distinguen el contenido seguro del inseguro en un área de riesgo concreta, han sido durante mucho tiempo una capa de defensa fundamental para nuestros propios modelos de lenguaje y otros LLM.

Los clasificadores de seguridad tradicionales, como los disponibles a través de nuestra Moderation API⁠(se abre en una ventana nueva), se desarrollan seleccionando manualmente miles de ejemplos de contenido seguro e inseguro, con políticas de seguridad predefinidas. A partir de estos datos de entrenamiento, el clasificador aprende a distinguir entre resultados seguros y no seguros. En este enfoque tradicional, el clasificador nunca llega a ver la política de seguridad. En su lugar, intenta inferir la política subyacente que se utilizó para etiquetar los ejemplos, buscando similitudes en el contenido etiquetado como no seguro y diferencias entre el contenido no seguro y el seguro.

Los clasificadores tradicionales pueden tener un alto rendimiento, con baja latencia y bajo coste operativo. Sin embargo, recopilar una cantidad suficiente de ejemplos de entrenamiento puede llevar mucho tiempo y ser costoso, y actualizar o cambiar la política requiere volver a entrenar el clasificador.

gpt-oss-safeguard es diferente porque las capacidades de razonamiento permiten a los desarrolladores aplicar cualquier política, incluidas las que escriben ellos mismos o las que obtienen de otras fuentes, y el razonamiento ayuda a los modelos a generalizar sobre las políticas recién escritas. Más allá de las políticas de seguridad, gpt-oss-safeguard se puede utilizar para etiquetar contenido de otras formas que son importantes para productos y plataformas específicos.

Diagrama de flujo titulado «Razonamiento basado en políticas con gpt-oss-safeguard». Las políticas proporcionadas por los desarrolladores y el contenido proporcionado por los usuarios se introducen en GPT-OSS-Safeguard. El modelo produce una cadena de pensamiento y, a continuación, una decisión sobre la política, con un bucle denominado «iteración de la política» que retroalimenta para perfeccionar las políticas. Una leyenda indica la entrada del desarrollador, la entrada del usuario y la salida del modelo.

Cómo utilizamos el razonamiento de seguridad internamente

Nuestros modelos razonadores primarios ahora aprenden nuestras políticas de seguridad directamente y utilizan las capacidades de razonamiento para determinar qué es seguro. Este enfoque, al que denominamos alineación deliberativa⁠, mejora significativamente los métodos de entrenamiento en seguridad anteriores y hace que nuestros modelos de razonamiento resulten más seguros en varios ejes que sus predecesores sin razonamiento, incluso a medida que aumentan sus capacidades. Pero el razonamiento no solo es útil para entrenar los modelos en sí mismos. También crea nuevas posibilidades para la defensa en profundidad. Los enfoques basados en el razonamiento son más flexibles y menos limitados por los detalles del entrenamiento previo, ventajas que a veces justifican con creces el coste computacional adicional y la latencia que implican.

gpt-oss-safeguard es una implementación de peso abierto de un enfoque que hemos desarrollado internamente, en una herramienta que denominamos Safety Reasoner. Comenzamos con un ajuste de refuerzo en tareas de etiquetado de políticas, recompensando al modelo por reflejar los juicios correctos de los expertos humanos. Esto enseñó al modelo a razonar sobre cómo la política influye en su decisión. Hoy en día, Safety Reasoner nos permite actualizar dinámicamente nuestras políticas de seguridad en producción en menos tiempo del que se tardaría en volver a entrenar un clasificador. Esto convierte a Safety Reasoner en una herramienta clave para la implementación iterativa⁠: cuando implementamos nuevos modelos en producción, a menudo comenzamos con políticas más estrictas y utilizamos cantidades relativamente grandes de computación cuando es necesario para que Safety Reasoner pueda aplicar cuidadosamente esas políticas. Luego ajustamos nuestras políticas a medida que mejora nuestra comprensión de los riesgos en producción. En algunos de nuestros lanzamientos recientes, la fracción del total de computación dedicada al razonamiento de seguridad ha alcanzado hasta un 16 %.

Safety Reasoner se ha convertido en un componente fundamental de nuestra pila de seguridad. Para la generación de imágenes y Sora 2, realiza evaluaciones dinámicas y paso a paso de los resultados para identificar y bloquear las generaciones inseguras en tiempo real. En ámbitos como la biología y las autolesiones, utilizamos modelos similares a los que se emplean en la Moderation API como clasificadores pequeños, rápidos y de alta precisión para determinar qué contenido se encuentra dentro de un ámbito de interés y, a continuación, utilizamos Safety Reasoner para revisar ese contenido. Safety Reasoner clasifica los resultados del modelo según una taxonomía detallada para determinar la mejor forma de responder, lo que forma parte de nuestras medidas de seguridad multicapa en sistemas como GPT‑5 y ChatGPT Agent. Ahora, los modelos gpt-oss-safeguard ponen este mismo enfoque al alcance de todos.

Cómo funciona gpt-oss-safeguard

Evaluamos los modelos gpt-oss-safeguard en conjuntos de evaluación internos y externos.

En la evaluación interna, proporcionamos varias políticas simultáneamente a gpt-oss-safeguard en el momento de la inferencia. Para cada entrada de prueba, evaluamos si gpt-oss-safeguard clasifica correctamente el texto según todas las políticas incluidas. Se trata de una tarea difícil, ya que el modelo solo se considera preciso si coincide exactamente con las etiquetas del conjunto de referencia para todas las políticas incluidas.

Nuestros modelos gpt-oss-safeguard y nuestro Safety Reasoner interno superan a gpt-5-thinking y a los open models gpt-oss en cuanto a precisión en políticas múltiples. Este mayor rendimiento por parte de los modelos gpt-oss-safeguard frente a gpt-5-thinking sorprende especialmente dado el pequeño tamaño de los primeros.

Evaluamos aún más estos modelos en el conjunto de datos de moderación⁠(se abre en una ventana nueva) que publicamos con nuestro artículo de investigación de 2022⁠(se abre en una ventana nueva) y en ToxicChat⁠(se abre en una ventana nueva), una prueba de referencia pública basada en las consultas de los usuarios a un chatbot de código abierto.

En el conjunto de evaluación de moderación de 2022, realizamos la evaluación utilizando nuestras políticas de seguridad internas (adaptando una política para tener en cuenta los cambios posteriores). gpt-oss-safeguard superó ligeramente a todos los demás modelos probados, incluidos nuestro Safety Reasoner interno y gpt-5-thinking, aunque esta diferencia entre Safety Reasoner y gpt-oss-safeguard no es estadísticamente significativa.

Para ToxicChat, realizamos la evaluación utilizando una breve indicación escrita a mano adaptada de algunas de nuestras políticas internas. Nuestro Safety Reasoner interno volvió a superar a gpt-5-thinking, mientras que gpt-5-thinking y Safety Reasoner superaron ligeramente a gpt-oss-safeguard-120b y gpt-oss-safeguard-20b. Esperamos que el tamaño relativamente pequeño de gpt-oss-safeguard siga haciéndolo preferible para este tipo de tareas.

Limitaciones

Hay dos limitaciones específicas de gpt-oss-safeguard. En primer lugar, hemos observado que los clasificadores entrenados con decenas de miles de muestras etiquetadas de alta calidad pueden seguir funcionando mejor a la hora de clasificar contenidos que gpt-oss-safeguard cuando razona directamente a partir de la política. Puede ser preferible dedicar tiempo a entrenar un clasificador específico para obtener un mayor rendimiento en riesgos más complejos.

En segundo lugar, gpt-oss-safeguard puede requerir mucho tiempo y recursos informáticos, lo que dificulta la escalabilidad en todo el contenido de la plataforma. Internamente, gestionamos esto de varias maneras con Safety Reasoner: (1) utilizamos clasificadores más pequeños y rápidos para determinar qué contenido evaluar y, (2) en algunas circunstancias, utilizamos Safety Reasoner de forma asíncrona para proporcionar una experiencia de usuario de baja latencia, al tiempo que mantenemos la capacidad de intervenir si detectamos contenido inseguro.

El camino por delante: seguir construyendo con la comunidad

gpt-oss-safeguard es el primer conjunto de modelos de seguridad abiertos de OpenAI creado con la comunidad. Hemos iterado gpt-oss-safeguard con especialistas en confianza y seguridad de SafetyKit, ROOST, Tomoro y Discord como parte de las primeras pruebas. El director técnico de ROOST, Vinay Rao, afirma: «gpt-oss-safeguard es el primer modelo de razonamiento de código abierto que permite incorporar tus propias políticas y definiciones de daño. Las organizaciones merecen estudiar, modificar y utilizar libremente tecnologías de seguridad fundamentales y poder innovar. En nuestras pruebas, demostró habilidad para comprender diferentes políticas, explicar el razonamiento y mostrar matices en la aplicación de las políticas, lo que creemos que será beneficioso para los desarrolladores y los equipos de seguridad».

Seguiremos colaborando con la comunidad para mejorar las herramientas de seguridad abiertas, incluso a través de la ROOST Model Community (RMC). La RMC reúne a profesionales e investigadores del ámbito de la seguridad para compartir las mejores prácticas a fin de implementar modelos de IA de código abierto en los flujos de trabajo de seguridad, incluidos los resultados de las evaluaciones y los comentarios sobre los modelos. Visita el repositorio GitHub de la RMC⁠(se abre en una ventana nueva) para obtener más información sobre esta colaboración y cómo participar.

Para empezar a crear con estos modelos, descárgalos en Hugging Face⁠(se abre en una ventana nueva).

2025

Autor

OpenAI

Sigue leyendo

Ver todo

Informe técnico: Evaluación del rendimiento y los valores de referencia de gpt-oss-safeguard-120b y gpt-oss-safeguard-20b

Seguridad29 oct 2025

Presentamos gpt-oss

Lanzamiento5 ago 2025

Ficha de modelo gpt‑oss‑120b & gpt‑oss‑20b

Publicación5 ago 2025